DolphinDB文本数据加载教程
DolphinDB提供以下4个函数,将文本数据导入内存或数据库:
- loadText: 将文本文件导入为内存表。
- ploadText: 将文本文件并行导入为分区内存表。与loadText函数相比,速度更快。
- loadTextEx: 将文本文件导入数据库中,包括分布式数据库,本地磁盘数据库或内存数据库。
- textChunkDS: 将文本文件划分为多个小数据源,再通过mr 函数进行灵活的数据处理。
DolphinDB的文本数据导入不仅灵活,功能丰富,而且速度非常快。DolphinDB与Clickhouse, MemSQL, Druid, Pandas等业界流行的系统相比,单线程导入的速度更快,多可达一个数量级的优势;多线程并行导入的情况下,速度优势更加明显。
本教程介绍文本数据导入时的常见问题,相应的解决方案以及注意事项。
1. 自动识别数据格式
大多数其它系统中,导入文本数据时,需要由用户指定数据的格式。为了方便用户,DolphinDB在导入数据时,能够自动识别数据格式。
自动识别数据格式包括两部分:字段名称识别和数据类型识别。如果文件的行没有任何一列以数字开头,那么系统认为行是文件头,包含了字段名称。DolphinDB会抽取少量部分数据作为样本,并自动推断各列的数据类型。因为是基于部分数据,某些列的数据类型的识别可能有误。但是对于大多数文本文件,无须手动指定各列的字段名称和数据类型,就能正确地导入到DolphinDB中。
请注意:1.20.0之前的版本不支持导入INT128, UUID和IPADDR这三种数据类型。如果在csv文件中包含这三种数据类型,请确保所用版本不低于1.20.0。
loadText
函数用于将数据导入DolphinDB内存表。下例调用loadText函数导入数据,并查看生成的数据表的结构。例子中涉及到的数据文件请参考附录。
dataFilePath="/home/data/candle_201801.csv"
tmpTB=loadText(filename=dataFilePath);
相关文章