DolphinDB文本数据加载教程

2022-03-28 00:00:00 数据函数文件导入文本文件

DolphinDB提供以下4个函数，将文本数据导入内存或数据库：

loadText: 将文本文件导入为内存表。
ploadText: 将文本文件并行导入为分区内存表。与loadText函数相比，速度更快。
loadTextEx: 将文本文件导入数据库中，包括分布式数据库，本地磁盘数据库或内存数据库。
textChunkDS: 将文本文件划分为多个小数据源，再通过mr 函数进行灵活的数据处理。

DolphinDB的文本数据导入不仅灵活，功能丰富，而且速度非常快。DolphinDB与Clickhouse, MemSQL, Druid, Pandas等业界流行的系统相比，单线程导入的速度更快，多可达一个数量级的优势；多线程并行导入的情况下，速度优势更加明显。

本教程介绍文本数据导入时的常见问题，相应的解决方案以及注意事项。

1. 自动识别数据格式

大多数其它系统中，导入文本数据时，需要由用户指定数据的格式。为了方便用户，DolphinDB在导入数据时，能够自动识别数据格式。

自动识别数据格式包括两部分：字段名称识别和数据类型识别。如果文件的行没有任何一列以数字开头，那么系统认为行是文件头，包含了字段名称。DolphinDB会抽取少量部分数据作为样本，并自动推断各列的数据类型。因为是基于部分数据，某些列的数据类型的识别可能有误。但是对于大多数文本文件，无须手动指定各列的字段名称和数据类型，就能正确地导入到DolphinDB中。

请注意：1.20.0之前的版本不支持导入INT128, UUID和IPADDR这三种数据类型。如果在csv文件中包含这三种数据类型，请确保所用版本不低于1.20.0。

loadText函数用于将数据导入DolphinDB内存表。下例调用loadText函数导入数据，并查看生成的数据表的结构。例子中涉及到的数据文件请参考附录。

dataFilePath="/home/data/candle_201801.csv"
tmpTB=loadText(filename=dataFilePath);

相关文章