CSV&TEXT格式数据文件如何通过外部表的方式导入HashData在青云上面的应用
CSV&TEXT格式数据文件如何通过外部表的方式导入HashData在青云上面的应用
优势:
操作简单,不需要额外的ETL工具
导入是多实例并发执行,效率大概在每个 instance 10-15MB/s
如何通过外部表将 csv & text 格式数据文件,导入到hashdata数据仓库,简约步骤如下:
1 - 创建与hashdata集群在同一区域的对象存储。
2 - 创建API秘钥对。
3 - 将csv或text文件上传到对象存储。
4 - 为每一张表创建外部表。
5 - 通过 insert into <table_name> select * from <external_table_name> 的方式将数据导入hashdata数据仓库。
首先我们创建一个测试的数据文件 testdata.txt,内容如下:
1|a
2|b
1
2
下面就是我们需要进行的操作
通过 pg_dump 将数据库对象(表结构等)导入HashData数据库集群。
1. ---创建测试表
drop table test cascade;
create table test (id int,col1 text)distributed randomly;
2. ---创建测试外部表,此处的秘钥对需要替换为你自己的秘钥对
drop EXTERNAL TABLE e_test;
CREATE READABLE EXTERNAL TABLE e_test (LIKE test)
LOCATION ('oss://zz-a111.pek3b.qingstor.com/testdata.txt oss_type=qs access_key_id=xxx secret_access_key=xxx')
FORMAT 'text' (DELIMITER '|');
3. ---检查一下外部表数据格式是否有冲突
select * from e_test;
4. ---将数据文件中的数据通过外部表的方式导入HashData数据仓库
insert into test select * from e_test;
5. ---检查导入的数据是否完整,准确
select * from test;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
————————————————
版权声明:本文为CSDN博主「GaryZhang000」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zhang50303/article/details/108189584
相关文章