Greenplum通过JDBC进行连接、Python连接Greenplum、copy装载大量数据
目录
1. Greenplum通过JDBC进行连接
2. python连接greenplum
3. 使用copy
1. Greenplum通过JDBC进行连接
和其它的JDBC类似,只是连接的URL、driver、jar包不一样而已
URL:jdbc:pivotal:greenplum://192.168.8.111:5432;DatabaseName=dataqualitysystem
driver:com.pivotal.jdbc.GreenplumDriver
jar包的下载方式如下:
从greenplum的jdbc连接器进行下载,下载如下文件
2. 下载需要join创建账号、sign in进行登录。下载的是一个zip压缩文件
将zip压缩文件解压,得到终的PROGRESS_DATADIRECT_JDBC_DRIVER_PIVOTAL_GREENPLUM_6.0.0.000181.jar文件
2. python连接greenplum
安装
如果是centos,则需要安装如下依赖:
[root@bigdata001 opt]#
[root@bigdata001 opt]# yum install postgresql-devel
[root@bigdata001 opt]#
1
2
3
然后再安装python包
pip install psycopg2
1
示例代码如下:
import psycopg2
import psycopg2.extras
if __name__ == '__main__':
conn = psycopg2.connect(dbname="dataqualitysystem",
user="gpadmin",
password="gpadmin123",
host="192.168.8.111",
port="5432")
cursor = conn.cursor(cursor_factory=psycopg2.extras.RealDictCursor)
cursor.execute("select id, name from public.test")
print(cursor.fetchall())
cursor.close()
conn.close()
执行结果如下:
[RealDictRow([('id', 2), ('name', 'er')]), RealDictRow([('id', 3), ('name', 'san')]), RealDictRow([('id', 1), ('name', 'yi')])]
3. 使用copy
采用JDBC insert的方式,效率很低,测试时5W数据执行了差不多15分钟
copy的数据文件必须在greenplum master所在的服务器,因为master用单个进程加载数据,所以数据文件也不能太大。但是执行SQL命令copy的客户端可以在其它服务器上
SQL命令copy示例如下:
copy public.test(id, name) from '/home/gpadmin/test.txt' with (format csv, delimiter '|');
format可以是csv和text
csv:默认逗号分隔符
text:默认制表符tab分隔符
本文来源:https://blog.csdn.net/yy8623977/article/details/121244890
相关文章