python与hive
1.前言
Hive算是大数据数据仓库的事实标准吧。Hive可以方法HDFS和Hbase上的数据,impala、spark sql、Presto完全能读取hive建立的数据仓库了的数据。一般情况在批处理任务中还在使用Hive,而在热查询做数据展示中大量使用impala、spark sql或Presto。
Hive提供三种访问接口:Cli,web Ui,HiveServer2。
使用python访问Hive则有两种主要的方式:
- 使用python封装Cli接口,使用python组织Hive Sql, 然后使用 hive -e 命令完成终的调用。
- 使用python通过thrift协议访问HiveServer2服务,这种方式也有多个Python模块可以完成。
本文主要介绍Hive自带的python库和pyhive模块
2.环境部署
注意好在linux下进行测试,在windows下sasl安装不成功有编译错误。
pip install sasl
pip install thrift
pip install thrift-sasl
pip install pyhive
相关文章