python与hive

2020-07-01 00:00:00 数据 执行 是一个 返回 查询结果

1.前言

Hive算是大数据数据仓库的事实标准吧。Hive可以方法HDFS和Hbase上的数据,impala、spark sql、Presto完全能读取hive建立的数据仓库了的数据。一般情况在批处理任务中还在使用Hive,而在热查询做数据展示中大量使用impala、spark sql或Presto。

Hive提供三种访问接口:Cli,web Ui,HiveServer2。

使用python访问Hive则有两种主要的方式:

  • 使用python封装Cli接口,使用python组织Hive Sql, 然后使用 hive -e 命令完成终的调用。
  • 使用python通过thrift协议访问HiveServer2服务,这种方式也有多个Python模块可以完成。

本文主要介绍Hive自带的python库和pyhive模块

2.环境部署

注意好在linux下进行测试,在windows下sasl安装不成功有编译错误。

pip install sasl
pip install thrift
pip install thrift-sasl
pip install pyhive

相关文章