HIVE搭建和使用

2020-07-01 00:00:00 修改数据删除分区加载

HIVE是一个基于Hadoop的数据仓库，适用于一些高延迟性的应用（离线开发）。如果对延迟性要求比较高，则可以选择Hbase。

Hive的工作原理简单的说就是一个查询引擎，接收到一个SQL，然后解析到集群能处理的程序（MR），后返回结果。

前提：需要已经安装配置好hadoop参考：

高威：大数据环境搭建zhuanlan.zhihu.com

Hive介绍

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。(来源：百度百科)

Hive基本上是所有大数据开发必须掌握的一个中间件，HQL也是必须要掌握的一门快速开发语言，目前所对的大数据开发，除了Java、Scala、python等项目式或者脚本式的开发模式外，对于即席查询和快速查询一般都是用hive的比较多。

目前hive计算引擎目前有三种：

set hive.execution.engine=mr;
set hive.execution.engine=spark;
set hive.execution.engine=spark;

相关文章