HIVE搭建和使用
HIVE是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用(离线开发)。如果对延迟性要求比较高,则可以选择Hbase。
Hive的工作原理简单的说就是一个查询引擎,接收到一个SQL,然后解析到集群能处理的程序(MR),后返回结果。
前提:需要已经安装配置好hadoop参考:
高威:大数据环境搭建Hive介绍
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。(来源:百度百科)
Hive基本上是所有大数据开发必须掌握的一个中间件,HQL也是必须要掌握的一门快速开发语言,目前所对的大数据开发,除了Java、Scala、python等项目式或者脚本式的开发模式外,对于即席查询和快速查询一般都是用hive的比较多。
目前hive计算引擎目前有三种:
set hive.execution.engine=mr;
set hive.execution.engine=spark;
set hive.execution.engine=spark;
相关文章