海量数据的分析之HIVE
首先,数据仓库是一个面向主题,稳定的不太会更改的数据,支持管理决策的数据,那么有两种,一种离线数仓,一种实时数仓。一般用的多的是离线数仓
那么HIVE是啥,是一个数据仓库软件,支持使用SQL读取,写入管理分布存储中的大型数据集。hive将真实数据抽象成元数据,提供了命令行及JDBC驱动将用户连到HIVE。
hive基于Hadoop的数据仓库工具,存储的数据底层在HDFS上,HIVE将HDFS上的结构化数据,映射成一张数据库表,类似excel或mysql表。hive的本质是将sql语句转化成mapreduce任务运行,HIVE使用户简化分布式计算程序的编写,集中精力于业务逻辑的处理。
hive不支持delete,update,适用于大数据的分析
HIVE的数据存储,数据库,表,视图,分区。数据库,表,分区对应HDFS上的目录,表数据对应目录下的文件。
HIVE关键3点,建表,导入数据,查询分析
HIVE的数据存储在HDFS中,没有专门的数据存储格式,可支持text file,sequencefile,RCfile,ParquetFlile
HIVE依赖RDBMS帮他存元数据,和一个文件系统帮他存真实数据。
相关文章