hive学习笔记(day01)

2020-07-01 00:00:00 数据 专区 是一个 数据仓库 联机

视频课程是尚硅谷的,良心制作,免费分享,B站可看,搜Hive入门

什么是Hive

Hive:由Facebook开源用于解决海量结构化日志的数据统计(重点是海量)。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(所有的数据集成在一个仓库里,有点数据中转站的意思,跨库操作查询不是梦,各种个性化业务报表以及关联分析不是梦)

补充1:数据仓库是一个集成的的数据集合。
数据源:是数据仓库的数据来源,含外部数据、现有业务系统和文档资料等;
数据集成:完成数据抽取、清洗、转换等任务,数据源中的数据以固定周期加载到数据仓库。
数据服务:为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP(OnLine Analytical Processing,联机分析处理)服务器为前端应用提供负责的数据服务。

补充2:数据库和数据仓库的区别
数据库操作:一般称为联机事务处理OLTP(On-Line Transaction Processing),针对具体的业务在数据库中的联机操作,具有数据量较少的特点,通常对少量的数据记录增删改查。

数据仓库的操作:一般称为联机分析处理OLAP(On-Line Analytical Processing),是针对某些主题(综合数据)的历史数据进行分析,支持管理决策

Hive的本质是:将HQL转化成MapReduce程序

那么啥是MapReduce嗄,好像似懂非懂,

这里推荐这篇文章miao君:基于Hadoop的数据仓库Hive 基础知识

注意点:

1)Hive处理的数据存储在HDFS

2)Hive分析数据底层的实现是MapReduce

3)执行程序运行在Yarn上(资源调度器,我只记住了这5个字)

1.2 Hive的优缺点

相关文章