hive学习笔记（day01）

2020-07-01 00:00:00 数据专区是一个数据仓库联机

视频课程是尚硅谷的，良心制作，免费分享，B站可看，搜Hive入门

什么是Hive

Hive：由Facebook开源用于解决海量结构化日志的数据统计（重点是海量）。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。（所有的数据集成在一个仓库里，有点数据中转站的意思，跨库操作查询不是梦，各种个性化业务报表以及关联分析不是梦）

补充1：数据仓库是一个集成的的数据集合。
数据源：是数据仓库的数据来源，含外部数据、现有业务系统和文档资料等；
数据集成：完成数据抽取、清洗、转换等任务，数据源中的数据以固定周期加载到数据仓库。
数据服务：为前端和应用提供数据服务，可直接从数据仓库中获取数据供前端应用使用，也可通过OLAP（OnLine Analytical Processing，联机分析处理）服务器为前端应用提供负责的数据服务。

补充2：数据库和数据仓库的区别
数据库操作：一般称为联机事务处理OLTP（On-Line Transaction Processing），针对具体的业务在数据库中的联机操作，具有数据量较少的特点，通常对少量的数据记录增删改查。

数据仓库的操作：一般称为联机分析处理OLAP（On-Line Analytical Processing），是针对某些主题（综合数据）的历史数据进行分析，支持管理决策

Hive的本质是：将HQL转化成MapReduce程序

那么啥是MapReduce嗄，好像似懂非懂，

这里推荐这篇文章miao君：基于Hadoop的数据仓库Hive 基础知识

注意点：

1）Hive处理的数据存储在HDFS

2）Hive分析数据底层的实现是MapReduce

3）执行程序运行在Yarn上(资源调度器，我只记住了这5个字)

1.2 Hive的优缺点

相关文章