Hive SQL 入门操作

2020-07-01 00:00:00 数据 数据库 文件 指定 海量

本文暂且不说业务,只说操作。

来来来~~~~废话少说,直接上干货。

1.首先介绍大数据的奠基人:google 和 Apache

google三大论文:

Google file system:讲述借助低成本机器有效的存储海量数据;
Google MapReduce:强调快速计算海量数据;
Google BigTable:强调海量数据的快速查询

Apache 公司受到google三大论文的启发,开发出Hadoop分布式系统。

这个分布式系统包括HDFS和MapReduce。HDFS是Hadoop的分布式文件系统,用于存储海量数据。MapReduce用于计算海量数据。

Hbase是基于Hadoop的数据库,访问方式有:通过行键进行随机访问;通过map-reduce脱机或批访问,属于OLTP,方便底层管理人员实时查询明细,具有实时性。Hive是基于Hadoop的数据仓库工具,可以存储,查询,分析数据,属于OLAP。方便决策人员和数据分析人员统计分析历史数据,对时间没有要求。Hive可以借助查询语言SQl将HDFS上存储的结构化文件映射成一张数据库表,并提供类SQL查询功能。本质是将浅学易懂的SQL转换为MapReduce程序,避免编写复杂的MapReduce程序。

2.下面介绍在hive操作的常用SQl语句:

首先,我们一般利用SecureCRSecureFXPortable终端进入远程机器(该机器与Hadoop集群相连),然后进入Hive的命令行。

show databases;
# 列出所有数据库
use   数据库名;
# 使用指定数据库
show  tables;
# 列出某数据库下面的所有表
desc  表名;  
# 列出指定表的所有字段
create table 表名; 
# 创建表
select * from  表名 ;
# 选出指定表的所有列
select * from 表名 limit 10;
# 选出指定表所有列,并输出10条数据
select count* from 表名;
# 统计指定表有多少条数据
select * from 表名 where  pt>='2017-07-07' and pt<='2017-07-16';
# 显示日期为7.7-7.16号的所有数据

相关文章