Hive踩坑指南
作为数据开发从业人员,对于hive必然是不陌生的。Hive作为Hadoop的数据仓库工具,提供SQL查询功能,然后将其转换为MapReduce任务,从而进行分布式运算。当然,涉及大数据量的时候,这中间的操作花费的时间少不了。作为一名入坑大数据没多久的IT民工,接下来讲一讲Hive当中需要注意的点,避免踩坑~
1、 load本地文件到hive表
有时候需要将本地的一些文件上传到hive表中,首先需要准备好本地文件,存为txt格式,同时需要注意编码格式必须为UTF-8,不然之后会出现乱码。接下来就是将TXT文件上传到HDFS中。同时在hive中建好表。下面是一个简单的示例,仅包含两个字段。
create table temp
(id int, name string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
相关文章