大数据存储技术选型(四)——Hadoop介绍

2020-05-22 00:00:00 数据 分布式 提供 在线 这一

一、Hadoop简介

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

二、Hadoop的市场份额

根据美国纽约奥尔巴尼的调研和咨询公司Transparency Market Research新发布的报告,支持Apache Hadoop部署的硬件、软件和服务将在从现在到2018年期间,以接近55%的年均速度增长。

分析师表示,受私有和公有部门非结构化数据指数增长的驱动,Hadoop市场将从2012年的15亿美元增长到2018年的210亿美元左右。

Hadoop是可和一群商用服务器媲美的受欢迎的处理大量数据的开源框架。它是2005年由一名雅虎工程师发明的。这个框架采用了谷歌首创的编程模式名为MapReduce。

当前Hadoop是市场上流行的技术。交银企服正在致力于Hadoop的切换工作。银联商务已于2016年成功将oracle数据库全部切换Hadoop数据平台。现银商的数据中心已由自贸区的万国数据迁移至武汉关谷软件源。平安科技也有相应的团队在致力于此方面的研究,形成一套完整的产品体系与服务。

三、Hadoop在各个领域中的应用

国内,有百度(集群的规模已经是千台了吧)、淘宝(有自己的文件处理系统TFS),中国移动、搜狗、华为(是社区排名靠前的贡献者)等企业; hadoop的应用场景,给你美国着名科技博客GigaOM的专栏作家Derrick Harris的文章吧,他一直跟踪云计算和Hadoop技术,在近的一篇文章中总结了10个Hadoop的应用场景:
(1)在线旅游:你知道吗,目前全球范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版,其中SearchBI网站曾经报道过的Expedia也在其中。
(2)移动数据:Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。
(3)电子商务:这一场景应该是非常确定的,eBay就是大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。
(4)能源开采:美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。
(5)节能:另外一家能源服务商Opower也在使用Hadoop,为消费者提供节约电费的服务,其中对用户电费单进行了预测分析。
(6)基础架构管理:这是一个非常基础的应用场景,用户可以用Hadoop从服务器、交换机以及其他的设备中收集并分析数据。
(7)图像处理:创业公司Skybox Imaging 使用Hadoop来存储并处理图片数据,从卫星中拍摄的高清图像中探测地理变化。
(8) 诈骗检测:这个场景用户接触的比较少,一般金融服务或者政府机构会用到。利用Hadoop来存储所有的客户交易数据,包括一些非结构化的数据,能够帮助机构发现客户的异常活动,预防欺诈行为。
(9) IT安全:除企业IT基础机构的管理之外,Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。
(10)医疗保健:医疗行业也会用到Hadoop,像IBM的Watson就会使用Hadoop集群作为其服务的基础,包括语义分析等分析技术等。医疗机构可以利用语义分析为患者提供医护人员,并协助医生更好地为患者进行诊断。

四、Hadoop系统拓展能力强

基于Hadoop提供的基础分布式存储及分布式并行处理能力,Apache社区围绕Hadoop衍生出大量开源项目:

数据存储层:HDFS、HBase

数据处理层:YARN、MapReduce

数据接入访问层:Hive、Pig、Mahout、R Connectors

管理层:Oozie、Flume、Sqoop、Zookeeper、Ambari

五、基于Hadoop技术架构数据仓库搭建

Hadoop主要处理两部分数据,一部分是处理离线数据的,一部分是处理在线数据的。

1、数据仓库的核心功能需要搭建Hive上,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。这一部分主要是处理离线数据,也就是EDW部分。

2、在传统数据仓库中,是不处理实时数据的,而Hadoop中的Spark微批量处理模式,可以提供实时处理的功能,但是这一功能经常和数据仓库的功能混淆。事实上,这部分事实数据也是按照常规的方式每天定时批量的方式传给Hive的。

3、基础层可以看作是ODS,提供数据的格式的标准化服务。

4、应用层是供给业务系统做数据回流,以及供下游系统分析和应用的数据。

相关文章