HashData助力梦想云建设统一数据湖

2022-02-16 00:00:00 数据 计算 资源 中国石油 中油
在过去35年里,中国石油的信息化建设历经了分散建设、集中建设、集成应用三个阶段,石油信息人一直致力于数据库及深化应用的建设。然而,受技术的限制,一直没有统一的技术平台。数据多头录入、标准不统一、功能重复开发、数据流与业务流分离,“三多”现象突出,部分油田公司的统建、自建系统多达上百个,接口上千个,数据不能共享,业务不能协同。响应共享中国石油的战略,把握国际信息化的发展大势,分析上游信息化建设面临的挑战,梦想云提出了“统一数据湖,统一技术平台,强化通用应用建设”的构想,着手构建“共创、共建、共享、共赢”的信息化新生态。
统一数据湖系统简介


梦想云统一数据湖集中管理了中国石油在过去几十年积累的勘探开发实现了数据入湖、治理、共享、分析等功能。梦想云平台融合了国际新IT技术,在上游业务领域率先建成了具有自主知识产权的PaaS私有云平台,有效支持油气勘探、开发生产、协同研究、经营管理、安全环保五大业务应用。

传统数据湖的问题
传统数据湖通常采用Hadoop系统来构建,但是传统的Hadoop存在以下主要问题 :

  • 计算与存储耦合

在Hadoop系统中,数据和计算均由DataNode来完成,存在计算与存储严重耦合的问题。计算存储不分离的架构下,计算资源和存储资源均无法单独扩容,通常为了单独存储PB以上的数据量,计算集群会达到100台以上服务器。但是这实际生产中,计算资源却用不到这么计算资源,硬件服务器利用低,造成了大量计算资源、电力、机柜资源等浪费,整体解决方案成本高居不下。
  • 查询效率低下

Hadoop默认数据分布不是将数据均匀分布到每个数据节点上,在数据查询的时候不能有效的利用集群的全部计算资源,导致查询效率低下,不能即席查询等场景,只能用于离线计算场景。

  • 运维复杂
Hadoop安装运维相对复杂,需要专人技术人员负责。

HashData云端数据湖

  • 弹性扩展
HashData使用了多种创新技术,帮助您以较低成本管理数据。您只要用单个 100GB 节点就可以开始,随着业务的发展,利用HashData 控制台就能一路扩展到使用 1PB 或更多用户数据。
  • 计算存储分离
HashData Cloud v2采用了计算存储分离的架构,数据存放到对象存储上面,计算层采用基于Greenplum内核的MPP计算引擎。当需要少量计算时,用户可以启动小集群。当计算量增加时,用户可以在几分钟内对集群进行扩容,而不需要搬移数据。相对于计算存储绑定的架构,新架构在保证查询需求的同时,减少了服务器资源成本。在PB级的数据量下,可以节省上百万的服务器采购成本。
  • 完全托管

HashData提供完整的自动化部署、监控和管理界面,大大缩短项目实施的周期,降低运维人员的工作量。

建设成果及展望

梦想云1.0 统一数据湖,集中管理了中国石油在过去几十年积累的勘探开发、生产经营等6大领域,物探钻井等15个专业,结构化、非结构化等8类数据,数据总量达到1.7PB,实现了数据入湖、治理、共享、分析等功能。
在1.0版本基础上,梦想云平台2.0数据湖方面将新增连环湖、智能检索、大数据分析、数据洞察四大功能。




关于

HashData: 北京酷克数据科技有限公司大数据产品。酷克数据由前 Apache HAWQ 创始团队成员创立,核心团队由来自 Pivotal,Teradata,IBM,Yahoo! 等公司的分布式数据库、云计算和 Hadoop 专家组成,已获得风险投资基金的投资。我们专注于 SQL on Cloud 云端数据仓库,致力于降低企业进行大数据分析的门槛,推动数据民主化。

中油瑞飞北京中油瑞飞信息技术有限责任公司(简称“中油瑞飞”)是中石油东方地球物理公司的全资子公司,成立于2006年,注册资本1亿元。中油瑞飞公司是中国石油规模大、实力强的IT技术支持单位,承担了中国石油信息技术总体规划中50%以上的工作份额,范围涵盖上中下游领域,是中国石油信息化建设的主力军。中油瑞飞为梦想云开发承建方。


相关解决方案


  • HashData云端数据湖解决方案


  • HashData云端数据仓库解决方案

相关文章