HashData计算存储分离技术在建行大数据云平台中的应用实践

2022-02-16 00:00:00 数据 集群 平台 扩容 建行

摘要:建行数据平台经历了数据仓库、新一代数据平台和大数据云平台三个阶段。本文简要的介绍了在第三阶段:大数据云平台这个阶段,HashData计算存储技术如何解决以前的一些问题与挑战以及目前一些建设成果。


建行数据平台发展历程


(图片来源:建信金融科技)

阶段:数据仓库 + ODS

2004 年左右,建行开始真正意义上的数据平台建设,当时建行刚刚完成了数据集中。这一阶段的数据平台,建行主要是数据仓库和ODS,使用的技术是Oracle和Teradata。

第二阶段:"新一代"数据平台

2012年开始,建行在新一代核心系统建设中,同步建成了"新一代"数据平台。引入了开放平台上的Greenplum等技术,让大数据处理不再依赖于昂贵的Teradata设备。

第三阶段:大数据云平台

2018年左右,随着大数据和云计算技术的成熟,建行开始进行新型的大数据云平台建设。

金融电子化,公众号:金融电子化赵世辉:数据赋能,平台先行——金融大数据云平台建设经验分享
”新一代“数据平台(Greenplum)的建设成果与挑战
在建行数据平台建设的第二阶段,引用了Greenplum软件。

Greenplum软件可以运行在开放的x86平台之上,相对于Teradata一体机,总体成本大幅下降。而后,Greenplum逐步替代了Teradata。随着存储和加工成本的降低,建行的数据量飞速增长。在2012 年到 2017 年间,数据平台的数据量较之前翻了 100 倍。这时Greenplum平台又遇到了如下挑战:
  • 单集群并发能力和可扩展性不强
  • 多集群之间数据不能共享
  • 升级扩容操作复杂
大数据云平台(MPP)是如何解决的?

大数据云平台中,MPP部分采用HashData技术,保留了Greenplum内核,保持技术和接口的延续性。

但是经过重新构架和设计,新架构采用了计算存储分离的技术,以适应云计算环境和解决超大数据量的处理问题。
数据共享   

问题与挑战:Greenplum集群的数据存储在本机的磁盘上,多个集群之间不能共享。如果需要共享数据,需要通过数据交换。   

解决方案:大数据云平台数据存储在云平台中的对象存储桶中,可以面向多个集群共享。不同的集群数据可以直接共享,不用来回进行数据传输。

并发能力

问题与挑战:Greenplum单集群并发能力有限,扩大节点数量也不能提高。

解决方案:大数据云平台可以根据需要创建多个集群,共享一份数据,提高并发能力,同时不用复制数据。例如:底层共享一份数据,但是可以根据不同的需求,分别创建报表服务集群、ETL计算集群、即席查询集群等。

升级扩容

问题与挑战:Greenplum升级扩容需要数据再平衡,有时需要4-5小时,影响业务。

解决方案:大数据云平台扩容升级一般对计算集群进行操作,由于新架构下计算和存储分离,数据存储在对象存储里,计算集群的升级扩容不需要数据再平衡,所以升级扩容比以前简单和便捷很多。

大数据云平台(MPP)目前的建设成果

截止到2020年10月,建行云化存储计算分离 MPP数据库集群节点有1800多台,共享一份数据,节省了20%左右的数据存储和30%左右的系统资源。

相关文章