HashData计算存储分离技术在建行大数据云平台中的应用实践
摘要:建行数据平台经历了数据仓库、新一代数据平台和大数据云平台三个阶段。本文简要的介绍了在第三阶段:大数据云平台这个阶段,HashData计算存储技术如何解决以前的一些问题与挑战以及目前一些建设成果。
阶段:数据仓库 + ODS
2004 年左右,建行开始真正意义上的数据平台建设,当时建行刚刚完成了数据集中。这一阶段的数据平台,建行主要是数据仓库和ODS,使用的技术是Oracle和Teradata。
第二阶段:"新一代"数据平台
2012年开始,建行在新一代核心系统建设中,同步建成了"新一代"数据平台。引入了开放平台上的Greenplum等技术,让大数据处理不再依赖于昂贵的Teradata设备。
第三阶段:大数据云平台
2018年左右,随着大数据和云计算技术的成熟,建行开始进行新型的大数据云平台建设。
金融电子化,公众号:金融电子化赵世辉:数据赋能,平台先行——金融大数据云平台建设经验分享
单集群并发能力和可扩展性不强 多集群之间数据不能共享 升级扩容操作复杂
大数据云平台中,MPP部分采用HashData技术,保留了Greenplum内核,保持技术和接口的延续性。
问题与挑战:Greenplum集群的数据存储在本机的磁盘上,多个集群之间不能共享。如果需要共享数据,需要通过数据交换。
解决方案:大数据云平台数据存储在云平台中的对象存储桶中,可以面向多个集群共享。不同的集群数据可以直接共享,不用来回进行数据传输。
并发能力
问题与挑战:Greenplum单集群并发能力有限,扩大节点数量也不能提高。
解决方案:大数据云平台可以根据需要创建多个集群,共享一份数据,提高并发能力,同时不用复制数据。例如:底层共享一份数据,但是可以根据不同的需求,分别创建报表服务集群、ETL计算集群、即席查询集群等。
升级扩容
问题与挑战:Greenplum升级扩容需要数据再平衡,有时需要4-5小时,影响业务。
解决方案:大数据云平台扩容升级一般对计算集群进行操作,由于新架构下计算和存储分离,数据存储在对象存储里,计算集群的升级扩容不需要数据再平衡,所以升级扩容比以前简单和便捷很多。
大数据云平台(MPP)目前的建设成果
相关文章