HSBC汇丰银行如何分批将数据库搬迁到Google Cloud BigQuery?

2022-04-02 00:00:00 迁移 云端 资料 搬迁 汇丰银行

汇丰银行为66 个国家/地区的3,900 万客户(涵盖消费者和企业) 提供数字化服务,在21 个地区维护资料中心,并拥有超过94,000 台服务器。在打造基础设施的同时,汇丰银行不断遇到容量的挑战,这限制了业务的发展。随着资料增长,HSBC 希望可以多加利用这些资料打造更好的金融服务,但碍于过去的技术,这件事无法妥善实践。若无法从大数据中获得insight 和商业价值,就失去了拥有数据的意义。

因此汇丰银行选择了Google Cloud,谷歌云在数据分析上拥有的 BigQuery 和 Looker 等数据分析软件,将数据存储和数据分析以及数据可视化等打通,一步迁移海量数据并针对数据进行分析。

我们都知道搬迁到云端可以存储和处理更多资料,但是作为一家全球性银行,搬迁系统的同时,也需要保障其稳定跟安全。Google Cloud 希望以适合客户的方式,灵活地为客户提供服务。我们透过自动化流程达到测试fail fast 和部份布署以进行测试。这种搬迁可以消除技术债,并建立了一个资料平台,让我们能够更专注于创新而不是管理基础架构。为此我们发明了新技术并建立可在搬迁时使用的流程。

云端搬迁计划

汇丰银行选择Google Cloud (特别是BigQuery) 是因为它在小型和大型资料集上都运行的非常快,可以同时使用SQL 界面和 Connected Sheets 与之互动。将资料及schema 搬迁到云端后,就不必手动管理每个细节,也不会错过搬迁的时程表。

汇丰银行搬迁的个旧资料仓储已建立了15 年,里头包含30 年的资料、数百万笔交易和180 TB 的资料。它运行了6,500 个ETL 作业和2,500 多个报告,从大约100 个资料源中获取资料。云端迁移通常涉及重新打造或直接移转,但这次汇丰银行与GCP 决定采用不同的策略:迁移(move) 和改进(improve),以确保能充分利用 BigQuery 的功能,包括其容量和弹性,来帮助解决我们的容量限制这一基本问题。

迈出到云端的步

这次搬迁从 mapping 开始,我们选择除了上述典型的资料仓储项目外,还有其他针对金融业的项目,例如:确保资料仓储在特定时间点有一致的资料来源;优先搬迁历史资料以立即减轻旧系统的负担;尽早建立像是管理查询和配额的度量标准。

为了简化工作,汇丰银行与GCP 检查了当前存储在资料仓储中的内容,并查看已使用或未使用的内容,并弃用600 多份确认不再使用的报告,同时研究如何简化ETL 作业,以消除过去搬迁所带来的技术债,让线上运维团队在晚上有更多的休息时间。

以下是这次搬迁使用的三步骤策略:

(一) 将 schema 迁移到 BigQuery

(二) 将报告负载迁移到 BigQuery,添加元资料标记并执行核对过程

(三) 将所有 SQL 脚本转换为兼容 BigQuery 的脚本并移动历史资料。

为自动化搬迁所设计的新工具

为达到自动化搬迁,这次Google 发明了多种加速工具,这些功能不仅吻合搬迁时程,同时消除人为错误。schema 解析器和资料调节工具帮助我们将资料层搬迁到 BigQuery 上。SQL 解析器则将资料访问层搬迁到GCP,而无需单独搬迁3,500 个没有资料沿袭或文档的SQL 实例。这有助于确定工作负载的优先顺序。资料沿袭工具可以识别跨层的组件,找寻之间的依存关系。这对于在筹备阶段发现并消除整合上的问题以及在搬迁期间确定应用程式拥有者至关重要。

打造云的未来

这次搬迁过程是以英国资料中心的搬迁经验作为参考,现在资料仓储中只有一个正确的资料来源,并可以使用授权视图(authorized views) 安全地访问资料。BigQuery 的灵活性和高扩展性让汇丰银行可以尽情浏览资料、更快地获取所需的insight。

(原文翻译自Google Cloud)

如果有任何问题,请在文章下方留言讨论。

官网:Cloud Ace - 谷歌云 | 亚太地区多据点的Google Cloud经销商|GCP

来源 https://zhuanlan.zhihu.com/p/399323879

相关文章