Teradata DataOps助力数据平台敏捷运营
作者:张振华,Teradata数据架构师
业务与IT对数据平台有不同的诉求。业务部门想要更好、更快地访问数据,满足对数据和分析的业务需求,尽早创造价值,“不想经历 IT 官僚主义”,希望有一个受监控的、优化的分析生态系统。
IT部门想做得更便宜、更快,支持未来的实时、流媒体、CDC等数据集成与交互模式。
数据平台需要工业化来满足这些业务与IT需求。作为一个概念,数据工业化始于2011年,被定义为可重复的、可靠的、可持续的、符合规范的交付数据和分析的方法。
Teradata公司于2019年提出了数据工业化框架:围绕数据的加工与利用,进行工业化升级,助力企业构建基于数据运营(DataOps) 、BI运营(BIOps)、企业特征存储运营(EFSOps)、分析运营(AnalyticalOps)的体系化、规模化数据运用和分析能力。
工业化的开发过程是敏捷和动态的,从数据探索到业务使用,提供端到端的自动化处理流程,让数据的整个加工和使用流程更加便捷。数据工业化是数据加工与分析过程的精简化和自动化。
图1:Teradata数据工业化框架
DataOps包括四大关键支柱:持续集成和部署 (CI/CD)、编排(Orchestration)、测试和监控,帮助数据团队实现目标。
1、持续集成/持续部署:持续满足用户需求是DataOps原则。企业的数据并不是完全紧密耦合的,各种数据也不具备同样等级的重要性、质量,以及需求紧迫性,数据科学与报表用户等不同类型用户对数据的要求不一样,开发人员可以根据业务需求对数据进行持续的集成与部署。
为支持持续的集成与部署,需要为构成管道的数据和代码提供单一的真实来源。将数据源安全地存放在中央存储库中,在整个开发过程中由DataOps 确保源数据保持不变,可以按需进行团队并行开发,从而减少数据开发的循环次数。
Teradata DataOps信息架构与标准数据仓库架构相同,显示了数据如何在不同数据层之间移动。将数据从文件或流或 AWS S3 加载到着陆区(裸数据)中,然后转换为有数据历史的源镜像,再转换为轻度集成。
很多数据不需要转换到核心数据模型中,某些类型用户可以及早访问需要的数据,如源数据镜像可用作数据科学进行模式探查,轻度集成数据可用作构建数据科学模型,经认证的无冗余的高质量、高价值数据可以转换到核心数据模型中,支持企业级需求。
从开发到生产,应尽可能标准化,保证实施过程“更快、更便宜、更好”。持续集成/持续部署的自动化需要工具来支持,同时,工具也提升了标准化。
开箱即用的Teradata DataOps手提箱内容不仅包括软件组件,还包括方案架构、代码生成模板、配置、版本控制存储库和数据处理模式以及各种工具,这些工具一起使用提供了一个易用、高效和全面的协同解决方案。
三十多年来,Teradata积累了大量资产与方法,包括参考信息架构、轻度数据集成方法、Teradata行业数据模型和模型模板、逻辑数据模型到物理数据模型佳实践、映射模板、模式驱动的开发方法、数据交付咨询、敏捷分析方法、DataOps方法等等,包括相关的第三方产品,以及一些开源的工具与方法,被打包进手提箱,帮助客户打造全新的数据加工模式。
相关文章