Teradata DataOps助力数据平台敏捷运营

2022-02-18 00:00:00 数据 管道 集成 持续 工业化

作者:张振华,Teradata数据架构师



业务与IT对数据平台有不同的诉求。业务部门想要更好、更快地访问数据,满足对数据和分析的业务需求,尽早创造价值,“不想经历 IT 官僚主义”,希望有一个受监控的、优化的分析生态系统。


IT部门想做得更便宜、更快,支持未来的实时、流媒体、CDC等数据集成与交互模式。





Teradata数据工业化框架





数据平台需要工业化来满足这些业务与IT需求。作为一个概念,数据工业化始于2011年,被定义为可重复的、可靠的、可持续的、符合规范的交付数据和分析的方法。


Teradata公司于2019年提出了数据工业化框架:围绕数据的加工与利用,进行工业化升级,助力企业构建基于数据运营(DataOps) 、BI运营(BIOps)、企业特征存储运营(EFSOps)、分析运营(AnalyticalOps)的体系化、规模化数据运用和分析能力。


工业化的开发过程是敏捷和动态的,从数据探索到业务使用,提供端到端的自动化处理流程,让数据的整个加工和使用流程更加便捷。数据工业化是数据加工与分析过程的精简化和自动化。

图1:Teradata数据工业化框架


Teradata DataOps是一个集成的端到端解决方案,它从源系统中提取数据,在结构化数据环境中组织与管理数据,经过简化的、自动化的过程,把数据提供给终用户。

通过加速创建数据和分析管道(Analytics Pipelines)与数据工作流的自动化,尽早交付满足业务需求的高质量数据分析解决方案,帮助客户减少数据采集的时间和成本,提高数据产品的质量,缩短终用户访问数据以进行分析的上市时间。DataOps助力数据工业化的进程。



DataOps如何提升运营效率与质量



DataOps包括四大关键支柱:持续集成和部署 (CI/CD)、编排(Orchestration)、测试和监控,帮助数据团队实现目标。


1、持续集成/持续部署:持续满足用户需求是DataOps原则。企业的数据并不是完全紧密耦合的,各种数据也不具备同样等级的重要性、质量,以及需求紧迫性,数据科学与报表用户等不同类型用户对数据的要求不一样,开发人员可以根据业务需求对数据进行持续的集成与部署


为支持持续的集成与部署,需要为构成管道的数据和代码提供单一的真实来源。将数据源安全地存放在中央存储库中,在整个开发过程中由DataOps 确保源数据保持不变,可以按需进行团队并行开发,从而减少数据开发的循环次数。

图 2:Teradata DataOps 持续集成与部署


2、编排:通过编排把数据工作流中的所有工具连接在一起,并自动化数据的端到端旅程。自动化使开发人员可以腾出时间来构建新的管道,使工程师能够在生产中管理更多管道。业务和技术人员可以了解与测算交付的时间、成本和质量,科学合理编排,从而支持更快、更便宜和更高质量的端到端数据供应。

3、测试:在数据开发中,大约20% 的工作用于
测试质量。
DataOps将测试工作融入到管道中,以检查数据质量和管道功能。因为管道提供了更高质量的数据,工程师不必重复准备数据,不必重复排除相同的错误,从而节省测试时间。

4、监控:对管理处理数据管道的服务器、CPU、内存和存储节点的底层基础架构进行监控很重要。它有助于确定瓶颈和问题发生的时间和地点,帮助了解和优化管道对共享资源的影响。这些元素协同工作可以提高性能,为团队提供信息以优化管道执行。如果监控到位,管道效率的提高,可
以间接降低成本。

通过改进传统SDLC方法,按需建模、自动编码、自动创建测试数据、自动测试、自动投产,实现持续的集成与部署,相比全建模、手工设计、编码、测试与投产的项目,大大缩短数据价值实现的时间。



Teradata DataOps信息架构



Teradata DataOps信息架构与标准数据仓库架构相同,显示了数据如何在不同数据层之间移动。将数据从文件或流或 AWS S3 加载到着陆区(裸数据)中,然后转换为有数据历史的源镜像,再转换为轻度集成。


很多数据不需要转换到核心数据模型中,某些类型用户可以及早访问需要的数据,如源数据镜像可用作数据科学进行模式探查,轻度集成数据可用作构建数据科学模型,经认证的无冗余的高质量、高价值数据可以转换到核心数据模型中,支持企业级需求。


图3:Teradata DataOps信息架构





Teradata DataOps Suitcase 
手提箱



从开发到生产,应尽可能标准化,保证实施过程“更快、更便宜、更好”。持续集成/持续部署的自动化需要工具来支持,同时,工具也提升了标准化。 


开箱即用的Teradata DataOps手提箱内容不仅包括软件组件,还包括方案架构、代码生成模板、配置、版本控制存储库和数据处理模式以及各种工具,这些工具一起使用提供了一个易用、高效和全面的协同解决方案。


三十多年来,Teradata积累了大量资产与方法,包括参考信息架构、轻度数据集成方法、Teradata行业数据模型和模型模板、逻辑数据模型到物理数据模型佳实践、映射模板、模式驱动的开发方法、数据交付咨询、敏捷分析方法、DataOps方法等等,包括相关的第三方产品,以及一些开源的工具与方法,被打包进手提箱,帮助客户打造全新的数据加工模式。

图4:Teradata DataOps Suitcase

Teradata DataOps将佳实践标准化,形成可重复的、可靠的、可持续的、符合规范的自动化流程和方法,在提高客户数据安全性、降低风险的前提下,提供业务响应的敏捷性,降低向分析平台提供数据的成本,支持更快地部署数据以进行分析,确保更快地实现数据价值,降低总拥有成本 (TCO),从而提高投资回报率。



END
来源 https://mp.weixin.qq.com/s/t-Zz_FYfFZ_WMD1EDokTRg

相关文章