祁国辉:技术发展角度看,数据中台应该是数据仓库的下一代

2022-07-28 00:00:00 数据 用户 企业 系统 数据仓库

 技术专家 

祁国辉

Oracle 云平台事业部电信行业技术总监

【作者介绍】网名"atiger",前 Oracle 云平台事业部电信行业技术总监。拥有超过25年数据库和数据仓库HK经验。曾创办数据仓库网站:www.dwway.com (数据仓库之路)。



写在前面:


随着中台概念的提出, 业界始终对中台毁誉参半, 这一点就像很多年前的BPR(业务流程重组),支持者认为这是传统企业走向现代化企业的必由之路, 随着BPR的逐步实施, 必然带来企业的涅槃重生,一飞冲天。

但是反对者总认为每个企业都有自己的独特的DNA, 机械地学习和模仿其他企业的业务流程,终必然是邯郸学步,削足适履。

而当中台这个概念被抛出之后, 也引发了大量的争论和评价。



责编 | 韩楠

约 2437 字 | 5 分钟阅读




 以下,Enjoy~ 




在此背景下,我想我们有必要思考,或者不得不重新思考这样的几个关键问题点,到底什么是数据中台?数据中台和数据仓库有什么区别?数据中台和数据挖掘机器学习有什么关系?

我们今天尝试从数据分析发展脉络的角度来看看,数据仓库是在什么背景之下产生的, 数据中台是怎么产生的,从而分析数据仓库和数据中台之间的区别与联系,以便于帮助你深入理解数据中台的核心精髓, 能够少走弯路。

首先, 数据仓库出现在上世纪90年代,主要原因是当企业实现信息化之后,出现了大量的数据资产。一方面大家都觉得这是非常宝贵的财产, 其中蕴含着巨大的价值, 但是另一方面,苦于不知该如何对这些数据进行进一步的处理。

当时大多数企业还埋头于会计电算化,把各种各样的账本,交易记录,用户信息等变成数据。而作为企业的管理者, 迫切想要了解的是, 这些数据背后,有没有什么规律可循?

每月的月度报表, 销售数据的涨跌, 生产线良品率的波动。

基于这些数据,企业的管理层可以有针对性地采取相应的对策来应对,比如利用促销来提升销量, 发现生产线上容易出现问题的卡点并尽心纠正。故而一言以蔽之, 数据仓库实际上是一个和生产系统松耦合, 相对独立的一个离线分析系统。所以, 这个阶段,数据仓库主要的目标是提供数据报表, 为管理层提供决策支持。



01 数据仓库中的数据分析

数据仓库建立起来之后, 用户往往在想, 我有这么多数据, 是不是有什么隐含在数据背后, 我暂时不知道的规律, 如果我能发现这些规律, 我就一定能够快人一步, 提前做出相应预案, 从而竞争环境中处在领先地位。

但是这些规律是什么?我们怎么去发现这些规律呢?这时候就出现了不同的方法。

有一些用户天生对业务有独特的洞察, 这些人的方法是思在行前, 首先看到一些模糊的方向, 然后通过对数据的剖析来验证自己的猜想, 多维分析,自定义查询等等工具就是天生为这类用户服务的。

这种可以通过不同条件组合, 快速对数据进行切片分析的工具,可以很好地支持用户对业务规律猜想的验证。

而另外一些用户更相信直觉, 我感觉应该向哪个方向考虑, 但是怎么做我不知道。举个例子,20年前,中国移动在完成经营分析系统建设之后, 觉得不同的用户对手机套餐的需求肯定是不一样的,但是具体怎么做呢,不知道!

这个时候,数据挖掘算法就可以体现它的价值, 利用挖掘算法对用户特征进行聚类, 实际上就自然催生出了一系列不同的品牌,比如动感地带、 神州行、全球通等。所以对于未知规律的发现, 首推数据挖掘。


02 中台战略中的数据中台


而近随着阿里系的大力推广,中台概念也开始大行其道,而当前的用户需求并不仅仅要实现离线分析, 而是更加强调应用系统之间的协同。

有个笑话说,为什么要推中台概念,原因是业务系统去IOE,已经被拆得七零八落, 而且每个部门业务野蛮生长, 必须通过中台才能把这些拆散的系统再次整合起来。

谈到中台, 一般而言, 会分成业务中台和数据中台, 业务中台是希望通过一些可共用,可编制的业务API 来快速组装出新的应用而数据中台,是希望通过数据API 来为业务中台提供数据支持和智能决策

我特别欣赏中国移动的智慧中台的概念, 业务中台为业务提供快速编制和部署, 而数据中台为整个中台提供智慧能力。而所谓技术中台, 说白了就是个技术储备平台,是用来储备搭建智慧中台的各种必备的技术,为智慧中台提供技术支撑。

▶︎  小结

说到这里, 我们大概也看出来了, 数据仓库和数据中台之间是有很明显区别的, 如果我们沿着数据仓库这个路线向前推进的话, 数据中台应该是数据仓库的下一代, 属于闭环决策分析系统, 为什么呢?

我们看数据仓库的产出物,大多数都是离线分析、数据报告、财务月报季报等等。经过大约20多年的发展,基本上框架已经确定, 现在的增长点不过是在新的数据源, 包括各种大数据,上网日志, 用户轨迹等等。数据仓库的服务对象主要是人。其次才是下游系统,或者数据挖掘等等。

而数据中台, 核心在于API, 就是说数据中台的主要用户都是其他系统, 比如呼叫中心, 电子渠道, 网上商城等等, 需要在用户访问的时候,对用户做出针对性地推荐, 或者产品中心在定制新的产品包的时候, 生产大概的目标客户群清单。

这些功能大多数是不需要人工干预的。人工的工作大多数在后台数据准备, 数据模型搭建, 数据API定制发布这些环节, 一旦发布, 这些API 将要面对上百甚至上万级别的系统调用。

但是数据仓库和数据中台,这两者也有很多可以重用的地方, 比如业务系统各种数据的抽取、清洗。各种现有的用户分析模型, 用户360度画像的标签等等, 都是可以基于传统数据仓库来生成的。毕竟企业级数据仓库中已经具备了数据质量管理, 数据治理等等模块, 完全没有必要重启炉灶, 自成一体。

但是数据中台中独有的模型和指标体系的建设,也是和数据仓库不一样的, 因为数据中台的建设, 一般都是先有用户数据服务的需求, 才会有相应的模型搭建和数据准备, 这个和企业数据仓库中数据模型先行的方法是不同的。


03 结语


这样一路看来, 我们就可以对数据中台的发展有个更清晰的认识, 首先数据中台和数据仓库大的不同,就是面对的消费者不一样, 数据仓库的消费者大多数是企业内的用户, 而数据中台的消费者更多的是企业内的其他系统,或者其他业务中台应用。

其次数据仓库更多的是离线应用, 主要是各种报表和人机交互的分析工具。而数据中台应该是一个在线系统, 更多的是来自各种不同系统的联机调用。

再者, 就目前来看, 数据仓库和数据中台的数据构成有比较大的差别, 企业的核心数据,比如财务、销售、人才等数据, 基本都存放在企业数据仓库当中, 很少会放在数据中台对外开放。而目前数据中台的数据大多是为了提高用户体验, 优化运维能力等各个方面。更加倾向于市场和用户数据。

好了,这次我们就交流到这里,非常感谢你耐心的阅读,同时很期待我与你能够有更多思想上的交流、碰撞。如果愿意分享,这一讲也欢迎转发给你的朋友,和他一起讨论。

我们后续分享见。

相关文章