数据人的新风口:数据中台了解一下!

2020-07-09 00:00:00 数据 分析 业务 搭建 数据仓库

朋友,还在为多个数据库而烦恼吗?

朋友,还在为系统的庞大而思绪如麻吗?

朋友,还在为老旧架构修修补补吗?

也许你没有听说过数据仓库,也许你已经失去了上一个风口,那么做数据的你,不能失去数据中台这个风口!



文案:啥啥啥?数据中台是个什么鬼?

不知道没关系,今天我们就来扒一扒,这个风口上的数据中台是个什么东西~

数据中台的前身——数据仓库

数据仓库(DataWarehouse),是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。一般情况而言,数据仓库的数据实时性不强,他往往来源于许多实时数据库,在实时业务数据的基础上进行数据建模,面向主题,屏蔽数据细节,以要看什么,就怎么建仓作为数据仓库建模和建仓的基础思路。

与数据库要求的实时性不同,业务往往分析的时候需要连续性和时间,这就意味着数据仓库不需要很强的实时性,但是会对同一维度下的一大批数据进行统一的分析和计算。

很多人分不清数据库和数据仓库的区别,这里就用一个表格来解释数据库和数据仓库之间的不同点。



所以简单来说,数据仓库还是以分析为主,实时性偏低但分析程度高,而数据库还是以实时响应为主,重点是记录所有的操作信息。

NO.2 风口上的猪——数据中台

数据中台先由阿里提出,将数据仓库中面向指标的设计思路进行二次升级,提出面向业务的一站式数据服务平台,这个数据服务平台就是数据中台。这意味着,数据中台不是一个单纯的体系架构,他是面向业务的,没有业务就没有数据中台的概念。

同时数据中台也不是单单的一个平台,在他的背后,是对海量数据的采集、计算、存储和加工。也就是说,可以把数据中台想想成一个厨房,原材料就是各个地方的数据源,数据中台要做的是,调研上面的不同系统的业务需求(相当于厨房看看这个餐馆来些什么人),通过不同的业务分析,建立不同的业务场景(确定菜单),然后对不同的数据进行加工(洗菜做饭),然后等待上层系统的调用(等待小二上菜),由于数据源可能来自于不同的地方,数据格式,数据存储方式等等都可能不同,因此数据中台还需要统一标准和口径,在数据抽取的过程中进行格式的转换,保障所有的数据标准化和统一化,也方便后续的数据计算,数据查询接口的统一标准化。



NO.3 数据中台——建立方式

从一开始我们就提到,数据中台是一个以业务为核心导向,海量数据进行采集、计算、存储、加工为一体的服务平台,因此建立数据中台主要分为以下几个步骤。

1.数据采集

和数据仓库一样,数据中台的核心还是数据,所谓巧妇难为无米之炊,没有数据的数据中台是不成立的。因此搭建数据中台的步是对数据进行收集,这方面的收集需要以数据多样性作为数据知道思想,尽可能的把与业务相关的所有数据进行数据的收集,做到多业务、多终端、多形态的“三多”收集。

2.业务架构分析搭建

有了数据,接下来需要研究的就是,这些数据可以干什么。数据中台往往需要从上层的业务系统着手,而一个数据中台一般服务多个业务系统,各个业务系统所要的目的都不一样,因此对于数据模型建立,不能单纯的定制化,而是要分类、分层,将数据分层统一基础层、公共中间层和多元应用层,尽可能的复用数据,并且通过数据指标结构化的方式统一输出口径。

3.数据预处理加工和存储

架构分析清楚,整体的数据来源也已经确定了,那么就是按照搭建的架构进行一层层的筑瓦搭砖。由于数据源是各个不同的来源,因此再搭建统一基础层的时候,需要将基础数据进行格式化的统一,在建立数据的同步任务时,要结合业务,在基本的数据预处理的基础上,增加自定义规则和修复,并且通过监控任务的方式对任务进行实时监控,一旦数据出错率超过预警值,将停止任务并发出警报。这个过程是在数据还没有导进来的时候就应该有设计,在后续运维的过程中,也要实时check,保障数据同步的一致性。

4.数据价值萃取

在经过上一层的基础数据查询之后,数据已经以规整的方式进入数据中台,并且构建了统一基础层。但原始数据如果直接暴露接口对外查询,一方面会导致查询sql编写过于复杂,加大数据的计算的复杂程度,提高计算成本和运维成本;另一方面,大量的数据连接计算会导致数据计算引擎的不堪重负,同时拖慢运行效率,这些作为数据人员来说都是不可忍受的。因此,数据中台要求进行公共中间层的搭建,用现有的数据,分析上层业务指标,通过不同的维度进行数据的聚合。这一步非常重要,由于数据中台要求表尽可能的不重复,以及表一旦创建就不能进行表结构的修改,这就要求进行数据建模的时候,出了要满足上游业务系统的现有要求,还要与上游系统反复沟通,对预想的指标进行分类,将相关性大的指标进行数据字段了预留,防止大量的重复建表导致的数据冗余。

5.数据统一主题式服务

数据公共层搭建好之后,需要进行数据应用层的搭建,这个搭建不再赘述。将数据搭建完成后,就是对数据的输出进行考虑。作为一个数据中台,需要分析上游系统的业务分析方式,在此基础上进行数据出口的统一化,例如,上游系统以BI系统为主,那么搭建数据服务查询引擎,方便SQL调用会好一些;如果以内部数据分析为主,那么需要搭建查询接口,以API调用的方式进行查询会更有效率。总的来说,数据中台可以支持多种数据输出方式,但是无论是哪种,都是为了面向业务统一数据出口与数据查询逻辑,屏蔽数据源和多物理表。

从上述5步曲,数据中台的搭建就基本完成,实现了从数据流入到数据产出的所有过程。再次强调的是,数据中台一定是面向业务的,任何一个数据中台都需要有业务场景和业务需求,在这样的基础上才会有稳定的输出。

通过这篇文章,是不是对数据中台有了一个新的了解和认识呢?每天一个新风口,数据人,冲鸭!

内容来源:云计算技术实践

对大数据感兴趣的请搜索关注公众号“数据星河”,即可获取免费的大数据学习资料。

相关文章