数据中台(六)数据体系建设
1、数据体系规划
中台数据体系具备特征:
- 覆盖全域数据
- 结构层次清晰:纵向数据分层,横向主题域与业务划分
- 数据准确性一致:定义一致性指标、统一命名、统一计算口径
- 性能提升
- 降低成本
- 方便易用
数据中台体系架构数据分层
- 贴源数据层ODS:操作数据层,对各个业务数据进行采集、汇聚、整合、增加数据标识、非结构转化为结构数据等,不做深度清洗加工——数据汇聚接入,例如:东方国信爬虫、新大陆数据汇聚接入
- 统一数仓层DW:细分为DWD(明细数据层)与DWS(汇总数据层),对业务数据进行建模存储。按业务角度从新定义组织一致的标准、维度、形成统一的标准业务数据体系——数据整合清洗,HiveSQL开发,数据清洗
- 标签数据层TDM:面向建模对象,通过ID-Mapping打通各个业务板块,形成对象的全域标签体系,方便深度分析、挖掘、应用——数据打标签,例如:客户RFM等级分类
- 应用数据层ADS:应用业务使用的的数据均只来源于标签层与应用层——适用于应用业务的机器学习数据挖掘的结果,例如:客户销售精细化分析
2、贴源数据层建设(ODS)——全域数据统一存储
2.1相关概念:这里的ODS层,是指做多源数据的汇聚、整合。但传统的ETL的ODS系统是指数据交换、实时性、报表等功能。
- 整合的三种数据分类:结构化数据(表)、半结构化数据(JSON)、非结构化数据(图片、视频)
2.2数据表设计:
- 前缀+业务系统表名:例如fjyd_ods.ods_customer或ODS_fjyd_ods_customer
- 字段类型保持一致:用double类型
- 采用后缀标识:ODS_fjyd_ods_customer_delta
- 日志、JSON等半结构化数据,数据解析到结构化数据表中
2.3数据表实现:一般使用数据同步工具,例如,DataPhin,实现ODS数据同步。步骤分为:发布采集、加入生产调度、配置参数限速、容错监控、告警机制
3、统一数仓层建设(DW或CDM)——标准化的数据底座
维度建模具备特点:
- 模型简单易理解
- 性能好
- 可扩张性好
- 数据冗余
3.1相关概念:建模工作按照这些维度展开
- 业务板块:个人与集团、医疗、金融、地产、电信等
- 模型设计
- 数据域:例如,采购域、供应链域、财务域、HR域等
- 业务过程
- 修饰词
- 指标设计
- 计算方法
- 维度表
- 事实表
- 粒度
- 一致性指标含义
3.2数据域的划分
- 阶段:数据调研
- 第二阶段:业务分类
- 第三阶段:数据域定义
- 第四阶段:总线矩阵构建:数据域与业务过程图
3.3指标设计:
- 原子指标+时间修饰+其他修饰词/类型=派生指标 ,例如:stay_time_7d_APP,近7天(1周)停留时间
3.4维度表设计
3.5事实表设计
3.6模型落地步骤:ODS数据同步任务正常运行
4、标签数据层建设(TDW)——数据价值魅力所在
4.1相关概念
- 终产物:标签融合表
- 对象
- 对象标识
- 标签
- 标签类目
- 属性标签
- 统计标签
- 对象标识
- 算法标签
4.2确定对象
- 人、物、关系
4.3对象ID打通
- 用户多个ID-ID之间两两映射关联打通,例如:身份证号码——电话号码映射关联
4.3标签类目设计
- 人:个人、集团、机构等
- 物:单个物品、物品集合等
- 关系:单条关系记录、关系集合体等
4.5标签设计
- 属性+指标+参数+特征
- 数据情况+业务需求
- 标签设计规则:层级逐级向下划分
4.6标签融合表设计
- 纵表:类似K-V,ID-标签名-标签值
- 横表(采用):ID-标签1-标签2-标签3-标签4……
4.7标签融合表实现步骤
5、应用数据层建设(ADS)——灵活支撑业务需求
5.1相关概念
- 按业务需求,具有灵活性,类似于数据集市,简单数据组装层
5.2应用数据表设计
- 以业务驱动建模,形成满足业务的规范
- 即席查询,大宽表形式组织
- 特定指标查询,K-V表形式组织
- 其他复杂数据结构组织
5.3应用数据表现(建设步骤)
- 调研业务,明确数据内容、格式、大小
- 盘点统一数仓层、标签数据层是否满足业务数据需求
- 组装应用层数据
- 多维自由聚合分析
- 即系查询,组装成大宽表
- 特定指标,组装成K-V结构数据
5.4应用数据场景支撑
- 一套数据多套存储
6、中台手记(四):数据资产建设
步:客户标签体系
第二步:调研客户数据来源
- 1、交易数据
- 2、评价数据
案例:某集团商业地产数据体系架构
相关文章