世界企业的数据中台打造之旅

2021-02-07 00:00:00 数据 用户 业务 银行 富国
正文开始


前言

数据中台的核心愿景是,助力企业成为数据驱动的企业。那么什么是数据驱动的企业呢?这一讲我们深度研究了两个世界企业,富国银行和Netflix。




一、富国银行的数据转型之旅



1、关于富国银行


富国银行是巴菲特所认为的世界上好的银行,巴菲特过去几十年投资富国银行很长时间,而且富国银行在美国按照规模来讲,并不是大的,但他在客户服务和盈利能力上基本上是好的。我们中国的招商银行,曾经有一度在网上讲,招商银行是在学习和这个参考富国银行做零售。富国银行是一个非常有创新精神的企业,历史很悠久,有160多年的历史。

             

2、富国银行数据转型的愿景


富国银行是如何利用数据构建业务和提升用户体验,首先我在做研究的时候,发现富国银行是很少见的将数据和技术写入到董事会的文件里的,大家可以去查一下,富国银行18、19年的年报,他们把数据的应用提升到董事会的层次。

去年19年,富国银行刚刚换了CEO,原来的蒂姆.斯隆退休了,他在过去特别强调的一点就是数据。

他有一句非常有名的话是,数据转型是富国银行提升效率的重要因素,它可以帮助我们加快创新产品推向市场的速度,帮助我们的客户更好地管理他们的财务状况。

总而言之,富国银行是一个非常注重数据价值、数据利用的企业,而且从数据当中获得了非常好的收益。

             

我们来看一下他们是怎么做的。

首先富国银行前面的业务愿景,大家看到了很清晰,他们希望通过富国银行,提升企业的竞争力,将企业的客户数据整合在一起进行提升,帮助客户管理他们的财务状况,它的业务愿景很清晰,而且围绕多的是用户数据,但是富国银行依旧面临着很多的挑战。

点是富国银行是有七千万数据的用户,有8000多个网点,在他们内部做这个数据转型的时候,把转型的项目起名叫gobblygoop,名字就是非常含糊模糊的、不清晰的。这就是他们当时的这个在做这个数据转型之前的数据现状。总结点是数据很多很散很乱。

第二点是利用客户数据去做很多的欺诈检测,提升用户体验,但场景和用例并不是那么的清晰。我们现在会发现,比如说在跟企业交流的时候,很多企业说,非常清晰的知道场景,但是就不知道怎么做到,然后当深入交流时会发现,实际上很多甲方,他认为他知道这个数据应用到什么场景,但实际上在他脑子里面这个场景可能就是一个idear,就是一个非常模糊的方向或者目标,并不是真正的场景,而且场景往下细分是叫usecase,就是谁怎么用,只有清晰的定义清楚这些颗粒度的内容,才能说你清楚知道你数据应用场景,否则你只告诉我说我知道这个数据可以做精准营销,这样四个字涵盖内容太多了,它并不能帮助你去解决怎么应用数据的真正场景的问题。这是第二点,他们实际上并不清晰的梳理出场景和用例。

第三点是他们的数据技术能力实际上缺失的。

             

3、富国用户数据转型的四个关键内容


在这样的情况下,他们从2017年的时候,就启动了一个全行的全球的数据转型之旅,重新构建和连接了整个银行企业级的数据战略。第二部分是梳理了用户场景和用例,并且将这些数据应用到了这些场景和用例产生了非常多的业务价值。第三部分是构建了数据平台。第四部分是构建了他的数据团队和整个的能力。

所以看到他们之间是有递进关系的,件事情做的是梳理、构建企业级的数据战略,然后在数据战略的基础之上,完成了后续三件事情的工作,所以数据战略实际上是包含后面这三部分所有的规划、要做的内容。

             

首先来看富国银行的数据战略。它构建了全行非常清晰的数据战略,下图中左边这张图,可以看到这是他画出来的,在金融这个领域所有的这些数据流,从主机MAINFRAME到数据湖到分析的运营模型到价格和策略战略的制定,以及客户和ATM数据的分析,他把数据流、数据场景,用一个清晰的战略把它们穿在一起。分析哪些数据是低价值的,哪些是高价值的,哪些是元数据,哪些是重新加工的数据,还分析了这些数据对于技术、整个的不同的处理方式架构的不同,那这样的话,他就有一个清晰的全貌。

所以构建了这样整体的数据战略,这个数据战略我把它又分解了一下,会发现里面它包含业务场景、数据技术战略、企业级数据集成、企业级数据资产管理以及数据治理。

             

那么这个数据战略具体做哪些事情呢,我们下面一个个分解来看。

首先它构建了企业级的数据站治理体系,富国银行很早就这个构建并招聘了首席数据官这个角色,以首席数据官为核心成立了首席数据办公室,这个办公室制定整个企业的数据治理策略和标准,当然这里我们要重点强调一点,他的这个数据治理和我们传统所讲的非常厚重的数据治理还是有一些差异的,他更多的是围绕场景来看和用户的数据治理嗯,所以整个数据治理包含的内容,梳理企业的数据资产,所以购进了企业的数据资产目录;第二做了元数据的定义和管理;第三构建了统一的版本的数据源,这个不同的版本的数据都在哪里,他们之间哪个版本由谁去调用,这样的话,构建了能够被全行所理解和互通的数据沟通语言,所以数据治理做得非常好的。

             

第二步分析了数据的用户的旅程和用例。把这些重点不同角色的用户的user journey的粗粒度的场景清单梳理出来,他们把整个的数据的用户分成了五大类型,有这个业务类、数据分析类、技术类的用户等,那对于不同的用户,他们是怎么样用数据的,这些数据的journey是什么样子,这点我觉得是我在做的国内乃至海外的项目里,发现做得很好的一点,我们讲做应用系统,做开发的时候说用户旅程,这个大家现在都很清楚,但是当我们做数据项目的时候,是不是很清晰的知道你的数据里程,就是从数据源头到数据产品的使用到用户的使用这个journey有没有梳理出来,但是富国银行在他的数据战略里面就梳理了这些内容,这样的话就非常的清晰知道我的数据在哪里,这些数据应该谁去用,谁去用的时候不同的角色,不同的用户,他的用力是什么样,那我应该给他支撑什么样的技术架构,然后我的数据治理应该做到什么层次,它不是一刀切的方式,是非常的个性化。

             

然后除了数据的用户之外,在这个基础之上,他还构建了个面向数据分析的运营模型,这样他就知道哪些用户用到什么样的技术、用到什么样的数据。就整体有了一个用户的数据场景的全貌,就能建立数据旅程的地图。在这基础之上,他们梳理出来利用数据的四大类型的用户体验改进、用户和市场洞察、合规和风险管理以及赋能客户,所以这些东西都是在数据战略的时候就梳理好了,在这基础之上应用到不同的业务里。

             

那我们下面一个个来看,上图是梳理出整体的企业级的数据旅程地图,总结了四大场景就是四个应用领域,那个是用户及市场洞察。

        我们要讲一下背景,2017年富国银行为什么要启动数据转型之旅,是因为在2011、12年到2016年,富国银行的面临很大的挑战,他们有3.5个亿的欺诈账户使用真实的用户数据,因为那时候他门出了一个政策就是他们的员工可以去开账户,希望用这个来激励员工对业务的贡献,那这样带来的就是众多的假账户,背负着1.5个亿美元的诉讼,在几年间关闭了400个分支机构裁员了5300人,所以面临的挑战是很大的。这种情况下,富国银行意识到我必须跟我的客户建立起非常直接的信任,而且要让交付超越客户期待的价值。这是他的业务背景,所以启动了数据转型。他们希望数据转型,帮助他们去理解他们的客户是什么样子,客户对业务真实的服务满意度,这我觉得是非常有价值的,很多企业只关注说现在有什么数据,现在能做什么,但是忘了一点,就是我们实际上更多要考虑的是未来有什么数据,未来要布局、采集、生产什么数据。

他在这基础之上,他对全北美的用户做了分析,哪些用户忠诚度比较高,哪些用户有问题,然后针对这些,他们才能深入的去了解他的区域、支行,这些不同的客户的情况。真正为客户提供基于深入了解客户的服务。这点做得非常的好。

             

个是利用数据做用户体验提升。当他们清楚知道了数据的画像、不同用户的情况之后,就做了一件事情,这件事情我觉得也是在行业里实际上做的不是那么多的。他们利用用户的行为的分析,重新构建、设计官网。原来的门户网站更多是一个设计型的项目,在17、18年的时候,通过数据分析,他把门户网站的菜单、栏目、布局重新做了设计。这个非常有价值。

             

第二个是在这些数据的基础之上,做了非常多的用户及市场洞察。这里面还构建了非常多的人工智能的技术,因为我们知道在原来银行行业部门之间你不了解我的数据,我不了解你的数据,信用卡中心的人,是不知道这个客户的财富的情况的,购买了哪些理财产品,也不清楚借记卡的情况,那这情况下他再去做业务的判断,给客户提供服务的时候没有全貌。所以这也是原来这个富国银行很大的挑战,但是在数据转型之后逐渐解决了这样的问题,基于大量的数据、统一的用户画像,他们构建了Customer Data Platform,在这基础之上,做了很多的分析应用,比较典型的有客户服务的Chatbot,是在大的银行里,全球早推出Chatbot的银行之一,他们的用户在手机上在Facebook上就可以去提供服务,并且能给客户提供predictive的这种Banking,就是预测型银行,能告诉你,应该怎么样去管理现金流,建议你下个月的财务的支出以及理财的这种推荐。这是非常有价值。

             

第三点是把这个风险和合规管理做得非常好。富国银行通过梯度下降的一些集成算法,构建了欺诈的模型,它比传统的逻辑预测算法,有非常好的表现。这块我就不详细去讲了,因为这实际上相对来讲,风控和合规在银行智能领域的应用是相对比较成熟的。

             

然后他还做了一件非常有意思的事情,大家上富国银行的官网就会发现他们把自己的数据和智能的技术做成一个服务提供给客户,他的那些企业客户、对公客户。帮助他们去提升效率,我觉得这一点是非常有价值的,这样的话,他不仅仅能够提供理财服务,还帮助客户去提供一些专业性的服务,这样的好处是什么,他能采集到更多的数据,能更全面的去了解这个企业的经营的情况,以至于为他们制定更好的理财和金融的服务。

             

第三部分,数据平台。在数据战略制定清晰后,做的数据的整个业务场景和用例。那么是什么支撑的这些用例,这就是数据平台。在构建富国银行的整个企业级的数据平台的时候,件事情是把它传统的数据仓库做迁移,我们在全球也实施很多这样的项目,一般来讲把它叫数据仓库的现代化。

比如说我们在国内给一家银行做呼叫中心的数据仓库的现代化。信用卡呼叫中心数据量非常大,原来的推荐不是那么准确,它的白名单都是通过传统的Teradata、VI人工统计出来,然后给到外呼组,然后外呼组拿到名单再去打电话。数据仓库的现代化就是为了解决一个数据量的问题,横向扩展,第二个是解决数据更好地实时分析和利用的问题。

在17年左右,它不仅提供了更好的服务,同时节约了非常大的费用,间接的收益,关闭了100多个数据中心。这个顺序实际上也很有意思,大家可以快速的过一遍,件事情升级EDW Platform,传统的就是企业级数据仓库,第二件事情在升级完后,去改造原来的ETL,因为我们知道原来的企业数据仓库更多是SQL的,更多的是这种这种一条工具去构建的,但是现在很多企业包括富国银行,是拿python这种开发语言,现代化的工具去构建,后构建分析型的环境。这块我就不详细去讲了,后面在我的文章里面有比较详细的介绍。

             

在统一的数据服务之上,他们构建了一个很重要的东西,那就是CDP,打通了各个业务线的数据建了横向的客户视图,也就是我们所说的Customer Data Platform,和原来的CRM有很大的区别,他把企业内部的数据,用户的所有相关的数据,包括市场的数据和销售的数据全部整合在一起,能够全面掌握用户的信息,帮助业务人员做出决策。这块CDP是一个独特的领域,所以我这块我也就不详细去讲了。

             

数据平台再还做了很有意思的事情,构建了基于元数据的数据治理平台,这我觉得是非常有价值,原来的企业的数据治理很多时候是一种非常重、以人的管理为主的。比如说上一讲讲到人都已经到仓库门口了,后领料领不出来,这就是因为物料还没有加进去。我们希望通过一种自动的让业务先跑,然后通过技术的手段、元数据的归因去解决数据治理数据不一致、标准不一致、数据结构变化的问题。

富国银行就这么做的,它是基于建立一套企业一致的元数据体系,在这基础之上,连接了得Data Governance和Analytics Governance的鸿沟。我觉得这点非常有意义,我们总在讲数据治理,但实际上会分成两部分,就像我们所讲的数据资产。不仅是Raw Data,还包括二次加工生成的数据应用、数据报表,数据治理,实际上也包括两部分,一部分是元数据的数据治理,一部分是Analytics Data Governance。通过元数据可以拉通这两部分,能够很好的去解决,现在企业所面临的数据治理问题。

             

在这基础之上,富国银行,还做了一个那时是非常有前瞻性的工作,他构建了面向业务价值的数据集市,并且在数据集市基础之上,构建了Data API。富国银行现在Data API实际上是业务的一个内容,就是它开放银行的一部分。这个合作伙伴的金融相关的企业和用户可以去订阅这些API服务,这样富国银行就构建了自己一个生态。

同时,这些API只开放在外面的,那对于富国银行内部来讲,大部分的这种数据的应用,很多都是API形式体现出来的,有自己内部的整个的API。这样不同的业务部门在API就可以去实现这种实时的调用让业务更加智慧。

             

这是前面讲的,从数据治理,数据仓库到数据湖的构建,到元数据的管理,到数据整个的Data API门户,同时富国银行做了很多机器学习人工智能的事情,在18年就成立了AI的企业解决方案团队,将机器学习应用到企业的各个领域,比如Ai-base的预测银行应用,他还做了自己企业的Financial Knowledge Graph Topology,就是智图谱,然后应用到很多的业务领域,我前段时间看到了在一九年这个AI的团队现在已经做了200多个usecase,而且还在不断的扩大,规模化的复制。

             

而且在这个基础之上,他们构建了企业级的机器学习平台,这也是一个单独的话题,我们认为不远的未来,包括现在,很多的企业都需要企业机器学习平台,现在我们很多企业说要做数据仓库、数据分析,这个富国银行很早就做了企业级的机器学习平台。他们的演讲,我看了,是非常有价值的,包括他们的三种应用模型的方法,是非常有参考意义的,这是在YouTube上面。

             

后一部分他们的这些工作组织形式是怎么样的,用什么样的团队去做这样的事情。富国银行全球有5000多名数据方数据方面的技术人员。他是早成立CDO,14年就成立了首席数据官的银行。然后他的团队怎么构建呢,我们讲两部分,部分团队的分类,他把数据团队分成三大类型,类是数据战略和治理类型,那这些就是如何去管理数据、如何去探索和制定数据战略包括数据隐私,偏业务偏规划类的一个团队。第二类是数据工程和数据科学类的团队,他们是去构建数据平台、机器学习平台,这样的工程团队。第三类是应用团队就是数据管理和数据洞察类,在战略的方向下面,在数据工程的平台上面利用、开发。这种数据模型探索、数据分析,然后产生数据应用价值的三类团队。数据团队和业务团队是融合的。数据团队分成两个大的部分,一个是数据团队核心的code team,另外一个是分散融合在所有业务领域里的那些数据分析师、算法工程师。

再看他们的这整个的业务和数据是融合的。除了核心的离首席数据官和首席数据办公室为垂直管理的这些数据团队之外,他们每一个业务线,比如说批发银行这个对公的银行,都有自己的数据分析的团队,然后大家融合在一起去工作,这也就体现了他们的对于数据科学家这个角色的定义,领域知识算法、统计知识、工程能力,所以富国银行很早就建立了数据团队,并且把这个团队和业务团队融为一体。

             

前面很快过了下富国银行整个的数据转型的四大构成部分,部分数据战略,第二部分数据的应用和用例,第三部分数据的平台,第四部分数据的团队能力。

但在这个过程当中我看到有一个这个演讲,我觉得也是很有同感,他们数据工程师和数据平台的这个算法工程师的这个负责人提到说,在我们富国银行去做这个数据转型实际上是有非常多的挑战的,这样一个全球性的26万员工的这种企业。

怎么样去推广数据和智能的技术。而且他们的这个业务用户层次也是。很多人对于那些银行柜员和,那些agent,他们对于数据和人工智能,完全没有任何概念,这认知也不是很清晰,那这种情况下,他们人又多,对吧,大家的这个想法又不一样,怎么样能够让大家支持你去推广做这样的事情,这也是很大的挑战。

           第二有的领导他们也在这个演讲当中提到,有的人他就会给你各种各样的挑战说你为什么用CNN不用这个原来的逻辑模型、专家系统,它的好处是什么。

    那大的挑战是什么,那数据和AI的结合有非常的不确定性,如何能够让管理层让这些业务人员认识并接受数据和AI的价值,避免出现过高的期望或者是这个觉得不靠谱,太虚,然后不去利用,这都是他们的挑战。他们总结了一些经验,我觉得可以为我们参考。

    个他们让数据人员去学习业务,掌握业务语言,所以他们当时提到一点就是他们定期每周就让他们的数据分析师和这个数据业务人员去沟通,让他们站在业务的角度去思考,也就是业务价值第二个他们非常注重实际效果的体现。他不仅仅是去做这些宣传培训,他同时通过这种小的试点,通过速营的项目去获得直观效果的体现。往往他会去做比较,A/B Testing。

            我用新的方法用统一整合的数据集和你原来传统的方法做出来差异,我让业务人员直接看到这个效果。那第三点企业非常注重数据的项目,用今年这个很流行的一句话叫躬身入局。

             

            所以通过这样的方法资产管理构建数据资产目录、企业的数据管理、企业数据战略的技术的管理、面向未来的业务场景规划、企业级的数据集成策略和集成的工具,以及数据安全管理和数据授权。

           第二部分,他们构建了现代化的数据平台。

咱们现在是从下往上讲。打造了从原来的EDW企业级数据仓库迁移到现代化的数据平台,原来的传统的数据库的迁移,然后的企业用户数据平台是他们做的重要的工作,然后构建了数据API,gateway网关,然后构建的机器学习平台数据集市,这是第二部分。

    第三部分他们做了很有意思的事情,数据洞察和数据应用,这一部分主要是在企业内部和直接的用户构建了用户体验和洞察市场,利用数据去重新设计了官方的网站。同时做了合规和风险的管理,包括把数据和智能的服务提供给它的客户,这是数据应用这块。

    所有的一切的根基,都是他的全面的数据转型的团队,在17、18年的时候,全球就有超过了5000人的数据团队。

    这是富国银行的案例,这个案例比较有代表性的是在,于它是一个非常传统的巨大金融企业,很值得我们参考。

             



二、Netflix:数据驱动的企业



Netfix就不太一样,首先现在看来我们看来它是一个互联网企业,但实际上它早的业务也是非常传统的。Netfix是我到现在做研究以来,觉得是真正的特别体现数据驱动的企业。如果你的领导或者同事问到你哪个企业是数据驱动的,Netfix当仁不让是这个行业里数据驱动的数据驱动企业之一。

首先快速的介绍一下Netflix,不知道大家有没有看过纸牌屋,他就是Netfix的成名之作,在转型到媒体视频播放和制作领域原创内容领域,Netfix早是非常传统的租DVD,就咱们原来很早的中国租录像带的企业。很早他在1997年就成立了。他九九年推出的订阅服务,现在那个传统租DVD业务已经发展成为了流媒体像好莱坞这样的影视制作的大亨大型的这种平台,跟它的主要的竞争对手有HBO、Amazon、Disney,Youtube及AT&T。

             

所以他的转型在业界来讲都是一个奇迹,Netfix在过去,在去年这个哈佛商业评论做了一个研究就是过去十年全球转型成功的企业。Netfix是首当其冲,他这个数字是很惊人的。这个什么概念呢,这意味着说当你这个企业想转型,肯定要去构建新的业务,一般来讲,如果你投资了新的业务,那要么你的新的业务增长会比较慢,如果新的业务增长比较快的话,实际上对老业务的影响有时候也会比较大。所以如何让增长和创新都能够达到非常好的效果,产生非常好的绩效,对于一个企业来讲是很困难,但Netfix做到了。

过去十年他的转型是从一个流媒体租DVD转型成原创内容的制作。就原来是说卖别人的内容,像腾讯视频这样,从卖别人的内容、播放为收入的主要来源变成说要卖内容、制作电影。所以讲的是制作原创内容,这个新的业务。他过去十年原创电影产生的收入达到了现在整个收入的44%,在国内来讲,直观感觉就是谁能够有好的导演,好的演员,有好多剧本,那谁就能够获胜,但Netfix靠什么去这么快的完成他的这个转型,靠的是数据,真的是靠的是数据。

             

我们来看一下,过去这么多年他的整个股票市值的增长,18、19年一度超越迪斯尼,但迪斯尼的规模比它大多了,迪斯尼是个庞然大物,全球员工现在应该一万人可能,一七年的时候是5000人。

             

不仅他的业绩增长很快,而且原创内容也得到了非常好的反馈用户增长非常快,而且它的业务模式非常单一,只收用户订阅费,就是收会员费,也不卖广告。

             

海外的业务增长也很快。Netfix核心的价值和竞争力就是数据,但现在Netfix也在把数据和好莱坞的这种传统的制作进行融合。

             

那为什么讲它是一个数据驱动的企业,首先它有数据的基因,这是两个leader,一个是Reed,一个是Marc,Reed是原来IBM有一个软件系列,是十几年前我在IBM的时候,很火的很大的一个软件部门,后来Reed创建Netfix。Marc是谁呢,去年Google收购了一个数据的这个产品来叫卢克,是卢克的投资人,所以它是有的数据基因的,但它本身实际上就是一个硅谷的典型的科技狂人做的一家公司,他做的业务很传统,就是租DVD的,下图是我梳理的整个的业务发展的历史,我就不详细讲了。

             

怎么体现他的数据基因的呢,在2006年的时候Netfix就推出了一个百万美元的数据分析大赛,就像卡狗一样。2006年的时候,在加州100万美元能买两套非常好的房子,这是巨款。但这还不是让人吃惊的,吃惊的是他在2006年的时候,已经采集了1万多的电影内容的用户评价数据,并且把这个数据提供出来,让社会上的数据分析师去做算法分析,他的目的是为了得到一个优的算法,比他自己的推荐算法要好10%。2009年的时候,这个奖发出去了。所以它的整个背景和基因就是非常数据,数据驱动他所有的角色。

             

那他们是怎么做数据的这个决策和集中的呢,我整理了一下他们企业整个提出想法到决策的过程,很有意思,因为Netfix是一个非常的企业世界的互联网公司,所以他们的人都非常聪明,都是一帮特别聪明的人,想法非常不缺,每天各种各样的想法,那如何在这些想法里面去选择优的想法拿来做实验呢,他用数据做决策,所以它首先是所有的业务都能被数据化,所有的数据都被可视化,用数据做交流,提出想法后就要变成一个实验,实验一般来讲都用A/B Testing,比如说他们很多时候会把用户分成很多的分层三个门才能开始,对这些不同的用户群体设置不同的这种推荐的内容和这个就是首页的这种排版,然后再看大家的反馈,因为它的标签做得非常好,有几十万个。这样就能知道当我把这个内容推给这个类型的用户,他的反馈什么样,再去调整策略,后做出决策。所以他从公司运营、用户体验、产品设计和整个公司运营的角度、客户运营的角度,全方位都是这个数据驱动。

             

那我们来看看它具体是怎么做的应用到哪些领域。对Netfix来讲,它大的数据是事件。哪些事件呢,暂停快退快进,观看的日期,在哪里观看的,地理位置的信息,用什么设备观看的,停留什么时候回来的,收视率,搜索哪个演员,停留在哪里,在哪一帧关闭了不看了,那就能分析出不仅仅是用户行为,还能从内容的角度去做分析。在一八年的时候,他们的全球传播总监讲,我们有3300多万种不同版本的Netfix,他的个性化非常强,推荐系统是Netfix核心的系统。

             

再典型的一个例子就是用数据去定制每个用户的个性化首页。他有这么多的数据所以有非常多的推荐类型。这块我也就不详细就讲了。

             

Netfix每年投资到原创内容领域的投资大概是几十个亿美金,这么大的一笔钱。既使是这样,他依然不可能想把它所有想拍的内容全部拍了。那如何去选择爆品,如何去决定投资。他们做了模型,用机器学习的模型能够典型的去看,现在这些title内容的,影片哪些是可能有潜力的,哪些是可能用户未来不关注的,从而决定投资策略。他已经建好这样的模型。从而预测爆款,采取行动。他们内部开投资会的时候就是拿这样的模型去辅助决策的。

             

我们知道拍电影是个非常复杂的事情,特别对于Netfix这样大型的,就像好莱坞一样,同一时间在全球有非常多的片厂的企业来讲,如何去管理整个内容制作。在国内很多还是粗旷的管理,取决于大家的经验,所以大家往剧组里一关就是关一两个月半年。但Netfix是这样,他把所有的这些内容全部数据化,把这些东西全部做成模型。

定义好哪个场景,哪些演员出现,哪些道具从现在搬到这个场景,布景什么时候搭建,演员每天工作多长时间,而且要考虑财务,这样去安排,什么样成本低什么样收益高什么样演员状态好。这是非常厉害的。

             

他们用数据模型去控制优化成本,建立分层结构的模型。

             

用数据去管理,并且模拟整个全年的分季度的全球的项目。这就是像做敏感度分析一样,比如说你们帮我们看一下,现在还有20个亿要投进来,投哪些项目能带来大的价值,或者说要砍掉五个亿的预算,砍哪些项目,对用户影响小,对我的完成率越高。那这种情况下,这样的数据分析和模拟就非常的有价值。

             

同时,他们用数据做资产的分配和优化。因为Netfix这种这种大型的制作,有的盖房子就盖很长时间,那这种情况下我如何去运输这种大的资产在全球范围内去规划。包括交通、费用,这都是数据在起作用。

             

小的方面是利用数据做语言字幕。

下图中右边的图是Netfix全球化的过程,全球化你就避免不了一件事情,那就是多语言。那多语言先翻什么语种后翻什么语种,什么时候推出什么语种。需要去做决定,因为全球有那么多种语言,那Netfix怎么做决定呢,A/B Testing。先翻译一集,推出一个德文版,看看德文版全球播放的效果如何,看的人多不多,再来看,再翻法文版,看的人多不多,再来调整,后得出一个佳的有业务价值的平衡用户体验的字幕的顺序。他有结合了HERME,是有一个非常有名的在字幕翻译领域的一个系统。

             

            前面我们所讲的是典型的Netflix的这种数据用例,那我们下面来看一下Netfix的数据哲学,这个哲学我觉得是非常务实的,也是非常有价值的。

Netfix有三句话在他们企业内部。句话就是数据应该容易被发现,我觉得三点都是非常有用,非常有价值的,特别是第三点,我们有很多时候会说有很多数据,国内的企业数据在哪儿,看到报表觉得报表做的不好,有问题不知道找谁去。然后有时候想去做一个数据分析拿数据拿半天,可能你做报表花一个小时,你要花一个礼拜去沟通找数据,花另外一个礼拜验证数据正确性,然后开发一个报表可能一个小时,一天开发完了。这就完全验证了Netfix的话,你花的时间越长找数据,那数据价值就越低。特别在可视化这一块,他们这个用力特别有意思,他们分析了这个几个电影的封面,然后呢,把这个封面的色调来进行差异化,然后通过这些方面的设计、色调、颜色的组合、去看用户的习惯,然后做用户推荐,这个是非常精细化的这种数据利用,所以这个数据的哲学非常的有价值,数据要可被非常容易的被访问被探索,容易被所有人所处理。第二数据一定要能够被可视化,被别人所理解。第三一定要让数据快速的找到,否则这个数据的价值就低。

             

那么我们来看一下前面讲到这个Netfix是如何用数据以及这是一个数据驱动的企业。所有的方方面面,所有的决策都是基于数据,这里面有一些视频,我听的时候我觉得特别的有感触,这样的一个真正是一个技术型的企业。那我们看一下他的这个数据架构的全貌。首先Netfix的数据需求,它真的是有大数据。他有这个Trillion级别的事件,这是一七年的数据,有150 Petabyte Warehouse,有300 Terabytes每天被写入的数据,有5 Petabytes的数据每天被读取,这还是2017年的。到2019年的时候他已经每天会产生1.5个亿小时的播放数据。每个小时有多少帧,想一想这数据量是非常大的,那这所有的行为数据都是他巨大的保障,那如何去分析呢?

             

整个Netfix企业都是数据的用户,Netfix经营策略,它有一句话叫用科技分析数据,用数据驱动业务。它的四大业务领域内容生产、市场营销、运营(增长)用户业务增长和技术。因为它实际上本身就是个技术性的公司,如何去管理他的这些服务器,如何去管理整个的自动化生产。所有的这些部门都与数据的部门紧密的融合。全公司在2018年有5000员工。其中就有300个数核心数据团队的,有200多个数据的人分布在不同的业务部门。

             

Netfix如何这个让数据分析应用起来,个全员皆分析师,所有人都要会做数据分析,能够分析数据、应用数据。还有一个data portal,这块我待会重点去讲,我觉得是非常有借鉴意义的,对我们的企业来讲。第三个,数据可视化tableau应用到。

             

tableau的数据的使用流是这样的,他所有的数据都存在amazon上面,所以他是一个同源的这对他来讲实际上是非常有优势的,不像我们很多企业的数据这个应用都是各自一摊,有云的,不同的部署,多个数据中心,他所有的数据都在云上,所以这是它的一个优势。然后呢,这样的话他就能够同源,然后拿kafka把所有的数据都loading到S3的数据服务,数据计算,数据存储,数据处理,后到数据应用,这是他整个的使用流。

             

5000人的企业在这个2018年19年的时候,它就有2300多个tableaus。他整个企业的数据自分析体系,当然它还有很多其他的数据应用和分析的方式,除了tableau之外。

             

他整个的数据生态分三层,层是数据源,数据工程师从原始的数据例分析数据,然后数据分析师和数据可视化工程师,他们去帮助找到数据和让别人去理解数据,中间这层是加工数据产品的,是业务分析师、研究员还有机器学习工程师,上面是数据应用方法。

             

数据分层做得非常好,能够很清晰的找到他的ETL数据是从哪个表里来的,数据复用,数据模型是怎么复用的,机器学习的这些模型的数据版本是在哪里,然后他能够对应到前面的业务那边去,所以我觉得这个是非常有价值的。

             

这是他整个数据架构的全景图,从subsciber事件到整个的数据pipeline的构建,到数据存储,再到快速的数据利用存储、数据可视化,以及数据用户、业务用户的这种访问。

             

我们后快速过一下这个数据中台的关键组件。下图是整个的数据技术选型的一个全景图。元数据系统来自于S3、Amazon Redshift、druid和RDS关系数据库,这里面druid是用来做那些快速访问的实时性要求非常高的存储。计算有Pig、HIVE、Spark、presto,其中Spark现在已经占到90%以上的份额,就是在这种处理上。Data Services,GENIE是Data Services用来做数据编排、数据管理调度的,Metacat和Microbots做这种服务管理。在他前端数据分析这个领域是数据工具,这块我也就不详细讲了。

             

数据架构的一个演进。早Netfix是像我们很多传统企业一样,都是这种传统的数据存储如TERADATA、MicroStrategy包括关系型数据库,他现在是以现代化的技术架构做他的企业的数据处理,像kafka。

             

平台团队的演进,从原来的这种ETL、Reporting、DBA这样的团队到现在的整个的这种全功能的这种团队。

             

我们可以看到Netfix对于数据和技术的投入是非常大的,他们整个的机器学习,有Netfix研究院,非常关注机器学习的推荐和用户、用数据做分析、用户体验,还有用户分析平台,有自己的开源的很多系统,大家可以上去了解。

             

后快速的过一下他的关键组件,我觉得这两点对于我们数据中台的架构是很有参考意义的,个就是他所有数据用户的入口Big Data Portal,这个我觉得是我们现在疫情的阶段,我前两天做了一个另外一个研究再看这个医疗数据的这种开放。我就看到这个美国的这个CDC疾控中心的网站和我们中国疾控中心的网站,还看了这种国内的政府数据开放的网站,我们就会发现。现在国内在推进数据的开放政府数据的开放公共数据的利用。但是是这样是可以给我们一些很重要的借鉴的,我们会发现所有的用户、数据用户,除了那些有为他特定定制了数据应用的这种用户之外,所有的用户都是统一入口Big Data Portal。

这里面有Query\insights\Tables\S3\jobs\Notebooks\数据分析。大家都在一个平台上去访问数据和数据的产品,在这一个平台上实现企业级数据的协作加工。那他都有哪些重要的组成部分呢。

             

这里面很重要的就是搜索,刚才大家记不记得这个,但是Netfix的一个数据哲学后一句话。访问数据时间越短数据价值越大,如何让用户快的找到数据,那好的工具就是搜索。

所以我们现在在给这个有的企业做这种企业级的搜索引擎,实际上搜索会未来会嵌入到企业所有的应用当中去,比如说我们的这个。很大的一个业务应用有非常多的功能,让你很多时候你找不到你的这个模块儿不知道在哪里,那这种情况下,要有搜索对不对,你想知道在在在数据应用领域,你想知道说我们现在这个企业有哪些跟用户相关的数据,搜索,但是你不一定说一定要搜索出把数据搜索出来,但是你要搜索数据的含义、数据的产品,以及这个数据在哪里。他都用他的这个拥有方式,如何去获取和使用这些数据。这就是企业资产的搜索数据资产的搜索,我们觉得这是非常重要的一个数据平台或者数据中台的功能。

那这样的话就有数据资产浏览,大家可以看到这里面然后同时它里面有数据实验室无处不在的标签,tag是非常多的,这点我觉得也是一个趋势,比如现在举个例子来讲,我个人数据的管理原来都是拿文件夹,这种树状结构去管理。非常落后,我现在我自己家里有数据中心。这个我管理文件用文件夹已经完全管理不了,用什么管理做好标签。

这个标签可以去解决你的这种数据多维度的描述,数据的访问,这样的问题。他有自服务的数据平台、面向业务的数据报表、数据运营监控、用户增长运营、内容运营、多维分析,即时分析、评论协作平台,这里评论协作平台非常重要,比如说我们举个例子,现在我们的企业里面,很多时候都是这个你的报表做的不好,然后好容易找到打一通电话找到你这个人,然后线下两个人去对,这是一种场景,还有的就是说,你作为一个企业的业务人员,有一个很好的想法,但是你不会技术,又不知道数据在哪里能获得。有时候一想这事太麻烦了算了就不搞了。我相信每天每个企业都有非常多有价值的想法,在这样的场景下被浪费掉,你就不去做了。

那Netfix的这个平台包括说我们前面在一七年,给一个企业也做了这样的平台类似,就是业务人员只要有想法,就可以在这个平台上发消息有论坛,你有能力自己去找也可以,或者找到对应的人帮你去解决这个问题,大家可以对你的想法去投票,就像一个线上的数据竞赛平台一样。他是一个协作平台。

             

那刚才就是首页,有搜索、有可以定制,每个不同的人进来首页是不一样的。然后下图就是一个负责增长的业务人员的视图,他就可以看到能够访问的数据资产。

             

再往下就是数据洞察的,下图是一个全球支付分析的部门的数据分析人员,他进去就可以用不同的工具去处理访问数据,还有他自己的熟悉方法。你看我们有时候在做这种项目的时候会碰到有的客户,他就非常习惯用excel而且用得特别好,要解决的问题是如何让业务人员用他擅长的方法去处理你的数据。在那样一个场景里,我们就可以帮助客户去开发这种,他喜欢用excel,你就让数据平台支持线上的excel,怎么样让他excel的版本管理、数据管理跟你的平台融合起来,这就很重要。

             

如果你是技术人员数据工程师,那在这平台上,你就可以实时的去管理tables,这些表都是谁负责更新、不同的含义、谁用过,都能够很清晰的看到。

             

下图是这些Schema,元数据的定义,也能够看到。

             

Data model,你看这样的一个Big Data Portal是多么的有价值。他就是个企业级的数据协作、数据访问、数据规划、数据探索的平台。

             

这是个Big Data Portal,是一个企业级的,我觉得这就是我们现在所讲的数据中台的终极的体系,从数据的规划治理,到数据的存储,到数据的共享协作,到数据价值的探索分析,到数据API的生成,到数据运营,是全套的。

下面第二个重点介绍的就是叫Metaflow。这个提供给数据科学家协作的一个平台,而且我们知道数据科学家往往都是做算法,那他擅长的事情是做算法做模型,但他不擅长去部署系统、管理上线、把他的算法和模型集成变成一个软件应用。那在很多时候,我们会发现数据的项目很大的壁垒就是算法工程师跟软件工程师去沟通,相互看不起,那怎么样让他们能更好地去协作。

             

那Netfix做了一个非常有意思的系统叫Metaflow。他是基于python的,可以把算法工程师的这些模型和算法,用非常简单的清晰的编排语言把它编排出来,这样我们现在会发现。算法决定的是你能做到什么样的一个程度,真正这件事情。这样的一个场景能做到,比如说做到还是90%的业务价值,基本的决定是数据和业务。业务逻辑和数据确定了,你的算法和调优只是去无限逼近天花板而已。那如何能快速的去调整算法,那这就是快速构建试错,这过程Metaflow起到非常重要的作用。

             

那我们可以总结一下,Netfix成为数据驱动企业的七个关键的组成部分,那他的数据战略、数据决策、数据应用、数据技术、数据智能平台、数据团队和数据文化。

             



三、关键发现



后来看一下这两个企业给到我们的一些关键的总结和发现。

1、建立清晰的数据战略是建设的步。你看这个富国银行的一件事情梳理规划数据战略,数据战略包含内容有数据用例、场景用户、数据平台、数据技术和数据团队。

2、数据技术和平台能力,包括人工智能力是规模化应用数据的基础。

3、找到有价值的业务场景和用例,将数据应用起来是关键。

4、建立企业的数据认知和意识,打造数据文化是土壤。这也很重要,很多时候我们会发现在国内企业一个很典型的这个场景是,不是你找不到场景,也不是你不能用数据产生价值,很有可能是IT或者数据的这个领导,他没有管理好这个期望,没有构建出这样的文化和土壤,你还没到能够去发挥价值的时候,可能领导层已经失去耐心。所以这个也很重要。

5、让数据和业务团队紧密的协作,价值驱动。

6、要这个平台的基础之上,持续的运营,快速的迭代,达到持续的智能。

             

我们回过头再来看一下是今天讲的这两个案例都能够一一对应到我们所讲的数据中台的六大能力模型。我们来回顾一下数据资产的规划和治理,这就是数据战略里非常重要的部,富国银行做的非常好。数据资产的协作和Netfix他的Big Data Portal把数据资产的共享协作价值探索挖掘、运营度量。服务构建全部穿起来,然后同时把数据资产的存储和获取全部整合在一个Big Data Portal里去应用。

所以我们会发现这个六大能力模型实际上,他虽然这并不是针对他们去总结,但我们会发现他完全能匹配上。

       



以上文章来源于凯哥讲故事系列 ,作者筱愚她爸  


相关文章