2020SACC专场四: 基于大数据平台应用实践(PPT下载)

2020-10-27 00:00:00 数据 架构 业务 系统 介绍
京东子午线-超大规模数据收采集和分析系统的设计与实践
演讲简介:

用户行为采集及洞察分析已经不是新鲜技术,中大型互联网公司都有自己的采集设施和方案,行业内也有一些流量采集分析服务,然而像京东这种有如此庞大体量用户并伴随大促秒杀等超大流量场景的并不多,京东内部有一套统一的流量数据采集和分析服务,可以承担千万级别QPS访问,单天采集实时分析千亿量级用户访问行为,形成分主题的特征模型有力支撑场景化运营。本次分享将介绍京东子午线从多端埋点采集工具、到采集上报服务端架构、再到如何进行流量分拣、后到由流量数据计算分析各主体的实时特征,各核心模块选取在设计和落地过程中遇到的问题和方案优化。
分享提纲:
a. 介绍点击流服务在京东生态下的重要作用和流量体系全景图,采集服务架构的演进过程,以及如何基于海量数据实时分析各业务主题特征;
b. 介绍在京东大促等重要流量高峰时刻流量采集服务遇到过的极端场景、稳定性、采集丢失等问题,剖析其原因及优化策略;
c. 针对以上痛点,从几方面升级技术架构和压测方案,比如:提升埋点上报及时率,降低数据丢失率;多机房分流及容灾,全链路流量憋洪、高保真流量镜像压测,360度立体式监控。
分享要点:
首先,京东的埋点采集工具能做到上报率及时率和低丢失率行业领先,介绍多端埋点采集工具的设计架构,如何保证原生埋点与H5埋点访次连续性,以及高时效,低丢失的设计策略;
其次,采集服务端是数据收集的重中之重,海量的用户行为请求可达到秒级 500万以上QPS,单日数据可达近千亿日志,如此庞大的上报数据中含杂着异常访问、爬虫等数据,重点介绍后端服务集群的技术选型,分布式高可用架构以及数据的安全可靠性保证策略;
后,高保真压测、线上流量憋洪和立体式监控应急策略是保障京东大促洪峰冲击下全链路应用平稳的三板斧,重点介绍高保真压测、憋洪工具和监控应急中心的架构和设计策略。

王书兴 京东商城-技术与数据中心 软件开发工程师
嘉宾介绍:

2011年毕业后就职于中国电子科技集团第15研究所,主要从事国家部委安全方面的数据信息系统建设,承担重点工程的系统架构与研发工作;2015年加入京东,一直从事与大数据方向技术研发相关工作,带领技术团队参与过京东点击流等重点数据相关产品系统的研发工作,多次主导大数据方向的大促技术备战工作。

亿贝智能广告流业务架构演进
演讲简介:

流处理与批处理作为大数据处理两个典型的应用场景,分别都有其自身鲜明的优势与劣势。流处理能够为大数据处理提供低延迟的实时模式支持,但是在吞吐量上具有先天的劣势。批处理能够轻松地应对大吞吐量的数据处理,但其往往会有非常大的延迟。近些年以来,亿贝智能广告流业务系统一直在尝试融合这两大应用场景,使其优势互补的同时掩盖各自的缺陷。在开始,由于下游系统接口的具有实时性的特点,我们试图使用流模式完全强行处理所有的业务,但流模式先天的缺陷使得业务系统无法轻松应对亿贝广告流业务带来的超大型的吞吐量,同时在可维护性上也存在很多的问题。这之后,我们迁移到了业界主流的lambda架构,解决了同时应对大吞吐量和低延时的业务要求。但是lambda架构也引入了新的挑战:由于在lambda架构中流处理与批处理的天然隔离,使得业务逻辑同时分散在两条数据流水线上以及服务层上,这导致面对新的业务需求时系统缺乏良好的可扩展性。针对以上缺点,现如今我们提出了一个多层次超结构架构,通过拆分数据处理层与业务处理层,并提供支持多种底层架构的数据访问层,使得系统在具备大吞吐量和低延时特征的同时,能够轻松应对新需求的开发以及日常的维护。
分享提纲:
a. 介绍亿贝智能广告流业务背景和典型的应用场景;
b. 介绍亿贝智能广告流系统架构演变的历史以及历史架构的不足;
c. 介绍亿贝智能广告流系统现有架构的实现以及特点;
分享要点:
首先,随着广告业务的不断发展,同时兼顾大吞吐量与低延时越来越成为业务上的硬性需求,批流合一也成为了大数据当前的一大前进方向;
其次,现存广泛应用的lambda架构由于其自身的复杂性使得在应对快速变化的业务需求时显得十分乏力,这给工程师的日常开发与维护带来了很大的负担;
后,通过引进多层次超结构架构,亿贝智能广告流业务系统在具备大吞吐量和低延时特征的同时成功地解决了业务的可扩展性并降低了系统维护的复杂性,使得亿贝智能广告流业务系统能够轻松应对亿贝广告业务未来的挑战。

邹庆楠 eBay 软件架构师
嘉宾介绍:

eBay软件架构师,2014年于上海交通大学计算机科学技术系毕业后加入腾讯科技(上海)有限公司互动娱乐事业群,从事在线游戏客户端开发。于2017年加入 eBay 智能市场营销部门,期间主要负责:
1. 通用机器学习平台和特征数据仓库的开发与维护;
2. A/B测试平台的开发与维护;
3. eBay广告大数据平台的开发与维护。
在工作中广泛引用了多种大数据开源工具如Hadoop,Spark,Kafka,Cassandra,Couchbase,Elasticsearch,并深入参与了eBay大数据平台的革新。

同程艺龙千亿级应用日志平台架构演进
演讲简介:

本次演讲将分享同程艺龙应用日志平台整体架构,如何通过简单记录一条日志就能帮助业务应用快速发现和定位问题的功能特性设计和实现,如何在成本与可用性之间做取舍,以及平台数据量从十亿、百亿再到直至目前千亿规模过程中不断演进优化过程中所遇到的难题与挑战、对应的解决思路与方案,后分享后续平台的优化改进方向。
分享提纲:
1. 同程艺龙应用日志平台概况与背景介绍;
2. 日志平台数据量快速增长过程中遇到的难点和挑战、迭代优化的思路和方案;
3. 如何通过日志功能设计帮助业务应用快速发现和定位问题、如何在成本与可用性之间的取舍的实践总结;
4. 平台后续改进和优化方向思考。

周祝群 同程艺龙 研发中心技术专家
嘉宾介绍:

同程艺龙研发中心技术专家,具有丰富的大规模分布式系统设计与开发经验,主导设计了公司应用日志平台并见证了数据量从零突破至千亿的整个演进优化过程,目前主要负责全新的应用监控平台建设,旨在为公司提供功能强大且易用的应用问题发现、排查和定位服务。

陌陌大数据安全体系构建实践
演讲简介:

基于数据驱动的精细化运营是过去几年陌陌持续推进的工作模式,其中数据不仅是社交产品的核心资产,更是这种工作模式不可或缺的基础生产资料,因此如何全方位、成体系的解决数据安全问题一直是大数据团队的重点工作目标之一。本次分享旨在剖析大数据场景下数据安全的问题定义,如何构建起大数据安全的保障体系,并重点介绍陌陌在各个环节的实践经验与工作成果,后希望能与在场同学探讨数据安全与分享效率间平衡的思考总结。
3.2 分享大纲
1. 大数据安全体系介绍
大数据安全场景与问题
大数据安全等级
大数据安全要素
2. 陌陌数据安全体系构建实践
角色/服务认证机制
授权/鉴权访问机制
分级/脱敏管理机制
风险/审计防控机制
3. 总结与展望
取得的成果与下一步的规划
数据安全与分享效率的平衡
3.3 分享要点
1)大数据安全场景介绍,重点分析不同安全等级对应的机制与服务能力以及影响数据安全的核心要素,构建起大数据安全的体系认知;
2)陌陌在大数据服务组件 Kerberos 认证、敏感数据访问保护、元信息管理等重要安全环节的落地实践;
3)陌陌对大数据安全体系构建的经验总结以及后续规划

刘志祖 陌陌 数据仓库负责人
嘉宾介绍:

2015年加入陌陌后专注数据仓库建设工作,持续推进公司数据治理与数据中台化建设,经历陌陌大数据生产与治理体系从无到有的构建过程,目前致力于提升数据平台能力开放、加速数据使用赋能,保障公司精细化数据驱动目标落实。

京东到家基于个性化推荐的消息触达实践
演讲简介:

移动互联网时代,消息触达是常用的GrowthHack工具,广泛应用于潜在用户召回、提频、留存、通知等用户运营场景;传统固定文案形式,不仅转化效率低(获客成本高),反而频繁骚扰用户,造成消息屏蔽甚至客诉、卸载;
京东到家在2017年创建增长部,三年时光对消息触达做了多次重要改版,逐步打磨成集 ABTest、用户画像、推荐系统、优惠券系统、营销系统、埋点系统等多元化平台;千人千面的个性化文案可在大促期间即时触达千万级用户群体;
本次分享列举消息迭代的几个重要里程碑,详细介绍其产生背景、怎样快速落地、踩过哪些坑,如何避免的,终的业务价值如何,未来有哪些启发;
目前可预见的问题还有很多,我们将不断改进,使每一条触达消息更有效,每一条数据更精准,希望和更多增长研发领域的伙伴共同交流、进步。

柳晛 京东到家 研发管理岗
嘉宾介绍:

十年业务开发,在大麦网创建凤凰与麦田事业部,深度参与公司.NET到Java转型;京东到家架构委员会委员,创建到家健康研团队、京东众包北京研发中心、达达众包任务研发团队、到家增长研发团队;有过两次自主创业经历,喜欢了解业务,擅长寻找简单的技术方案长效解决问题。

相关文章