2022 DTCC 专场17-湖仓一体化技术与应用实践(下)(PPT)
本次主题涵盖iceberg 湖仓一体项目在B站的落地实践,Iceberg 湖仓一体的内核优化,智能化管理平台的背景、意义与实践,以及未来展望。
大纲及要点:
1.湖仓一体项目在 B 站的落地实践
2.Iceberg 湖仓一体的内核优化
基于ZOrder 的数据重新组织优化
Bitmap & Bloomfilter 索引的支持
预计算的支持
星型模型的优化
3.智能化管理平台
智能化管理平台的背景与意义
智能化管理平台的实践
自动数据的组织优化、索引、cube 构建
智能查询分析,模式推荐
全局优化详情视图
4.未来规划
十年+软件行业从业经验,四年+ 大数据 OLAP 方向研发经验,先后在唯品会、B 站从事大数据 OLAP 方向的研发工作,目前主要负责B站OLAP平台,湖仓一体方向:Iceberg 内核研发、优化探索实践,智能化管理平台搭建、以及业务接入支持等相关工作。
基于Apache Doris大数据实时MPP数据库,构建新一代云原生实时数仓,充分发挥Apache Doris高性能、易用MPP引擎能力和云计算弹性,解决海量日志等半结构化、非结构化数据存储成本高、分析困难的痛点。
2009年至2012年在百度从事Hadoop平台研究与建设,2012开始先后在360、奇安信负责大数据平台,
研发基于MPP架构的安全大数据引擎,构建全球大的网络安全大数据。经历了Hadoop、Spark、MPP等几代大数据技术升级,多次担任QCon、DTCC大会出品人;2022年联合创立SelectDB,致力于研发新一代云原生实时数仓。
快狗打车业务快速发展,是公司众多人员的努力,同时对数据侧提出了更高的要求。数据的价值随着时间的增加而降低,分析以及运营更加希望实时数据助力业务发展,研发也希望借助BI侧的大数据综合计算能力得到汇总数据。在这样的基础上,快狗打车实时数据仓库历经两次迭代,从Spark计算引擎到阿里云Blink+Flink,从Hbase存储到目前多样式OLAP系统使用。本次演讲将带来快狗打车实时仓库的发展和实践
演讲内容重点提纲:
1. 快狗打车实时仓库1.0和2.0架构,以及技术方案和挑战
2. 快狗打车实时仓库的监控,安全,快速持续性建设方案
3. 快狗打车实时仓库的应用场景,助力线上服务、业务运营。
(实时指标建设,线上服务,OLAP应用等等)
4. 未来流批一体的探索
2019年加入快狗打车,负责实时数据仓库整体架构。毕业于山东理工大学,在离线和实时数据仓库有丰富经验,热爱分布式相关技术,在OLAP,Flink,Spark等技术有较深理解。
在全球企业信息化的今天,数据量过大、单机能力不足的问题日益严峻。为此,我们研发了 Databend,一款用 Rust 从 0 到 1 实现的云原生数仓。其借助 K8S 可以轻松实现弹性扩容的高性能计算集群,具有存算分离、拓展方便的特点;底层存储支持兼容 S3 协议的对象存储,如:AWS S3、腾讯 COS、阿里 OSS、MinIO 等,能够实现海量吞吐;从设计上支持半结构化数据,有助于进一步释放更多数据潜能。
在近些年常见的 OLAP 解决方案中,以速度取胜的 Clickhouse 和实现存算分离、按需付费的云原生数仓 Snowflake 都属于当红产品。本次分享将会分别针对「Clickhouse 如何实现实时计算、达成高性能」以及「Snowflake 如何实现存算分离」做一个探讨,同时也会对「为什么 Clikhouse 和 Snowflake 无法同时兼具对方优点」做一个分析。后会为大家讲述 Databend 是如何实现一个兼具二者所长、高性能、存算分离、按需分配的数仓。
在本次分享中将会带领大家更清晰的认识 Databend 的云原生架构以及开源现状和未来规划,同时会帮助大家学习使用 Databend 。
演讲内容重点提纲:
1. ClickHouse 如何做到在线实时分析
2. Snowflake 为什么要存储、计算分离
3. ClickHouse + Snowflake 两者能不能融合,有哪些挑战?
4. Databend 如何做到两者优势兼顾,定义新一代 Cloud Data Warehouse
5. Databend 开源现状和未来规划
Datafuse Labs 联合创始人 ,前阿里云数据库内核组早期成员、前青云数据库团队负责人。 开源 Databend 项目主要负责人。
Arctic 是网易自研的基于 Apache Iceberg 的湖仓一体管理系统,网易通过 Apache Flink 和 Arctic 构建流批一体的数据生产链路,实时离线统一的数仓。在 Iceberg 基础之上,Arctic 具有支持主键数据约束,结构自优化,数据一致性,实时订阅和实时Join等特性,本次分享将介绍 Arctic 的核心设计思路与实践心得。
分享大纲:
1.网易数据开发现状与痛点
2.基于Iceberg的湖仓一体系统——Arctic
3.Arctic的核心技术
4.案例与成果
5.未来规划
分享要点:随着大数据实时划进程得不断推进,实时与离线在开发链路与数据存储上割裂的问题逐渐暴露出来,这不仅造成了实时与离线在开发人员与存储成本上的双倍投入,还造成了实时与离线指标不统一的问题。业界新的湖仓一体架构旨在统一实时与离线的数据存储,并进一步解决实时与离线割裂的问题。网易基于Apache Iceberg,在之上构建了一套湖仓一体系统——Arctic,它在廉价的数据湖之上统一了流批存储,并提供了键数据约束,结构自优化,数据一致性,实时订阅和实时Join等特性。本次分享将带来网易基于Arctic在湖仓一体架构下的技术探索与实践心得。
周劲松,网易平台研发专家,从事大数据与数据库方向开发工作7年,曾负责网易分布式数据库与数据传输系统的研发工作,目前作为Arctic流批一体数据湖的项目负责人,在构建数据基础设施方面有着充分的开发与实践经验。
相关文章