2022 DTCC 专场6-海量数据架构与存储架构（上）（PPT）

2022-12-19 00:00:00 数据架构分布式业务海量

海量异构数据，在线业务存储架构演进与实践

演讲简介：

公司从小到大，业务从少到多，各个业务对用户/订单等模块的存储属性要求不同，但对它们的海量存储，在线查询，在线检索，实时通知的要求是相同的。在业务逐步发展，数据量逐渐增大，需求越来越复杂的过程中，要如何设计存储架构，各个阶段会遇到怎么样的问题，该用怎样的架构方案去解决这些问题，是本讲将要分享的话题。
分享大纲：
1. 单业务与多业务异构存储架构演进；
2. 海量数据面临的前台查询与后台查询架构方案演进；
3. 实时点查，列表查询，模糊检索架构方案演进；
4. 架构平滑升级与迁移方案与实践；

沈剑快狗打车 CTO

嘉宾介绍：

沈剑，快狗打车CTO，互联网架构技术专家，“架构师之路”作者。曾任百度工程师，58同城技术委员会主席，架构师，技术学院讲师。技术管理者一枚，架构略懂。

Hubble：AI-Native数据库混合存储之列存

演讲简介：

聊起海量数据的存储，绕不开hdfs这个话题，而从围绕hdfs发展至今的存储格式，orc与parquet在这几年发展中，依然还是大多用户的。试着思考其背后的原因，不难发现其定位的准确，才是流行的分布式计算引擎将其做为原因。但需求的梯度爬升并不会迁就于当前的市场占有率，随着更快更通用的场景诉求不断迸发，已被广泛使用的存储格式同时也面临着新的挑战。
为什么clickhouse，mysql，redis，es这些产品可以出道即，仅对产品特性了解的，都不难发现，这些产品都真正解决了用户痛点。
这些年海量数据存储所选用的存储格式上，似乎并没有发生太多本质的转变。试着重新整理用户场景的实质诉求，可以简单归结成几点:
1，数据接入能保证时效性，可以介绍分钟级的延迟窗口，显然还是越快越好。
2，数据存储好能与计算层解耦，且保持良好通用性，这样数据冗余问题自然大大降低。
3，海量数据的计算，能在分钟级完成，但往往不会过度追求秒甚至毫秒级别，而是追求计算逻辑的复杂程度，就是通过性必须完美。
4，要能支持数据更新，且与追加数据保持相同的效率。
以上看似很合理的诉求，在生态中寻找，却少有真的能完美契合的，要么是写入效率无法满足，亦或者满足了写入效率而无法满足复杂海量计算效率。总之，看似一切都还算合理的诉求，确实成为了用户痛点。
明确目标后，我们尝试提供一个可插拔的存储格式，来填补分布式存储的场景痛点。

乔旺龙天云融创数据科技（北京）有限公司分布式平台负责人

嘉宾介绍：

天云融创数据科技有限公司分布式数据库产品负责人，分布式数据库专委会委员、中国计算机学会会员，主导编写“智慧粮食系统内部数据研究”，现负责天云数据hubble数据库的研发。

京东云海统一存储平台架构与业务实践

演讲简介：

为解决京东海量数据存储，多样性、复杂业务场景对存储的需求，借鉴各大存储产品经验，京东自研了云海统一存储平台。统一了文件，对象，块，大数据存储。支撑京东内部众多业务线。块存储4K写100 IOPS情况下延迟200us以内。达到行业领先水平。完美支撑了京东618，双11业务流量洪峰。
本次分析，聚焦于存储引擎的核心技术架构。分享内容包括，存储的业界现状，存储要解决的核心问题是什么，存储高性能的核心技术有哪些，存储怎么做到低成本，如何面对电商双11, 618的流量洪峰，京东存算分离实践DBFS支撑数据库CoralDB。
演讲内容重点提纲：
1.存储的业界需求现状
（数据分析的需求，海量大数据数据，存储数据成本需求，容器，公私有云存储高弹性需求，AI训练、HPC、数据湖等，存储技术变革要求多场景、高性能、低成本、高稳定性、易管理、可观测等众多需求）
2.存储的核心技术以及在云海上的实现
分布式一致性协议，高速网络互联技术，数据日志技术，EC技术，代码编程模型，新型存储介质，海量存储设备的管理运维。
3.存储分离实践
京东dbfs架构与实践。
4.存储的未来

郑静京东科技存储技术架构师

嘉宾介绍：

现任京东科技存储团队架构师。曾任职Intel，浪潮从事操作系统，云计算与分布式存储系统相关研发工作。毕业于北京航空航天大学，热爱Coding、热爱开源。

相关文章