海量异构数据,在线业务存储架构演进与实践演讲简介:公司从小到大,业务从少到多,各个业务对用户/订单等模块的存储属性要求不同,但对它们的海量存储,在线查询,在线检索,实时通知的要求是相同的。在业务逐步发展,数据量逐渐增大,需求越来越复杂的过程中,要如何设计存储架构,各个阶段会遇到怎么样的问题,该用怎样的架构方案去解决这些问题,是本讲将要分享的话题。
分享大纲:
1. 单业务与多业务异构存储架构演进;
2. 海量数据面临的前台查询与后台查询架构方案演进;
3. 实时点查,列表查询,模糊检索架构方案演进;
4. 架构平滑升级与迁移方案与实践;
沈剑 快狗打车 CTO嘉宾介绍:沈剑,快狗打车CTO,互联网架构技术专家,“架构师之路”作者。曾任百度工程师,58同城技术委员会主席,架构师,技术学院讲师。技术管理者一枚,架构略懂。
Hubble:AI-Native数据库混合存储之列存演讲简介:聊起海量数据的存储,绕不开hdfs这个话题,而从围绕hdfs发展至今的存储格式,orc与parquet在这几年发展中,依然还是大多用户的。试着思考其背后的原因,不难发现其定位的准确,才是流行的分布式计算引擎将其做为原因。但需求的梯度爬升并不会迁就于当前的市场占有率,随着更快更通用的场景诉求不断迸发,已被广泛使用的存储格式同时也面临着新的挑战。
为什么clickhouse,mysql,redis,es这些产品可以出道即,仅对产品特性了解的,都不难发现,这些产品都真正解决了用户痛点。
这些年海量数据存储所选用的存储格式上,似乎并没有发生太多本质的转变。试着重新整理用户场景的实质诉求,可以简单归结成几点:
1,数据接入能保证时效性,可以介绍分钟级的延迟窗口,显然还是越快越好。
2,数据存储好能与计算层解耦,且保持良好通用性,这样数据冗余问题自然大大降低。
3,海量数据的计算,能在分钟级完成,但往往不会过度追求秒甚至毫秒级别,而是追求计算逻辑的复杂程度,就是通过性必须完美。
4,要能支持数据更新,且与追加数据保持相同的效率。
以上看似很合理的诉求,在生态中寻找,却少有真的能完美契合的,要么是写入效率无法满足,亦或者满足了写入效率而无法满足复杂海量计算效率。总之,看似一切都还算合理的诉求,确实成为了用户痛点。
明确目标后,我们尝试提供一个可插拔的存储格式,来填补分布式存储的场景痛点。
乔旺龙 天云融创数据科技(北京)有限公司 分布式平台 负责人嘉宾介绍:天云融创数据科技有限公司分布式数据库产品负责人,分布式数据库专委会委员、中国计算机学会会员,主导编写“智慧粮食系统内部数据研究”,现负责天云数据hubble数据库的研发。
京东云海统一存储平台架构与业务实践演讲简介:为解决京东海量数据存储,多样性、复杂业务场景对存储的需求,借鉴各大存储产品经验,京东自研了云海统一存储平台。统一了文件,对象,块,大数据存储。支撑京东内部众多业务线。块存储4K写100 IOPS情况下延迟200us以内。达到行业领先水平。完美支撑了京东618,双11业务流量洪峰。
本次分析,聚焦于存储引擎的核心技术架构。分享内容包括,存储的业界现状,存储要解决的核心问题是什么,存储高性能的核心技术有哪些,存储怎么做到低成本,如何面对电商双11, 618的流量洪峰,京东存算分离实践DBFS支撑数据库CoralDB。
演讲内容重点提纲:
1.存储的业界需求现状
(数据分析的需求,海量大数据数据,存储数据成本需求,容器,公私有云存储高弹性需求,AI训练、HPC、数据湖等,存储技术变革要求多场景、高性能、低成本、高稳定性、易管理、可观测等众多需求)
2.存储的核心技术以及在云海上的实现
分布式一致性协议,高速网络互联技术,数据日志技术,EC技术,代码编程模型,新型存储介质,海量存储设备的管理运维。
3.存储分离实践
京东dbfs架构与实践。
4.存储的未来
郑静 京东科技 存储技术架构师嘉宾介绍:现任京东科技存储团队架构师。 曾任职Intel,浪潮从事操作系统,云计算与分布式存储系统相关研发工作。毕业于北京航空航天大学,热爱Coding、热爱开源。