Snowflake后记 - Building An Elastic Query Engine on
在2016年发表了《The Snowflake Elastic Data WareHouse》 这篇paper后,snowflake引领了云数仓发展的潮流,也引爆了资本界对于数据库行业的狂热,无论国内国外,投资圈都在期待下一个"snowflake"的出现。时至今日,snowflake在美股IPO的一年半后,市值已接近900亿。个人感觉,snowflake在几个技术决策上做出了无比英明的决策:
- 原生的与云结合,包括引领了方向的计算与存储(状态)分离,从而可以在2个层次上独立的实现弹性和高可用能力,此外基于同一份海量数据的VWs可以针对不同租户的不同workload需求实现隔离。这种分离可以充分利用云资源的弹性,并降低成本。
- 提供SAAS能力,简单的配置使用方式,易用性强,降低用户入门门槛,小化维护成本。
- 对多类型数据的支持,随着大数据的发展,现在已经远不是简单的企业内部收集的一些固定源头的数据(ERP,CRM...),数据来源多样化,同时模式也更加丰富,除经典的结构化数据外,半结构/非结构化数据都变为了重要的数据资源。
今天介绍这篇paper是snowflake在2020年NSDI上发表的一篇,干货不算多,但也有一定的前瞻意义,算是对16年那篇paper的一个补充吧,关于16年的解读可以看这篇:
相关文章