ArgoDB如何取得大数据时代的金羊毛?

2021-01-14 00:00:00 数据 分析 分布式 企业 厂商

点击▲关注 “IT168企业级”给公众号置顶

更多精彩 时间直达


2020年Snowflake的高调上市使得业内轰动,云原生数据仓库领域成为大家关注的热点,在疫情肆虐之下国内云原生数据仓库创业公司获得了融资。在大数据时代,国内外环境不同,中国的“Snowflake”们可以走出怎样不同的路?Snowflake的发展又具哪些值得借鉴的地方?

星环科技产品经理 宋宇 

在DTCC2020大会上,IT168专访了星环科技产品经理宋宇,一探究竟。

▍Snowflake发展的启发

2012年成立的Snowflake致力于提供云数据仓库,受到股神巴菲特老爷子的青睐,同时也获得Salesforce的认可,上市首日股价上涨112%,市值达到708亿美元,如今已超过800亿美元。Snowflake的上市成为2020年一大现象级事件,SaaS厂商和大数据厂商都从中看到了未来和希望。

在海量数据爆发时代,数据处理分析需求水涨船高。相关产业爆发式增长,根据IDC的数据,在2020-2024年期间,全球大数据技术与服务相关收益将实现9.6%的CAGR(年均复合增长率),预计2024年将达到2877.7亿美元。而2020年中国大数据相关市场的总体收益将达到104.2亿美元,较2019年同比增长16.0%,增幅领跑全球大数据市场。

云计算与大数据的融合越来越紧密,Snowflake立足于云原生数据仓库,提供存储计算完全分离的技术方案,相比于传统的数仓,更加灵活、弹性,云与数更为紧密的结合是大势所趋,国内也有不少厂商纷纷要做中国的“Snowflake”,正如Salesforce之于CRM领域,Workday之于HR领域,虽然传奇虽然具有不可复制性,但是总有经验可以借鉴。

Snowflake的发展道路给国内大数据厂商很多启发,“(Snowflake)向下比较强调中立性,在生态上能够对接三大公有云(AWS、Azure、Google Cloud),做好了大数据上云的事情。其实也定义了‘有所为,有所不为’。向下底层的云产品不做,专注做好大数据,并做好与云产品的对接,成为了B+C的经典。向上,对应到应用层,提高大数据产品的易用性,提供更贴心的服务而不是简单的产品。我们也看到很多采访和分析机构这样形容它:以后再也不用自己造房子,而是可以租用房子居住了。这样的理念说到底是把通用的服务包装好,方便用户直接拎包入住。从这一点上来说,对于我们很有启发意义。”宋宇总结道。

中美之间企业IT治理水平和市场环境有很大不同,比如国内企业对数据上云的顾虑,以及对定制化需求较多等。这些差异导致中国的“Snowflake”会有很大的不同,宋宇重点提到了大数据厂商和云厂商的关系问题,“公有云厂商自然而然想到大数据对上层应用来讲是基础的软件,对于云厂商来讲是上面的一层,很多的云厂商会不会考虑将之纳入产品线范畴,成为自己B+C一体化的解决方案。如此一来,做大数据的厂商就没有那么大的生存空间,这是一个大数据厂商所要博弈和考虑的问题。这是中国市场和美国市场大的不同。”

环境影响个体,不同的环境会塑造出不同的人,也能塑造不同的企业,同样地,个体是构成环境的一部分,也推动着环境演进,以星环科技为代表的大数据公司正在大数据时代不断探索。

▍大数据时代的金羊毛

传说古希腊海洋的另一端有象征财富的金羊毛,很多人都去寻找但终葬身大海,后来伊阿宋和一众英雄们建造了Argo号船,终于乘船翻洋过海取得了金羊毛。“我们现在处于信息大爆炸的时代,许多企业要面对大数据的汪洋大海,如果我们没有一个强大的工具,只能望洋兴叹。而星环科技推出的分布式闪存数据库ArgoDB就是一款立足现在、展望未来的硬科技产品,有了它,我们的客户就能安全可靠地航行于大数据的海洋中,去创造出更大的企业价值。”宋宇曾如此介绍星环科技推出的ArgoDB。

2018年5月,星环科技发布分布式闪存数据ArgoDB,与Snowflake一样是面向OLAP场景,打榜TPC-DS并取得非常瞩目的成绩。星环科技OLAP数据库共有Inceptor和ArgoDB两款产品,Inceptor是基于Hadoop打造,ArgoDB是完全自研面向新型存储硬件设计的分布式分析型数据库产品,面向企业的数据湖、离线批处理数据仓库、在线分析处理数据集市业务场景。

挖掘数据价值离不开大数据技术的支持,Hadoop和MPP(超大规模并行处理)是大数据技术的两条经典技术路线,各有优缺点。随着企业数据量增大,很多企业都会选则基于Hadoop建立数据仓库,Hadoop扩展性强,但是分析性能较弱。很多企业后又引入MPP,MPP在分析性能场景下,性能较好,但是MPP现在大多都是由专门的厂商来搭载专门硬件,非常昂贵,扩展性差。“Hadoop入仓,MPP查询分析”的“Hadoop+MPP”混合架构一度成为数据分析领域非常经典的组合。但是随着大数据技术应用的深入,企业需求越来越复杂,离线业务与在线业务并存,分析业务与检索业务并存,结构化数据与非结构化数据并存,传统大数据架构有了短板,需要多种架构多款产品,导致平台更加复杂,运维和实施成本上升,Hadoop+MPP的经典组合也遇到了挑战。

ArgoDB立足于一站式替代Hadoop+MPP架构,采取存算分离分布式架构,“星环科技做ArgoDB的时候,汲取前人经验,努力扬长避短,考虑这两者(Hadoop、MPP)之间有没有需要融合和取长补短的地方,也做了很多自己思考的判断。”宋宇介绍,ArgoDB既考虑了Hadoop横向拓展性不设限的好处,以及细化分布式的构想,同时也采纳MPP对性能优化的理念。比如在分布式存储方面,不同于MPP以1/4节点作为存储单元,ArgoDB采用128-256M块数据为单位,能够实现全方位细粒度的分布式管理,可以单节点扩容。“我们认为数据应该真正实现细粒度分布式,应当随着硬件的选择,调度性能上的需求来进行切分,而不是贴合管理上的需求,做粗粒度的切分。”

据悉,国内采用Hadoop+MPP架构的企业通常数据量有一定规模,分析场景有一定复杂性,有一定的性能要求。宋宇认为现在正在替换的路上,各行业发展不同,需求有异。目前来看金融领域有较大替换诉求,政府、军工和邮政等行业也有相关需求。

宋宇印象比较深刻的是一个核心金融客户,有8000多个脚本,平均每个脚本2000-3000行,长有10000行,虽然星环科技已经有很多年数仓方面的积累,但该金融客户的系统复杂度还是远超原先想象,对SQL的各方面(包括不太常见的命令)都有涉足,需要提供产品化能力和平滑迁移能力,“我们必须要解决平滑迁移的问题,把所面临很具体的一个个难题逐个解决掉。”宋宇介绍,紧要关头星环科技决定通过攻关小组,在很紧张的时间里,把8000多个脚本存在的问题排查到零,后交给客户一个满意的答案。同时,通过这样一个项目,使得ArgoDB的产品能力进一步进化。

谈到ArgoDB的差异性,宋宇总结了三点,一是对新硬件采用比较深入的优化和贴合的合作战略。二是架构方面,星环科技在Hadoop方面有长期经验积累,在Hadoop和MPP上取长补短。三是星环科技产品平台化布局,分布式图数据库StellarDB以及分布式交易型数据库KunDB等星环科技的诸多产品为提供企业一站式解决方案提供了助力,同时星环科技有很多通用组件和各个领域的专家在支撑各个组件进一步提升性能。

对于很多技术型公司而言,保持对技术的敏感度并找对技术路线并不容易,而这也是成败的关键。宋宇认为一方面创业团队有技术基因非常重视研发,保持高投入,同时研究和开发分开,除了日常开发,还有研究性投入,星环科技产品推出之前一般都有3-5年的投入。此外,积极参与社区,注重产学研结合,鼓励创新等,“各方面都来保障对技术保持敏感性,而不会出现只闷头走路,不抬头看路的现象。”宋宇期待2021年在核心、硬核的领域能有零的突破,产生标杆性实践,相信ArgoDB能够更上一层楼。



相关文章