【名人堂】专访Kyligence联合创始人李扬:面向大数据的终极OLAP引擎方案

2021-10-22 00:00:00 数据 领域 技术 开源 项目


嘉宾介绍

李扬,Kyligence联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。



duke217(Q1):李总,您好!很高兴今天能采访到您。首先还请您跟我们的网友打声招呼,并简单介绍下Apache Kylin相比其它竞争对手的特点。

李扬(A1):各位技术爱好者和网友大家好。我是李扬,Apache Kylin的管理委员会成员,也是Kyligence的联合创始人兼CTO。Apache Kylin简单来说就是Hadoop之上的一个OLAP多维分析引擎,提供标准SQL接口和秒级别的查询响应。在确定的星形数据模型上,可以代替Hive查询,响应速度提升100到1000倍。相比其他类似技术,Kylin的特点在于导入数据时进行预处理,构建Cube,从而在查询时刻大量减少连接和聚合运算,实现高吞吐量和高速响应。


duke217(Q2):自宣布开源,Apache Kylin已经走过了1年多的光景。它是由国内团队完整贡献到Apache的个项目。您是否能够和我们分享下,这期间有哪些令您印象深刻的故事么?

李扬(A2):大的感受是项目开源后那种八方相助、众人拾柴的感觉。项目早期Kylin的SQL功能有不少缺陷,不支持一些语法和内建函数,Calcite社区给予了很多帮助,解决很多SQL解析方面的问题。之后Cube构建阶段遇到转换HFile文件格式的瓶颈,来自美团的工程师给出了独到的改进建议,大幅提升了构建速度。又有京东的工程师提供的自定义聚合函数,解决了明细数据分析的问题。感到开源的力量非常强大。


duke217(Q3):我了解到,就在这个月,Kyligence刚刚宣布获得了数百万美元的天使轮投资,投资方为红点资本。那么,Kyligence拿到了这次投资后,这些投资会被用在什么样的地方?

李扬(A3):首先是持续开发开源Kylin,扩大全球使用率及用户社区,构建完整的生态系统。其次是人才投资,招聘好的工程师来做好的开源项目及商业产品。后市场及推广也需要很大的投入。


duke217(Q4):在您看来,以目前国内的环境,开源产品若想顺利实现商业化,有哪些需要注意及克服的方面呢?

李扬(A4):开源带来的好处是显而易见的,一个好的开源项目有广泛的用户群体,和较低的持有成本。在实现商业化的过程中,比较难的是如何让客户,特别是国内客户,突破开源不等于免费的认知,终认可企业级产品及商业服务的价值。另外一个需要克服的方面是如何在开源项目之上为客户提供更有价值的产品和能力,避免只靠为开源技术提供服务的模式。


duke217(Q5):当前,大数据正从互联网领域向其他行业急速蔓延。那么在您看来,2016年哪些领域会与大数据擦出更大的火花呢?

李扬(A5):领域我不算熟悉,但所见所闻看,是全面开花的感觉。在过去的2016 Hadoop峰会上,一大主题就是数据改变商业。来自各个行业和领域的专家都有分享,除了互联网、电信、移动、金融等大数据起步较早的行业,还包括零售、物流、汽车、医疗、游戏、航空、影视创作、广告、制造等等等等。覆盖面之广前所未见。可见大数据技术已经成熟,转化盈利能力已经在各个领域被证实,并越来越广泛被认可。


duke217(Q6):2016中国数据库技术大会到今年也是第七届了,您此前是否参加过中国数据库技术大会?能谈谈您对大会主题“数据定义未来”的理解么?

李扬(A6):“数据定义未来”是对大数据中包含的信息,信息提炼而来的知识,以及知识抽象汇总得到的规律和知识系统的莫大肯定。随着信息化电子化对人类社会全方面的覆盖,我们很确信电脑将无所不知,人类活动的每个点滴都会通过不同形式变成数据,存储在电脑中等待分析。谁掌握了数据,掌握了从数据中提取信息、知识、规律的能力,谁就在未来发展道路上掌握主动,获得先机。因此拥有和控制数据已经成为众所周知的战略。


duke217(Q7):再次感谢您能够接受我们的采访,非常期待您在2016中国数据库技术大会上的精彩分享,后,请您为我们送上一句祝福吧!

李扬(A7):非常感谢中国数据库技术大会的邀请。真心希望大会能越办越好,大数据技术能改善人类,造福世界。

相关文章