逆行者,AI红海里创出自己一片蓝海

2022-05-30 00:00:00 算法 开发 平台 工具 基础

编者按:AI是近火到爆的一个词,AI核心算法技术也是随着社会更多的投入而越来越精细化,我们常见的语音识别、图像识别、人脸识别等技术越来越应用到我们实际生活中,更一点的自动驾驶、边境的无人巡防等技术也已经相继落地实用。同时我们也注意到关于AI的算力设计也是未来AI技术领域关注的核心话题,如何优化AI算力?如何通过算法更好的提升AI降本增效的效益。

 

1. 卢总,您好!很荣幸有机会采访您,您先简单做个自我介绍

 

大家好,我叫卢亿雷,是白海科技的创始人。白海科技是一家聚焦AI基础软件的初创公司,我们的使命是“AI更简单、更快速、更高效”。我们主要服务数据科学家、算法工程师和大数据工程师,为他们提供易用的云原生IDE、高性能的调度引擎等基础软件,从而帮助企业和算法团队提升效率、降低成本。

 

在创立白海科技之前,我相继在联想、百度和明略科技工作,在AI、分布式计算、超大集群、大数据等领域积累了超过15年的技术和实践经验。

 

2. 您之前在联想、百度、明略科技主要负责的工作是什么?主要的研究领域是什么?

 

在联想研究院负责联想网盘的分布式存储和高性能计算,在百度负责Hadoop分布式计算的相关工作。在明略科技主要负责AI算法平台的搭建和产品化,成功服务了一批零售快消、汽车、金融等行业的龙头企业。

 

一直以来,我主要的研究领域都聚焦在高性能分布式计算、AI开发工具平台等方向,2015年就研究应用Zepplin,2018年换成Jupyter Lab,2021年我们换成了自研的IDP平台,IDP是支持分布式执行的IDE平台。

 

3. 对于AI领域的竞争已经是异常激烈,您是基于怎样一种考虑或者契机促使您做的这个决定?

 

决定在AI领域创业,其实是基于这十几年对大数据和AI领域的观察做出的深思熟虑的决定。

 

从行业层面来看,AI的广泛应用是必然趋势,目前AI应用的渗透率仍较低,未来还有很大的想象空间。这种想象空间不仅局限于目前AI与现有行业结合所催生的应用场景,更可能是新的互联网大趋势所带来的颠覆式应用,如Web3.0和元宇宙。

 

AI本身也是一个分层次的完善的产业体系,包括底层基础设施到上层应用。我们对于“竞争激烈”的印象,通常来自于应用和解决方案这一层。但为了促进AI更好地应用,在解决方案之下,仍需要大量的基础软件和支撑软件作为基石。

 

我国基础软件的发展整体相对滞后,但19年来逐渐获得了技术、资本等领域越来越多的关注。从AI领域来看,AI基础软件也正在迎来黄金时代。作为一个一直在基础软件领域摸爬滚打的人,这既是创业机会,也是一种使命感。也正是在这种使命感、机遇和自身经验兴趣的三重催化,我决定创立白海科技,专注做AI开发生产平台。

 

4. 我们都知道AI产品开发的难度和投入都很大,为什么考虑AI开发生产平台这个领域?

 

核心的就是市场有迫切需求,但现有工具又无法满足这种需求。

 

目前企业大规模进行AI应用,面临着数据、算法和算力层面的多重挑战,亟需易用的开发生产平台工具来帮助其降低AI应用门槛、加速AI创新。

 

针对企业和算法团队对于加速AI大规模开发生产、降低AI开发门槛的需求,目前市场上的工具根据产品逻辑分为两大类:集成式机器学习平台和AI开发生产基础软件。但这两类工具分别存在一些不完美的地方。如,集成式机器学习平台由于致力于提供一站式“大而全”的服务,对企业客户和实际用户来说,通常会存在产品过于厚重复杂的挑战。而AI开发生产基础软件虽然简单轻量、可按需安装功能组件,但各组件的适配表现欠佳,且使用门槛较高,需算法开发人员对系统工程有较深了解;此外,这些基础软工具缺乏配套计算引擎的支撑,较难满足企业对性能和低成本的需求。

 

因此,我们想要构建一种新一代的AI开发生产平台,兼具易用性和高性能,既符合数据科学家和算法工程师的使用习惯,大化提升其使用效率,又具备精细化的资源调度和分布式计算能力,提升资源利用率,降低成本。

 

5. 目前国内AI整个市场应用落地是什么样的情况

 

19年可以说是AI从理论和实验室走向场景落地的元年。这近三年来,各行各业、各领域和场景都有AI应用的试验和探索,但坦白来说,真正大规模落地的AI应用还是极为有限的,AI在产业中的渗透率整体仍较低,业界估计AI在企业中的渗透率不足10%,且主要集中在推荐系统、安防、智能驾驶方面。

 

从算法开发和试验,到落地应用,这中间还有巨大的鸿沟需要跨越。目前制约AI规模化应用的主要是业务价值的验证,高昂的成本,开发部署的技术和工具门槛较高,以及人才供给不足。

 

6. 目前您创业的AI开发生产平台发展到什么阶段了?基于此白海科技是怎么做的?

 

我们的新一代AI开发生产平台产品IDP(Intelligent Development Platform),主要包括两大子产品:高性能的调度引擎-IDP Engine和易用的自研IDE-IDP Studio。其中,IDP Engine是产品的核心,提供精细化的资源调度,支持高性能分布式计算。

 

在资源调度方面,IDP Engine的核心差异化特征是支持“迁移,抢占,断点续跑"

迁移:根据模型场景做资源的预分配,实时监测资源和任务状态,进行动态迁移

抢占:具备资源隔离、任务调度功能,支持抢占式调度和计算资源的自动扩容

断点续跑:支持进程级别的断点续跑和自动休眠(Hibernate)

分布式计算方面,IDP Engine的核心特征是“高吞吐量”。

IDP Studio这边,我们致力于将易用性做到。我们深入调研了数据科学家和算法工程师在模型开发中的核心痛点,希望通过IDP Studio的功能设计,帮助他们大化解决这些痛点和瓶颈。比如,我们深度支持数据科学常用的Python和SQL语言,用户无需配置安装SQL插件即可灵活使用SQL; IDP支持智能单机和分布式执行,用户只需要写一份代码即可进行单机和分布式的训练;IDP还提供一键链接主流数据源、版本管理、环境管理等易用性功能。

 

此外,IDP支持算法团队和业务团队的跨团队协同分析,算法团队可以将结果和数据分享给业务团队,进行实时协作,极大缩短了算法到业务应用的反馈路径,促进团队的协作和信任,加速AI创新应用。

 

目前IDP的Beta版本已经发布,差异化的功能和特征包括:更便捷的环境管理和版本管理,可视化Pipeline构建和任务管理,主流云数据源的一键接入,跨团队协作分析,自研Kernel,以及自动补全、代码跳转、错误修复、全局搜索等易用性的提升。用户和客户可以在白海科技的官网上申请试用。

 

 

7. 您对未来国产AI开发生产和数据科学相关的基础软件及平台的发展是否看好?有哪些建议?

 

非常看好的。正如之前所说,目前从国家到AI行业再到企业和个人均已意识到了基础软件发展存在的瓶颈,并在积极寻找突破口。AI基础软件的发展既是国家战略,也是市场的需求。

 

对于AI开发生产和数据科学相关的基础软件及平台的发展,我认为有三点为重要:

 

一是要有坚定的使命感和的决心。目前我国基础软件主要被国际产品断,基础软件的“弯道超车”是关系到我国科技崛起的国家战略,为此进行奉献,是基础软件人的使命。但也必须要承认,相比于应用软件,基础软件的开发周期长、难度大、商业化慢,因此开发AI基础软件要有异常坚定的决心,能难得住寂寞。

二是坚持核心技术的突破。做真自研的技术,尤其是基础软件和核心底层技术,攻坚核心技术才能够有较强的产品护城河。

三是积极构建开放生态。开放生态包括两个层面,一方面是与AI开发生产平台上下游产品和工具的开放协作,如云服务,BI工具等,通过产业链的协同,为客户提供更加体系化和完善的解决方案;另一方面是开源开放,依托广大开发者的力量,协同加速产品的创新迭代。

 

 

8. 现在市面有一种声音,AI芯片在2023年会倒掉一批企业,您是如何看待这个问题的

 

AI芯片的分类如下三种:

(1)、GPU(图形处理器)

(2)、FPGA(现场可编程门阵列)

(3)、ASIC(专用集成电路)

有些AI芯片是专门服务训练场景,有些是专门服务推理场景的,2023年芯片企业的发展主要取决于两个点,一个是资本市场和国家政策的支持,另外一个就是客户真实的需求是否明确,是否真正解决了客户痛点问题。总的来说,如果AI芯片企业技术基础足够扎实、成本控制的足够好,市场环境的扰动不会撼动其发展的根本,这样的AI芯片企业我是坚定持续看好的。但是某些AI芯片企业只是简单的集成,没有自己的核心技术壁垒,这样的企业容易在行业“洗牌”中被淘汰。

 

9、后请您给我们简单介绍一下白海科技的AI开发生产平台——IDP的发展路线图。

 

IDP的发展整体遵循两个“延伸”的原则:由通用平台工具延伸向场景解决方案,由无状态工具延伸向有状态工具。

 

1)由通用平台工具延伸向场景解决方案

 

近期我们专注于工具产品本身的开发,完善产品功能,打磨产品易用性、全方位提升产品性能,打造集易用的IDE、强大的计算引擎与调度引擎、深度优化的算法框架、便捷的数据管理一体的云原生新一代AI开发生产平台。在这一阶段我们主打通用基础工具和平台。

 

在坚实的底层通用平台的基础上,我们会进一步与各类行业生态伙伴一起,打造行业版本解决方案,帮助企业解决具体的业务场景问题。通用平台是土壤,只有土壤足够丰饶,才能更好地滋养上层应用。

 

2)由无状态工具延伸向有状态工具

 

在通用平台工具——AI开发生产平台的打造上,我们遵循由“无状态工具”到“有状态工具”的路径。“无状态工具”即不改变用户现有的技术架构和体系的工具,无侵入性,使用成本低。“有状态工具”则相反。基于这一逻辑,我们优先打造IDP Studio——易用的IDE,以及IDP Engine中的调度引擎部分。事实上,这两部分功能也恰好是数据科学家和企业目前的核心痛点。Studio解决了数据科学家缺乏易用工具的问题,调度引擎解决了企业计算资源利用率低的痛点。

 

 

此外,开源也是我们至关重要的产品规划。我们计划今年年中将IDP Studio开源。IDP Studio是纯国产自研的IDE,我们希望通过开源,与广大开发者共同打造国产IDE生态,打磨优质国产IDE产品,助力国产基础软件的繁荣。

相关文章