十年死磕,从一线工程师到CEO

2022-06-28 00:00:00 技术 互联网 开源 业务 监控

问题 1:您好,来炜!很荣幸有机会采访到您,先简单介绍一下您自己?

大家好,我是来炜,是快猫星云的创始人&CEO

我本科就读于中国科学技术大学,得益于中科大的自由和开放,我在学校实验室兼职网络和系统管理员,毕业之后,就顺势加入到了百度运维部门工作,参与当时百度核心的业务——竞价排名服务的技术保障。由于业务太过于核心,所以技术保障的压力很大,在百度度过了紧张、激烈快速成长的三年时间,从内心深处觉得这不是我想要的生活。于是在2011年加入到了以慢著称的豆瓣技术团队,参与豆瓣社区、豆瓣开放平台的产品研发工作,在豆瓣收获了一群有才华、有追求的同事和朋友,成为一生的宝贵财富。

从大学毕业刚刚步入社会,这两段截然不同的节奏,让我得以切身体会,快与慢,只是表象,当目光放长远,真正了解自己的兴趣,了解自己擅长什么,了解自己想成为什么样的人,就找到了一切的动力,找到了属于自己的节奏。

后来,受到移动互联网浪潮的影响,先后加入了小米和滴滴,在小米,见证了中国智造如何加速中国移动互联网的普及,在滴滴,亲身践行着移动互联网让出行更美好的使命。了解开源的朋友,可能会对我发起的两个开源项目比较熟悉,open-falcon和夜莺监控。

<2020杰出开源贡献奖获得者>

open-falcon 是我在小米工作期间,为了应对公司互联网业务的快速增长,而 Zabbix 在扩展性和使用灵活度方面疲于应付的情况,带领团队开发并开源的一款互联网企业级监控系统。

open-falcon 从写下行代码,是在 2012 年的冬天,开源于 2014 年。open-falcon 在设计之初,沉淀的主要是互联网公司在运维大规模物理机时代的方法论,在简单易用、扩展性、性能方面倾注了较多的心思,凭借于此,开源之后迅速成为国内开源监控系统的,服务了上千家企业用户,并影响了国内互联网运维圈子一个阶段对于监控系统系统的设计思路。

 滴滴在 2016 年初,开始往云原生架构转型,重度采用 K8s 和容器化技术栈,同时在架构转型的过程中,传统的物理机架构和云原生架构,会持续的并存和交织。 截止当前,公司基本实现了全部核心业务的容器化以及K8s编排调度。在这个“漫长”过程中,对新一代的企业级监控提出了更高的要求,即如何以一套监控产品,来保障大规模异构环境的可观测性,并提供良好的用户体验,减少业务在架构转型过程中的风险和摩擦。

于是,我们当时从公司自身的云原生架构转型需求出发,结合 Prometheus 构建的标准化能力,以及在公司大规模场景的实践经验,采用 All-In-One 的设计原则,提供企业级的功能特性,开箱即用的产品体验,打造了“新一代云原生监控分析系统” —— 夜莺监控,并于 20203月份在 Github 上以 Apache License V2 许可证开源。

开源之后,凭借其的产品设计和灵活性架构,夜莺监控快速发展为国内活跃的企业级云原生监控方案。迄今为止,在Github上已经迭代发布了60多个版本,获得了4800Star70多位代码贡献者。快速的迭代,也让夜莺监控的用户群越来越大,涉及各行各业,越来越多的社区用户选择将Prometheus + AlertManager + Grafana组合方案,升级为使用夜莺监控。夜莺监控项目,于 11 日,成功捐赠给了中国计算机学会开源发展委员会,成为CCF 接受捐赠的个开源项目。

问题 2:您在2021年创立了快猫星云,是什么契机促使您做了这个决定呢?

首先,云计算和云原生这个大的浪潮,对整个 IT 行业产生着深远的影响,尤其是推动着infra层面剧烈变革,我们身处其中,深深的感受到,如果不去抓住这个时代赋予我们的机会,会是无法弥补的遗憾。另一方面,云计算正在逐步吞噬我们,一时间发现我们能干的云计算干的更好,我们不能干的云计算能干,这意味着不去主动求变,终也可能会被滚滚洪流狠狠的甩下车。

第二,过去十年所从事的开源工作,不管是open-falcon、还是夜莺,服务了数千家终端用户,创造了一定的社会价值。结合云计算,我看到了创造更大社会价值的无限潜力以及商业上成功的可能性。

而这些设想和远景,是我一直待在一家公司支撑内部业务,永远不可能实现的,走出去,是的路径。

问题 3:您之前在滴滴主要负责的工作是?现在主营的业务是什么?与之前的技术方向一致吗?

我在滴滴工作6年时间,大致上可以分为三个阶段。

个阶段:解决可用性的问题,保障大家稳稳的打到车

不管是早期每天百万订单,还是之后的每天大几千万订单,保障全平台业务稳定、高效的运行,一直都是我们部门的使命愿景;全平台不可用时长,是我重要甚至的KPI,可用性是我们技术团队承诺给业务的核心的价值,也是核心的用户体验之一。

第二个阶段:推动滴滴往云原生架构转型

 2016 年初,我们已经看到了云原生架构所带来的效率提升方面的潜力和趋势。当时面临两个决策,一是K8smesos的选型之争,二是开着飞机换引擎,节奏、风险如何把握。

事后来看,当时和团队一起,做出了正确的决策,我们从2016年初,开始往云原生架构转型,重度采用 K8s 和容器化技术栈,同时在架构转型的过程中,传统的物理机架构和云原生架构,持续的并存和交织,我们将稳定性保障、业务改造升级、弹性云计算平台建设三者做到了顺利的融合。 

当前公司基本实现了全部核心业务的容器化以及K8s编排调度,支撑业务每周数千次的快速迭代,实现了资源使用效率的数倍提升。

<2019  6 Linux 基金会在上海举办的 KubeCon + CloudNativeCon + 开源峰会,鉴于我们在云原生技术实践创新方面的工作,获得当年的 CNCF 终用户高奖>

第三个阶段:对外商业化

大的互联网企业,随着内部业务增速的逐步企稳和内部基础平台的逐步完善,技术团队,特别是infra团队,一般会面临能力溢出、资源溢出、以及团队长期健康发展的问题。解法无外乎两种:

1、技术团队主动求变,用技术变现,让技术本身变成一个业务,成为公司的第n条曲线。infra层面大的商业模式和机会就是云计算,但是商场如战场,需要面对激烈的市场竞争,抓住合适的时间窗口,考验团队认知转型升级的速度,以及经营意识和能力。

2、技术团队控制规模和投入,从内部效率上要收益,但是内部效率挖掘的天花板是相对有限的,终会导致团队的长期发展呈现螺旋状坍缩。

这两个抉择和转型都面临着巨大的困难,对我个人而言,体会更是深刻。2019年,我逐步将精力过渡到公司的云计算业务上,从私有云平台、监控、大数据几个方向切入,从支持内部业务切换到更多服务于外部企业客户,再到2021年,担任云计算事业部总经理,全身心投入到云计算业务。这段经历,比我过往职业生涯任何一个阶段面临的转型都更猛烈、更具不确定性,甚至于从结果上看业务发展和我的预期是有差距的。

庆幸的是,这次不那么成功的转型经历,我打开了一扇窗,埋下了创业的种子202110月份,快猫星云科技有限公司正式成立了。

快猫星云,作为一家云原生智能运维科技公司,秉承着让监控分析变简单的初心和使命,致力于打造先进的云原生监控分析平台,结合人工智能技术,通过产品技术和方法论的创新,提升云原生时代数字化服务的稳定性保障能力。

问题4 您对未来智能运维的市场前景是否看好?有哪些建议?

运维是一个刚需领域,市场空间足够大,稳定性保障,是涉及到数字化、信息化的所有行业、企业面临的难题,也是所有技术工作的基本盘、技术架构演进的重要落脚点,是技术团队承诺给用户的重要的用户体验和核心的用户价值。如果稳定性这个基本盘没有做好,其他技术工作的成绩都要打折扣,甚至归零。所以任何一位合格CTO或者技术主管,他的工作清单里,无一例外,稳定性保障永远是他需要通盘考虑的首要问题,且不能有一丝一毫的放松。

但这个事情,刚需之外,他又很难:

1、系统越来越复杂,以至于无法清晰的定义什么是真的故障,无法定义,那就更谈不上准确、及时的发现故障了,稳定性保障工作,直接输在了起跑线;

2、数据量越来越大,信息过载的问题变得格外突出,技术团队在有限的时间里,无法有效、准确的提取关键信息,导致贻误战机,造成巨大的业务损失;

3、稳定性保障,在整个行业范围,缺乏有效的方法论沉淀和产品化抽象,导致故障处理的各个环节,高度依赖工程师个体的经验,不具备复制性,难以持续改进,俗话讲,缺乏套路,门槛太高;

首先,快猫星云的核心是方法论的认知优势,结合国内互联网公司的成功经验,譬如滴滴、阿里等等。这些实践和经验,经过抽象、提炼、产品化,有机会成为行业通用的、行之有效的解决方案。

其次,我们深度融合了AIOps和可观测两个前沿技术领域。这就好比快猫星云是一架飞机,AI是飞机引擎,可观测平台和数据就是原油,方法论是飞控系统,只有三者的有机结合,才能让快猫星云这架飞机,飞的又快又稳。

问题 5:监控预警方面与现有市面上的相比有哪些优劣势?是否有做过相关的测试对比

我们所打造的云原生监控分析平台Flashcat™平台,为技术团队,提供了一站式的监控分析,故障定位的解决方案,包括数据可视化、监控告警、数据分析、故障定位等等,特别的,有以下三个特点:

1 数据一体化&功能一体化:从数据采集源头开始,对包括指标、日志、链路追踪、事件等各类监控数据打通,保障数据的质量,即保证数据的标准化、丰富度、关联关系。 在一站式的环境下,想工程师之所想,急工程师之所急,对指标、日志、链路追踪、事件等监控数据,进行综合的分析和推荐,做到足不出户的快速继续追查问题。

2、高质量的数据集结合场景化的应用人工智能技术,通过异常检测,关联分析、自动推荐等能力,降低信息过载造成的负担。

3、通过抽象北极星,我们扭转了看待系统稳定性的视角,任意复杂的系统,都可以从用户的视角,抽象为有限的,关健的几个指标,结合智能异常检测技术,彻底解决故障无法被准确定义、故障发现不及时的问题。通过抽象灭火图,多维分析、事件中心,对关键特征和关键事件进行分析,快速圈定故障根因。

更重要的是,通过Flashcat™平台,使得故障处理变成了一种可重复执行的固定套路,这大大降低了故障处理的门槛,减少了对人的依赖因素。同时可重复执行,使得系统具备了自我迭代改进的能力。

问题 6:后,您对技术人员未来职业路线选择是否有一些好的意见和建议?

两个体会分享给大家:

1、职业规划要趁早,普通人要成功,捷径越来越少,靠的就是尽早认准一个领域,持续积累,终才能厚积薄发。

2、技术要以创造用户价值为导向,工程师也要尽早找到属于你的用户,把自己的工作当做一个产品去经营。

目前来看,云计算和云原生,推动着全世界的信息化、数字化的进一步的普及。IaaS 层面,格局已然非常清晰,成为水电煤一般的基础设施,云计算的红利正在加速释放,云上应用百花齐放,在各领域沉淀的佳实践,有机会在云上获得用户价值和商业价值的双重成功,正所谓三百六十行,行行出状元。在国内,不缺的就是场景和规模,我们有巨大的技术从业人员,在互联网、云计算、人工智能技术等领域,做出了领先的产品和解决方案。

期待有更多的技术人员,从大厂跳出来,去找到自己的用户,携过往所学,投身到这个精耕细作的云计算新时代。

相关文章