基于微服务的推荐系统

2020-07-02 00:00:00 数据模型服务推荐特征

所谓的人工智能，“智能”是由模型来完成的，剩下的大量的“人工”是实实在在的脏活累活。如果把机器学习系统比喻做一个人，模型是人的心脏，那么人的其他部位就是软件架构。心脏再强大，也离不开其他器官和血肉。一套成熟的机器学习系统，归根到底，还是软件系统。在这里，记录一下近些年参加的人工智能项目的得与失，以及改进方向。

为什么需要微服务

过去做软件，做游戏，往往是一个项目建一个工程，开发，运维，测试人员各司其职。机器学习项目，和过去的软件项目相比，有很多不一样的特点，比如：

快速学习：过去做项目，产品+服务端+客户端，搞定一切。但是做机器学习项目，如果职责分得太细致，难免产生"踢皮球"的现象。从数据的ETL，到数据清洗，排查数据问题，编写模型，实现服务，搭建试验平台，构建监控系统等，要求的技能都是不一样的，初创团队不可能具有方方面面都是"大牛"的人才。因此，快速学习，是做机器学习项目的要素
迭代要求快：模型部署到生产环境，至少需要观察几天才能看到是否有效，那么，快速更新模型，快速高质量的更新，是机器学习项目的重中之重。
硬件成本高：无论是GPU训练，还是EMR，都是一笔不小的开销。

综上，如果采用传统的研发+运维+测试的技术体系，沟通成本将大大增加，很难做到"快速迭代"。不同的职位，浸淫在自己的世界中，也无法"快速学习"。因此，我们团队采用研发，运维，测试一体化，按照功能划分微服务，单元测试+自动化集成测试解决测试难题，docker解决标准化交付，kubernetes解决服务编排。部门成立2年以来，各项研发总体进度符合预期，提供大几千级RPS的服务也是完全没有问题的。核心的数据工程师，软件工程师，算法工程师，数据分析师加在一起，只是个位数字。

为什么使用kubernetes

如果说2，3年前开始用kubernetes（以下简称k8s）时，还在争论是不是要用Spring Cloud，Dubbo等解决方案时，时至2019，已经完全无需争论了，k8s就是实至名归的，适用于绝大多数企业的解决方案。为什么呢？简单总结以下几点

商业面

k8s是全球各大云平台的方案，很多云平台只支持k8s
如果你是企业主，你愿意每年花50w多雇佣一个运维工程师？还是动动嘴皮子让开发工程师顺便学一下k8s来运维？

技术面

我没有API网关怎么办？k8s的Ingress帮你解决
我想傻瓜化更新/回滚该怎么办？k8s的Scheduler帮你搞定
我想灰度发布怎么办？k8s配合Service Mesh完美解决
我没有“服务发现”怎么办？k8s的Service帮你解决
我的应用不会自动重启怎么办？k8s的健康检查帮你解决
我需要个简单的配置系统该如何做？k8s的ConfigMap可以搞定
我的应用没有监控系统怎么办？k8s帮不了你，但是Prometheus可以在k8s中完美使用。
进程隔离/资源限制/故障注入/打包发布。。。。

好了，列举不完，如果你经营的企业不是淘宝，不是12306，那么几乎所有和业务无关的，但必要的功能，k8s都有相应的解决方案。在使用了k8s之后，我担心的问题是，对于传统繁琐的运维方法

项目架构

数据特征层

特征是机器学习的基础，一般要考虑

特征分类

用户特征：我们服务的对象，即用户的性别，年龄，地域等
物体特征：即被推荐的对象，广告的特征？游戏道具的特征？

如何抽取特征有专门的特征抽取算法。当然，起初的特征都是容易收集到的数据，特征也不应过多。在进行一段时间的服务后，特征的主成分分析是非常必要的。减少重复的，不必要的特征，筛选中真正有用的特征。
如何更新特征用户特征一般都是实时流更新，kafka读取到新的用户数据就可以更新。物体特征一般在被推荐对象“版本更新”后进行更新，即“物体”变了，那么我们抽取新的特征。
如何处理冷启动对于全新的物体，全新的用户，是不是在没有足够数据的情况下就无法提供推荐呢？目前有多种应对"冷启动"的方法，比如embed物体特征，这样，物体的特征就不再局限于其本身的特征了。
如何获取特征开发特征SDK，为研究和训练提供基础服务。特征数据通常不会很大，需要尽可能高效的访问。

软件服务层

AB Test AB Test肩负了2大使命

"试验"分流：在推荐系统运行的大部分时间里，我们都需要对照不同算法之间的差异。通过AB Test设置对照组，选出优选的算法。即便是早期优选出来的算法，也不能代表这个算法一直都。因此，对照组中除了要对比不同的算法之外，也要存在一个对比基准（benchmark）。通常，纯随机推荐就是那个对比的基础
“试验”记录：AB Test的结果同样需要被记录下来。由于机器学习算法预测的结果难以分析，如果没有记录对比实验结果，过不了多长时间，你会发现模型的行为变得难以分析，没有人知道究竟做了哪些调整，导致了模型的性能变好或变差。

推荐服务SDK 准备接入推荐服务的客户端，使用SDK和推荐服务通信。
路由服务通过推荐服务SDK发过来的请求，统一请求路由服务。路由服务通过请求参数，查询路由表，决定当前用户应该使用哪个推荐服务，再将推荐服务转发到真正的推荐服务中。终，路由服务接受推荐服务的推荐，并返回给客户端。借助kubernetes的自动伸缩功能，路由服务可以在高峰期自动顶住压力。
推荐服务推荐服务中持有训练好的机器学习模型，实时将推荐结果返回给路由服务。我们使用tensorflow serving进行推荐，需要注意的是，如果模型没有被预热（warm up），个请求会很慢，经常超过默认的5秒timeout时间。建议对模型进行预热，同时，如果需要被预热的模型签名很多，也会导致预热过慢。
推荐服务管理器，训练调度管理器负责编排机器学习模型的训练，更新，并管理全部推荐服务。此管理器经常需要和k8s集群交互，通常使用k8s java/python 客户端进行操作。操作k8s务必要管理好权限，使用token进行交互。一个教训是，默认情况下，客户端使用本地开发机的kube.config文件操作集群，这样很容易误操作生产环境的集群。
监控系统一套与业务紧密关联的监控系统。传统的监控注重硬件，网络流量的监控。实际上，多数情况我们更需要监控的是业务。有多少个模型在训练？有多少个模型是近3天内更新的？日志中有多少条错误？监控要做的，就是从多个维度，观察系统运行的稳定性，正确性，以便在时间发现问题。我们选用了Prometheus + Grafana的方案，根据你的业务范围，去选择单台Prometheus，还是组成federate。我的经验是，Prometheus的federate功能相对鸡肋，并没有很好的解决扩展性问题。Thanos框架恰好解决了这个问题，而且可以把数据持久化到众多云平台。 Thanos毕竟增加了系统复杂性，建议初创团队先按业务划分Prometheus，有必要时，再切换到Thanos。
数据质量系统机器学习的基础就是数据，现实中有各种各样的原因会造成数据错误。在系统设计初期，必须良好的记录下全套数据流程（data flow），自动化排查每一步可能出现的错误。数据质量系统的终极目标是，自动检测出服务的模型和训练的模型在哪里有差别。实际要做到这一点很困难，但是，我们必须要保证相同的数据输入，在服务模型和训练模型中，能得出相同的输出，否则，任何预测都是毫无意义的。

数据层

推荐记录ETL 理想中的数据是美好的，现实中的数据是残酷的。不要抱怨客户端发来的数据为什么千差万别，推荐记录ETL是繁琐，也是容易出错的一步。日志服务收集到的推荐记录，通常不能直接用于训练，而是通过ETL处理之后，才能用于训练。ETL的执行效率，很可能成为瓶颈。大数据查询语句，需要经过反复的优化，核对。如果你的Hive查询了十几个小时还得不出结果，通常都是Hive SQL的实现问题。拆分中间表，使用ods表等优化方法，能够显著提升ETL效率。
数据清洗 ETL之后的数据，再用于训练前，务必进行清洗。假设数据总是对的，就相当于在生产环境放了一颗定时炸弹。
分析与验证 ETL处理之后的数据，除了用于训练，也可以直接提供给分析师进行分析。同时，该结果也是交叉验证的基础。我们可以假设数据在数据流（data flow）中每一步都会出错，我们就是要基于常识，计算推荐记录中的数据是否合理。比如，benchmark中的随机推荐结果的分布是什么样的？到底是不是平均的随机？每天产生了多少条推荐记录？和产品DAU的情况比较是什么样的？

架构设计图

将上面的各部分简要绘制成图，如下

高可扩展性

在k8s出现前，扩容，缩容都是个苦力活，搞不好还会影响生产环境。记得那时，业务赶上推广，项目组经常全体通宵，目不转睛的盯着流量监控。而在k8s时代，只要你的服务足够微小，互相之间没有状态的依赖关系，就可以通过设置自动伸缩组来轻易的解决扩容，缩容问题。

无状态服务如果把单个服务想象成一辆公交车，乘客就是客户端的请求。现在有50名乘客，1辆公交车足矣。突然来了500名乘客，再调来10辆公交车即可。每辆公交车都是一样的，都是流水线生产的产品，谁也不依赖于谁，这就是无状态的服务。
伸缩组 k8s的伸缩组就是一个监控程序，你可以设置cpu高于一个阀值时，进行扩容。也可以自定义指标，比如结合Prometheus，当系统RPS高于某一个值时进行扩容。

高可用

上面提高的伸缩组一定程度上就是保证高可用，但是我们依然需要从多方面提供系统可用性，防止雪崩发生。

服务降级对于推荐系统，假如推荐系统发生故障，至少，不应该影响客户端的使用。服务降级是一个退而求其次的过程，对于客户端而言，没有推荐也没关系嘛，随机产生被推荐对象就好了嘛。
设计图详细规划流程图，仔细排查系统中的单点。数据流图，网络拓扑图，系统架构图也可以很好的帮你发现可能存在的断路。举一个生产环境上的事故，我们的服务在线上抛出了比平时多的error，由于某些原因，error的堆栈不够完整，于是我们只能猜测问题发生的位置。我们发现出现问题的服务，通过伸缩组伸缩了几十个，但只有少数几个服务存在问题。在排除了硬件问题之后，终发现是这几个问题服务到Redis的链路有问题。解决这个问题固然简单，但我们花费了近1天的时间去排查问题。问题的根源还是监控做的不到位，监控忽略了服务和Redis的依赖性，默认云服务供应商的链路不会有问题。
监控系统上面各种图中的问题，总不至于用肉眼来观测吧？基于Prometheus的检测系统，是目前的选择。如果业务简单，直接部署Prometheus即可。如果业务复杂，少数几台Prometheus不能满足，好配合类似Thanos的组件来使用。和传统的监控服务相比较，Prometheus并不是以高效而著称，而是因为其简单，易用，便于集成和复用。

常见坑

伸缩组对于不同云服务供应商，伸缩组的功能要由供应商自己实现。由于供应商水平的参差不齐，节点扩容，缩容本身也是技术难点，因此，云服务供应商的伸缩组功能可能不是很牢靠。除了伸缩组自身的bug之外，缺货，货源改变等问题也是经常出现的。所以，有比较频繁的伸缩需求的业务，好尽早和供应商沟通，做到货比三家。
容器化容器化简化了部署和维护，缺使开发多了一些步骤，并且可能会出现难以调试但问题。所以，在准备动手开发前，务必先考虑好如何开发，如何测试，如何解决线上问题。这里插播一条广告，arthas是令我爱不释手的一款解决线上故障的利器。
资源超卖 “超卖”的问题虽然人人皆知，但不能光吐槽，也应该知道“超卖”会如何影响你的服务。简单的说，“超卖”类似坐飞机时，美联航卖出的票比实际的座位要多，他们根据统计学，计算出某个航班预期有多少人不会来乘坐航班，从而多赚几张票钱。云服务领域也是一样的，明明只有32核的机器，或许可以卖到33核，因为谁也不会让自己的服务常年的占满，能多卖点就多卖点。因此，如果你在云服务里购买了1核1GB的节点，那就要当心了。因为，如果你买的是32核的节点，少分配你1个核心，你也许不会察觉到，但是如果你只买了1个核，少分配的那1个核又恰恰在你的虚拟机上，那就要耽误事了。

后续

有关如何实现微服务，google提供了很好的demo（https://github.com/GoogleCloudPlatform/microservices-demo），建议初学者仔细研读一下。后面会详细总结一下当前的技术选型

原创不易，请保护版权。如需转载，请联系获得授权，并注明出处。

相关文章