京东推荐系统架构揭秘：大数据时代下的智能化改造

2021-01-28 00:00:00 数据用户推荐特征个性化

在电商领域，推荐的价值在于挖掘用户潜在购买需求，缩短用户到商品的距离，提升用户的购物体验。

京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年，当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样，部落与部落之前没有任何工程、算法的交集。2013年，国内大数据时代到来，一方面如果做的事情与大数据不沾边，都显得自己水平不够，另外一方面京东业务在这一年开始飞速发展，所以传统的方式已经跟不上业务的发展了，为此推荐团队专门设计了新的推荐系统。

随着业务的快速发展以及移动互联网的到来，多屏（京东App、京东PC商城、M站、微信、手Q等）互通，推荐类型从传统的商品推荐，逐步扩展到其他类型的推荐，如活动、分类、优惠券、楼层、入口图、文章、清单、好货等。个性化推荐业务需求比较强烈，基于大数据和个性化推荐算法，实现向不同用户展示不同内容的效果。为此，团队于2015年底再次升级推荐系统。2016年618期间，个性化推荐大放异彩，特别是团队开创的“智能卖场”，实现了活动会场的个性化分发，不仅带来GMV的明显提升，也大幅降低了人工成本，大大提高了流量效率和用户体验，从而达到商家和用户双赢，此产品获得了2016年度的集团产品。为了更好地支撑多种个性化场景推荐业务，推荐系统一直在迭代优化升级，未来将朝着“满屏皆智能推荐”的方向发展。

数据平台

京东拥有庞大的用户量和全品类的商品以及多种促销活动，可以根据用户在京东平台上的行为记录积累数据，如浏览、加购物车、关注、搜索、购买、评论等行为数据，以及商品本身的品牌、品类、描述、价格等属性数据的积累，活动、素材等资源的数据积累。这些数据是大规模机器学习的基础，也是更地进行个性化推荐的前提。

1. 数据收集

用户行为数据收集流程一般是用户在京东平台（京东App、京东PC 网站、微信手Q）上相关操作，都会触发埋点请求点击流系统（专门用于收集行为数据的平台系统）。点击流系统接到请求后，进行实时消息发送（用于实时计算业务消费）和落本地日志（用于离线模型计算），定时自动抽取行为日志到大数据平台中心。算法人员在数据集市上通过机器学习训练模型，这些算法模型应用于推荐服务，推荐服务辅助用户决策，进一步影响用户的购物行为，购物行为数据再发送到点击流，从而达到数据收集闭环。

2. 离线计算

目前离线计算平台涉及的计算内容主要有离线模型、离线特征、用户画像、商品画像、用户行为，离线计算主要在Hadoop 上运行MapReduce，也有部分在Spark 平台上计算，计算的结果通过公共导数工具导入存储库。团队考虑到业务种类繁多、类型复杂以及存储类型多样，开发了插件化导数工具，降低离线数据开发及维护的成本。

数据离线计算架构

3. 在线计算

目前在线计算的范围主要有用户实时行为、用户实时画像、用户实时反馈、实时交互特征计算等。在线计算是根据业务需求，快速捕捉用户的兴趣和场景特征，从而实时反馈到用户的推荐结果及排序，给用户专属的个性化体验。在线计算的实现消息主要来源于Kafka 集群的消息订阅和JMQ 消息订阅，通过Storm 集群或Spark 集群实时消费，推送到Redis 集群和HBase 集群存储。

数据在线计算架构

京东推荐系统架构揭秘：大数据时代下的智能化改造

推荐产品

1. 推荐产品发展过程

2. 多屏多类型产品形态

推荐系统架构

1. 整体业务架构

2. 个性化推荐架构

数据平台

1. 数据收集

2. 离线计算

3. 在线计算

推荐引擎