基于 Flink 和 AI Flow 的实时推荐系统

基于 Apache Flink 和 AI Flow 的
实时推荐系统

a2m.msup.com.cn
讲师简介
林东
阿里巴巴高级技术专家
林东在宾夕法尼亚大学获得计算机博士学位，担任Apache Kafka
PMC, Apache Flink committer。目前在阿里云开源大数据平台
负责Flink ML, DL on Flink, AI Flow等开源项目的开发工作。
在加入阿里前，林东在LinkedIn参与Apache Kafka及相关技术的
开发工作，在谷歌大脑下一代TensorFlow计算引擎的开发工作。

a2m.msup.com.cn
目录
• 推荐系统原理及演进趋势
• 静态推荐系统
• 加入实时特征的推荐系统
• 加入实时训练的推荐系统
• 实时推荐系统架构
• 实时特征、实时样本、实时训练
• 实时推荐系统关键技术
• Apache Flink
• Flink ML
• DL on Flink
• 机器学习工作流 AI Flow

a2m.msup.com.cn
静态推荐系统
应用
在线（毫秒级延迟）离线（天级延迟）
特征
特征更新
模型更新
特征生成
模型训练
UserID: 2, PageID: 100
UserID: 2
Gender: M
Country: CN
…
UserID: 2
Gender: M
Country: CN
…
UserID: 2, AdsID: 2002
在线推理
近线（秒-分钟）
消息队
列
用户行为日志
ETL
…
UserID: 1, AdsID: 2002, PageID: 100, click: true
…
2020/8/22
2020/8/23
2020/8/24
• 用户 1 看了 page#100 并且点击了ads#2002
• 用户 1 和用户 2 都是中国男性用户.
• 当用户 2 (中国男性用户) 访问 page#100 时, 展示 ads#2002.

a2m.msup.com.cn
• 静态生成的特征、训练样本和模型具有较大的 (e.g. 1天) 的延迟。
• 以分类模型为例，根据用户的相似性进行用户分类，假设同类用
户有相似的兴趣和行为。
• 例如中国的男性用户有类似行为。
• 一旦用户被划分为某个类别，则他将一直处于这个类别中，直到被新的
模型训练重新分类。
静态推荐系统

a2m.msup.com.cn
静态推荐系统
应用
在线（毫秒级延迟）离线（天级延迟）
特征
模型更新
特征生成
模型训练
消息队
列
用户行为日志
ETL
UserID: 2
Gender: M
Country: CN
…
…
…
2020/8/22
2020/8/23
2020/8/24
UserID: 2
Gender: M
Country: CN
…
?
• 用户 3 和用户 2 都是中国男性用户，并且最近5分钟都看了page#200
在线推理
• 用户 3 和用户 2 更加相似
• 模型和特征都是静态的
• 预测的变化滞后
特征更新

a2m.msup.com.cn
加入实时特征的推荐系统
近线
在线（毫秒级延迟）
离线（天级延迟）
应用
特征生成
模型训练
近线特征生成
在线推理特征
特征更新
模型更新
消息队
列
用户行为日志
ETL
2020/8/22
2020/8/23
2020/8/24
…
…
• 用户 3 和用户 2 都是中国男性用户，并且最近5分钟都看了page#200
• 当用户 2 (最近 5 分钟内看了page#200 的中国男性用户) 访问 page#100 时,
展示 ads#2003.
追踪每个用户
最近 5 分钟浏览过的页面
UserID: 2, AdsID: 2003 UserID: 2
Gender: M
Country: CN
…
UserID: 2
Gender: M
Country: CN
…
UserID 2 -> Page#200
? • 分类和特征权重是固定的
• 新的分类和权重更新滞后

a2m.msup.com.cn
• 实时追踪每个用户的行为
• 静态模型在部分情况下表现依然不佳
• 推荐物品频繁上下架
• 用户行为分布发生变化
加入实时特征的推荐系统

a2m.msup.com.cn
实时推荐系统
近线
在线（毫秒级延迟）
离线（天级延迟）
应用
特征生成
模型训练
实时特征生成
在线推理特征
特征更新
模型更新
实时训练
实时模型更新
实时样本拼接
消息队
列
用户行为日志
ETL
…
…
…
• 用户 1 是中国北京男性用户.
• 用户 3 和用户 2 都是中国上海男性用户，并且最近5分钟都看了
page#200
• 用户 4 和用户 5 都是中国上海男性用户，并都点击了 ads#2002
• 当用户 2 (中国上海男性用户) 访问 page#100 时, 展示 ads#2002.
2020/8/22
2020/8/23
2020/8/24
UserID: 2
Gender: M
Country: CN
City: SH
…
• 上海的男性用户
• 北京的男性用户
UserID 2 -> Page#200
UserID: 2
Gender: M
Country: CN
City: SH
…

a2m.msup.com.cn
• 实时特征
• 从静态特征到实时特征
• 实时样本
• 从离线样本到实时样本
• 实时训练
• 从 T + 1 模型训练到实时增量训练
向实时推荐系统演进

a2m.msup.com.cn
静态推荐系统架构
应用
消息队列
推理服务
模型中心
离线存储
训练样本拼接
离线模型训练
模型验证训练样本存储
实时用户行为日志
特征存储
静态特征生成
用户特征 / 物品特征
训练样本
历史用户行为日志
T+1 模型更新

a2m.msup.com.cn
实时推荐系统架构
消息队列
推理服务特征存储
模型中心
离线存储
静态特征生成
实时样本拼接
离线模型训练
模型验证
实时特征生成
样本存储
实时模型训练
历史用户行为
实时用户行为
历史
特征储存
应用
(搜索、推荐、广
告)
特征

a2m.msup.com.cn
实时推荐系统架构
历史用户行为
实时用户行为(浏览、点击、加购等)
Kafka
(消息队列)
HDFS
(离线存储)
Apache Flink
(静态特征生成)
Apache Flink
(实时特征生成)
HBase / Redis
(特征存储)
Kafka （实时训练）
HDFS （离线训练）
(样本存储)
Flink ML
TensorFlow
(在线训练)
Flink ML
TensorFlow
(离线训练)
Apache Flink
(推理服务)
HDFS
(模型中心)
（模型验证)
Apache Flink
(实时样本拼接)
HBase
TensorFlow
特征
历史特征
应用
告)

a2m.msup.com.cn
实时特征生成及推理
Kafka
(消息队列)
Apache Flink
HBase / Redis
(特征存储)
(推理服务)
特征
例如：
• 用户最近 5 分钟的浏览记录
• 商品、文章、视频
• 停留时长
• 收藏、加购、咨询，评论
• …
• 最近 10 分钟每个品类中点击率最高的 50 个商品
• 最近 30 分钟浏览量最高的文章、视频、商品
• 最近 30 分钟搜索量最高的 100 个词
• …
应用
告)

a2m.msup.com.cn
离线特征回填（Backfill）
应用
告)
历史用户行为
Kafka
(消息队列)
HDFS
(离线存储)
Apache Flink
Apache Flink
(推理服务)
特征
HBase / Redis
(特征存储)
例如：
• 需要计算新的特征
• …

a2m.msup.com.cn
实时样本拼接
应用
告)
历史用户行为
• 利用 Flink 多流 Join 能力进行样本拼接
• 多流同步、正负样本、样本修正
Kafka
(消息队列)
HDFS
(离线存储)
Apache Flink
Apache Flink
HBase / Redis
(特征存储)
(样本存储)
(推理服务)
Apache Flink
(实时训练样本拼接)
特征
特征
HBase

a2m.msup.com.cn
实时模型训练
应用
告)
Kafka
(消息队列)
HDFS
(离线存储)
Apache Flink
Apache Flink
HBase / Redis
(特征存储)
(样本存储)
Flink ML
TensorFlow
(在线训练)
Apache Flink
(推理服务)
HDFS
(模型中心)
（模型验证)
Apache Flink
TensorFlow
特征
历史用户行为
HBase
特征
Flink ML
TensorFlow
(离线训练)

a2m.msup.com.cn
应用
告)
Kafka
(消息队列)
HDFS
(离线存储)
Apache Flink
Apache Flink
HBase / Redis
(特征存储)
(样本存储)
Flink ML
TensorFlow
(在线训练)
Flink ML
TensorFlow
(离线训练)
Apache Flink
(推理服务)
HDFS
(模型中心)
（模型验证)
Apache Flink
TensorFlow
特征
• Flink as a computing
engine
• DL on Flink & Flink ML
• AI Flow
实时推荐系统关键技术
实时用户行为(浏览、点击、加购等) 历史用户行为
HBase
特征

a2m.msup.com.cn
目录
• 推荐系统原理及演进趋势
• 静态推荐系统
• 加入实时特征的推荐系统
• 加入实时训练的推荐系统
• 实时推荐系统架构
• 实时特征、实时样本、实时训练
• 实时推荐系统关键技术
• Apache Flink
• Flink ML
• DL on Flink
• 机器学习工作流AI Flow

a2m.msup.com.cn
Flink ML
• 面向实时机器学习的API
• fit(..), transform(..), setModelData(..), getModelData()
• 支持模型数据实时传输
• 流批一体的迭代引擎
• 基于DataStream API完成训练
• 同一套代码用于在线推理和离线推理
• 开箱即用的训练，推理以及特征工程算子
• 重构和迁移阿里巴巴自研的Alink算法库到Flink ML
• 支持 OnlineKMeans, KNN, VectorAssembler 等算子

a2m.msup.com.cn
Flink ML API 设计要素
支持模型数据
实时传输的API 1 4
5
6
3
2
提供无模型
语义的抽象类
更易用的
模块存取API
流批一体的
训练和推理API
更易用的
参数存取API
支持多输入图结构
的机器学习作业

a2m.msup.com.cn
Flink ML API 代码概览
更易用的参数存取API
更易用的模块存取API
支持多输入的
训练API
支持多输入多
输出的推理API
支持模型数据
实时传输的API
提供无模型
语义的抽象类
<<Interface>>
WithParams
...
<<Interface>>
Stage
void save(String path)
static Stage load(String path)
<<Interface>>
Estimator
Model fit(Table… inputs)
<<Interface>>
Transformer
<<Interface>>
AlgoOperator
Table[] transform(Table… inputs)
<<Interface>>
Model
Model setModelData(Table… data)
Table[] getModelData()

a2m.msup.com.cn
Flink ML 在线训练 + 在线推理
静态数据
(Flink HDFS Source)
动态数据
(Flink Kafka Source)
特征处理
(AlgoOperator
)
在线训练
(Estimator)
前端服务器
模型数据
（Flink Kafka sink）
训练数据
原始数据
training_data =
algoOperator.transform(inputs)
model = estimator.fit(training_data)
sinkToKafka(model.getModelData())
前端服务器
前端服务器
model = new ModelA(…)
model.setModelData(…)
outputs = model.transform(inputs)

a2m.msup.com.cn
Flink ML 算子库长期规划

a2m.msup.com.cn
Deep Learning on Flink
• 用Flink完成数据预处理，用深度学习框架完成训练/推理。
• 经过预处理的数据不需要被储存。
• 执行一个Python程序完成预处理 + 训练 + 推理。

a2m.msup.com.cn
Deep Learning on Flink
One single Flink job in a Cluster/Environment
Distributed TF framework in a Cluster/Environment
WORKER WORKER WORKER
PS PS
Resulting
Model
SOURCE
SOURCE
JOIN UDTF WORKER
PS PS
WORKER WORKER
One Flink job in Cluster/Environment
SOURCE
SOURCE
JOIN UDTF
External
Storage
Queue
>>> >>>
Resulting
Model

a2m.msup.com.cn
基于作业状态的工作流调度
TaskA
TaskE
TaskC
TaskB
TaskD
工作流定义
工作流执行
Jobs
在上一个作业结束后
基于作业状态变化的调度
调度器

a2m.msup.com.cn
• 工作流中不支持流作业
• 流作业不会执行结束，因此 finish-before 语义不适用
• 运行中的作业之间没有协同
• 例如 Job 2 处理的消息时间戳应当比 job 1 处理消息的时间戳小。
• 部分语义表达不自然
• 例如周期性 + 条件触发任务通常需要用户在周期任务启动后自己检查条
件是否满足，不满足则需要手动重试。
目前大多数工作流系统的问题

a2m.msup.com.cn
基于事件的工作流调度
TaskA
TaskE
TaskC
TaskB
TaskD
工作流定义
工作流执行
基于事件的条件函数
基于事件的调度
调度器
事件条件函数启动/停止/重启
EventA
EventB
EventC

a2m.msup.com.cn
实时推荐系统应用
Example1
Transform
Example2
Train
validation
Inference
Example3
Example4
config config
config
config
config
config
config
config
控制依赖
数据依赖

a2m.msup.com.cn
实时推荐系统应用
Transform Train
Transform Predict
Flink Job (Online Learning & Validation)
Flink Job (Online Prediction)
Model Center
AI Flow Services
Notification Service
Metadata Service
Validation
Ads
Ad Click
Page View
User Profile
Every 5 min
Model Version

a2m.msup.com.cn
• 为什么实时推荐系统有用？
• 如何搭建实时推荐系统？
• 系统架构
• 具体技术项目
开源项目代码库：
- Apache Flink: http://flink.apache.org
- Apache Flink ML: https://github.com/apache/flink-ml
- Deep Learning on Flink: https://github.com/flink-extended/dl-on-flink
- AI Flow: https://github.com/flink-extended/ai-flow
总结

麦思博(msup)有限公司是一家面向技术型企
业的培训咨询机构，携手2000余位中外客座
导师，服务于技术团队的能力提升、软件工
程效能和产品创新迭代，超过3000余家企业
续约学习，是科技领域占有率第1的客座导师
品牌，msup以整合全球领先经验实践为己任，
为中国产业快速发展提供智库。
关注msup公众号
获取更多AI落地实践

基于 Flink 和 AI Flow 的实时推荐系统

Recommended

More Related Content

What's hot (20)

Similar to 基于 Flink 和 AI Flow 的实时推荐系统 (20)

基于 Flink 和 AI Flow 的实时推荐系统

Editor's Notes