Deep Neural Networks for YouTube Recommendations

本文探讨了YouTube如何运用深度神经网络(DNN)解决推荐系统两大核心问题:候选集生成与排序。通过用户兴趣向量与视频词向量的交互,结合用户画像特征与exampleage,模型能有效预测用户观看可能性,同时在训练策略上,引入更广泛数据源,确保每个用户样本均衡,提升推荐准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:
https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf

系统框架

系统框架
主要问题1.如何利用DNN作召回(候选集生成)2.如何利用DNN作ranking

候选集生成

u为用户兴趣向量,v为视频词向量,p表示用户u在场景c观看视频i的可能性
P ( w t = i ∣ U , C ) = e v i u ∑ j ∈ V e v j u P\left(w_{t}=i | U, C\right)=\frac{e^{v_{i} u}}{\sum_{j \in V} e^{v_{j} u}} P(wt=iU,C)=jVevjueviu
在这里插入图片描述

特性处理

1.观看和搜索向量的生成: 用户的历史观看是一个稀疏的,变长的视频id序列,作者对每一个视频从固定的词汇表里计算出一个多维词向量,这样用户的观看历史就可以通过加权平均的方式映射为一个稠密的,定长的watch vector。整个过程类似于word2vec算法。Search vector也可以通过类似的方式生成。
2.用户画像特征:如地理位置,设备,性别,年龄,登录状态等连续或离散特征都被归一化为[0,1], 和watch vector以及search vector做拼接(concat)
3.example age:该特征表示视频被上传之后的时间。我们知道,每一秒中,YouTube都有大量视频被上传,推荐这些最新视频对于YouTube来说是极其重要的。作者持续的观察到,用户更倾向于那些尽管相关度不高但是是最新(fresh)的视频。推荐系统往往是利用用户过去的行为来预测未来,那么对于历史行为,推荐系统通常是能够学习到一种隐式的基准的。但是对于视频的流行度分布,往往是高度不稳定的。作者写道,在之前的处理上,训练所选择的时间窗口,是采用最近几周的用户平均观看似然率来进行推荐的。那么考虑到example age的现象,我们的推荐策略将example age作为一个特征拼接到DNN的输入向量。训练时,时间窗口越靠后,该值越接近于0或者为一个小负数。加入了example age特征后,模型效果和观测到的实际数据更加逼近,参见下图:
在这里插入图片描述

训练注意点

在有监督学习问题中,最重要的选择是label了,因为label决定了你做什么,决定了你的上限,而feature和model都是在逼近label。论文的几个设计如下:

1、使用更广的数据源:不仅仅使用推荐场景的数据进行训练,其他场景比如搜索等的数据也要用到,这样也能为推荐场景提供一些explore。
2、为每个用户生成固定数量训练样本:我们在实际中发现的一个practical lessons,如果为每个用户固定样本数量上限,平等的对待每个用户,避免loss被少数active用户domanate,能明显提升线上效果。
3、抛弃序列信息:我们在实现时尝试的是去掉序列信息,对过去观看视频/历史搜索query的embedding向量进行加权平均。这点其实违反直觉,可能原因是模型对负反馈没有很好的建模。
4、不对称的共同浏览(asymmetric co-watch)问题:所谓asymmetric co-watch值的是用户在浏览视频时候,往往都是序列式的,开始看一些比较流行的,逐渐找到细分的视频。下图所示图(a)是hled-out方式,利用上下文信息预估中间的一个视频;图(b)是predicting next watch的方式,则是利用上文信息,预估下一次浏览的视频。我们发现图(b)的方式在线上A/B test中表现更佳。而实际上,传统的协同过滤类的算法,都是隐含的采用图(a)的held-out方式,忽略了不对称的浏览模式。
在这里插入图片描述

Ranking

Ranking阶段的最重要任务就是精准的预估用户对视频的喜好程度。不同于Matching阶段面临的是百万级的候选视频集,Ranking阶段面对的只是百级别的商品集,因此我们可以使用更多更精细的feature来刻画视频(item)以及用户与视频(user-item)的关系。比如用户可能很喜欢某个视频,但如果list页的用的“缩略图”选择不当,用户也许不会点击,等等。

此外,Matching阶段的来源往往很多,没法直接比较。Ranking阶段另一个关键的作用是能够把不同来源的数据进行有效的ensemble。

在目标的设定方面,单纯CTR指标是有迷惑性的,有些靠关键词吸引用户高点击的视频未必能够被播放。因此设定的目标基本与期望的观看时长相关,具体的目标调整则根据线上的A/B进行调整。

参考链接

https://blog.csdn.net/xiongjiezk/article/details/73445835
https://blog.csdn.net/google19890102/article/details/72639006
https://zhuanlan.zhihu.com/p/25343518

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值