文章地址:Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
1. BST网络简介
1.1 核心思想:WDL 和 DIN没有考虑序列间的相互依赖关系,本论文使用了NTM中transformer层的方法,来捕捉这种关系。
1.2 输入特征
输入特征有两部分:用户序列特征和其他特征(user, item, context, cross等)。其中用户序列中的每一个item有两部分组成:sequence item feature 和positional feature。注意图1,这里的用户序列也包含了target item及其position。
- sequence item feature:使用item_id和category_id
- positional feature: 商品 v i v_i vi的位置特征计算: p o s ( v i ) = t ( v t ) − t ( v i ) pos(v_i) = t(v_t)-t(v_i) pos(vi)=t(vt)−t(vi),即商品的点击时间与当前target item的推荐时间之间的gap。这里加入的position feature相当于<<attention is all you need>>里的postitional encoding,只是本论文中没有使用sin/cos的编码方法,而是更直接地将postional feature与item feature进行了concat.
1.3 transformer layer
-
transformer layer主要实现了<<attention is all you need>>里的multi-head self attention + Point-wised FFN 结构(即encoder结构)
-
multi-head self attention:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d ) V (3) Attention(\boldsymbol {Q, K, V}) = softmax(\frac{\boldsymbol {QK}^{T}}{\sqrt d})\boldsymbol V \tag3 Attention(Q,K,V)