论文笔记-Online Distillation-enhanced Multi-modal Transformer for Sequential Recommendation-ACM MM‘2023_multimodal sequential recommendation-CSDN博客

本文链接：https://blog.csdn.net/manongtuzi/article/details/145012838

Online Distillation-enhanced Multi-modal Transformer for Sequential Recommendation

ACM MM-2023

论文地址：https://dl.acm.org/doi/abs/10.1145/3581783.3612091

代码仓库：https://github.com/xyliugo/ODMT

Abstract

研究现状

与传统的基于协同过滤的多模态推荐系统相比，多模态顺序推荐的研究还处于起步阶段。
现有领域存在的问题 ⚠️重点关注

与传统的顺序推荐模型只依赖于项目标识符(ID)信息，注重网络结构设计不同，多模态推荐模型需要强调项目表征学习和异构数据源的融合。本文研究了项目表示学习对下游推荐任务的影响，并考察了不同阶段信息融合的差异。实证实验表明，需要设计一个适合于协作学习和多元信息融合的框架。
针对现有问题，你的解决方案（宏观的描述） we propose … introduce ⚠️重点关注

在此基础上，我们提出了一种新的多模态顺序推荐任务模型无关框架，称为在线蒸馏增强多模态transformer(ODMT)，以增强多源输入(ID、文本和图像)之间的特征交互和相互学习，同时避免训练过程中不同特征之间的冲突。从而提高推荐的准确性。
具体解决方案是什么… （具体的细节）

具体而言，我们首先在项目表示学习阶段引入了一个id感知的多模态Transformer模块，以促进不同特征之间的信息交互。其次，在预测优化阶段采用在线蒸馏训练策略，使多源数据相互学习，提高预测鲁棒性。
实验结果，超过SoTA多少

在流媒体推荐数据集和三个电子商务推荐数据集上的实验结果证明了所提出的两个模块的有效性，与基线模型相比，性能提高了约10%。

Introduction

研究现状

与一般推荐系统相比，多模态推荐不仅需要模型架构设计，还需要考虑如何在下游任务中有效地应用多模态特征，尤其是如何与当前推荐系统兼容。目前大多数推荐系统依赖于协同过滤，它通过对用户和项目分别建模，然后计算用户和候选项目之间的相似度来生成预测分数，从而预测用户和项目之间的交互。在一般的多模态推荐系统中，多模态特征用于增强用户-物品对之间的联系或作为侧信息，与ID特征互补。相比之下，顺序推荐系统更多地依赖于项目表示学习，而不是协同过滤，并根据用户点击的项目及其时间序列对用户表示进行建模。这种方法对项目表征学习提出了更高的要求，特别是在多模态推荐系统的情况下，原始项目信息更加多样化。

存在问题

我们的研究重点是多模态顺序推荐系统中的项目表征学习，并探讨了单模态特征(文本或图像)作为单独输入和作为输入与下游推荐任务中的ID特征相结合的性能。我们还研究了ID和多模态信息结合时的不同融合策略。我们的探索实验表明，与其他网络结构相比，transformer为单模态特征提供了更好的语义转换和表征学习，从而在推荐任务中实现更准确的预测。但是，当使用多源数据(ID、文本和图像)作为输入时，transformer带来的强表示的优势减弱了。进一步分析表明，这是由于ID特征更容易优化，在推荐预测任务中产生更低的训练损失，而多模态特征提供了有价值的物品相似度先验信息，使推荐系统更容易检索用户感兴趣的物品。因此，当ID和模态信息相结合时，评价指标的改进可能与减少损失的方向不完全一致。（ID特征易于优化，因此能快速降低训练损失，但它们在表示物品之间的相似性方面有限；而多模态特征能够提供有用的先验信息，帮助模型更好地理解物品的相似性和用户的兴趣偏好，因此对推荐效果有重要贡献。损失函数的减少与推荐质量的提升之间并不总是直接相关，尤其在多模态特征结合的情况下，评价指标的提升更依赖于如何有效结合多源数据的信息，而不仅仅是损失的最小化。）

解决方案

为了解决多模态顺序推荐中的挑战，我们提出了一个新的与模型无关的框架，称为在线蒸馏增强多模态transformer(ODMT)，它配备了两个创新的模块。首先，我们在项目表征学习阶段引入了id感知的多模态Transformer模块，以促进不同特征之间的信息交互。其次，我们在预测优化阶段应用在线蒸馏训练策略，在不影响多模态特征损失优化的情况下获得更鲁棒的的预测。

contribution

为了解决多模态特征与现有顺序推荐模型之间的不兼容问题，我们引入了ODMT框架，该框架包含一个id感知的多模态Transformer模块，用于项目表示。
为了从多源输入中获得鲁棒的预测，我们在预测优化阶段提出了一种在线蒸馏训练策略，这是将在线蒸馏应用于多模态推荐任务的第一个实例。
在四种不同的多模态推荐数据集和三种常用的顺序推荐backbone上进行的综合实验验证了该方法的有效性和可移植性，与其他基准模型相比，性能提高了约10%。

前置知识

本节旨在深入研究项表征学习(IRL)和信息融合(IF)模块对下游推荐网络的影响。我们通过实验提供了经验证据，其中突出了两个主要发现:

Transformers可以有效地将多模态信息从一般语义转化为特定推荐语义。
在训练过程中，简单的融合策略会导致损失优化的方向与指标（metric）改进的方向不一致，从而影响多模态特征在推荐模型中的重要性。

概念简介

IRL(项表征学习)模块负责通过将原始输入数据转换为分布式表示来生成最终的项嵌入。输入数据可以分类为项目ID或项目其他模态(例如，图像和文本)。项目嵌入表是序列推荐模型的关键组成部分。每个项都有对应于其索引的唯一嵌入表示。对于多模态数据，利用BERT和ViT从原始数据中提取文本特征和视觉特征。然后将提取的多模态特征输入特征语义转换(FST)模块，将模态信息转换为适合推荐的语义空间。我们的FST模块候选包括DNN, MoE适配器(MoE Adaptor)和Transformers+ DNNs(TRM+ DNNs)，它们在之前的研究中被广泛使用。

在多模态顺序推荐模型中，IF(信息融合)模块可分为早期融合和晚期融合。早期融合包括将所有项目信息嵌入到单个特征表示中，然后将其输入到模型中，而后期融合是基于预测结果或每个特征的预测分数。在本文中，我们考虑三种类型的输入信息，即ID，文本和图像，需要融合。在早期融合中，我们通过对三个特征进行平均得到融合项嵌入。相比之下，在晚期融合中，我们通过平均三个logits来获得用户的一般偏好，其中不同的logits对应不同的用户偏好。本节不讨论中间融合，因为它是一种依赖于模型的融合方法。 (具体来说，这里的logits通常指的是模型输出的未归一化的分数或激活值。在分类问题中，这些logits最终会通过softmax函数转换为概率，表示不同类别的可能性。)

实证探索

为了保证实验的公平比较，我们控制了除FST模块和中频模块之外的所有变量，包括随机种子、预训练编码器、超参数(如学习率、嵌入大小、隐藏层大小、dropout率)和实验代码，所有实验都在一个统一的框架中进行。序列模型的主干模型是具有代表性的SASRec，它使用自注意力机制机制进行序列建模。

由预训练模型(例如BERT和ViT)提取的一般视觉和文本特征不一定适用于推荐任务。因此，需要FST模块将模态特征转化为推荐语义。图1表明，当输入单模态数据时，transformer能够比dnn和MoE更有效地执行语义转换。这一发现突出了transformer在为推荐系统学习强大表示方面的潜力。

对于推荐模型，ID特征的优化可以看作是一个无约束的优化问题，从而降低了训练损失。相反，由于项目内容具有相似性的先验信息，优化模态特征受到约束。因此，即使基于模态的模型不能实现显着降低训练损失，它们也可以实现更好的性能，特别是当使用transformer作为FST模块时。

基于我们的研究结果，我们可以得出结论，FST模块在提取项目的信息表征方面起着至关重要的作用。整合多模态信息可能不会导致推荐指标的最优改进，因为指标（metric）改进的方向与减少损失的方向不一致。这种错位造成了推荐系统在同时学习ID和模态特征时的两难境地。随着模态表示能力的增加，这种困境变得更加具有挑战性，这最终会导致推荐性能的降低。在某些情况下，与单模态模型相比，性能甚至更差。

Method

提出两个模块

ID感知的多模态Transformer（IMT）
在线知识蒸馏

项表征学习

特征提取

给定具有不同类型的项目，我们首先使用固定的视觉和文本特征提取器（ViT 和 BERT）来获取相应的细粒度图像块级别和标记级别特征，然后从可学习的嵌入表中获取对应的 ID 特征。特征提取过程总结如下：

最后将不同类型的特征通过一个简单的特征变换矩阵（feature transformation matrix）投影到相同的特征维度 d。这个特征对齐操作，将视觉、文本和 ID 特征分别通过线性变换投影到相同的特征空间中，从而为后续融合这些多模态特征打下基础。

ID感知的多模态Transformer

在这一部分中，我们描述了提出的ID感知的多模态Transformer(IMT)模块，它由多个标准Transformer层组成。与传统的多模态Transformer设计为视觉和文本特征不同，我们的IMT module将推荐系统中唯一的ID特征集成到Transformer中。我们的目标是获得一个统一的框架，将项目嵌入从原始的通用特征空间转换为适合推荐的特征空间(特别是模态特征)。

为实现这一目标，我们首先将视觉块特征、ID特征和文本标记特征拼接在一起，表示为：

其中，[][ \cdot ][⋅] 表示拼接操作。由于视觉特征和ID特征没有填充，因此我们将所有视觉特征和ID特征的掩码值设置为0，并获得注意力掩码矩阵。然而，在之前的讨论中，我们发现ID特征可能会影响模型的优化方向。为防止ID嵌入对模态嵌入产生误导性影响，我们对原始注意力掩码矩阵进行了如下调整：

这确保了ID嵌入可以关注模态嵌入，而模态嵌入无法关注ID嵌入。

注释:

1. 注意力机制与注意力掩码（Attention Mask）：

注意力机制的核心是通过计算不同元素之间的相关性（即注意力分数），从输入序列中提取有用的信息。
注意力掩码矩阵的作用是控制哪些元素可以相互注意。具体来说，注意力掩码通常设置为一个二值矩阵：
值为 1 表示两个位置之间可以建立注意力连接。
值为 0 表示两个位置之间不能建立注意力连接，即相关性被强制设置为无效。

在这种机制下，掩码矩阵可以精确控制不同特征之间的信息流动。

调整后的注意力掩码矩阵确保了以下两件事情：

模态嵌入不能关注 ID 嵌入：
通过调整掩码值，让模态特征（视觉和文本特征）与 ID 嵌入的相关性被掩盖（注意力分数被置为无效,值为0）。
具体来说，模态嵌入在注意力机制中看不到 ID 嵌入，从而消除了 ID 嵌入对模态嵌入优化方向的影响。

ID 嵌入可以关注模态嵌入：
掩码矩阵确保 ID 嵌入的位置可以与模态嵌入的位置建立注意力连接（值为 1）。
这样，ID 嵌入可以从视觉和文本特征中提取相关信息，增强其表示能力。

原因分析：如何实现这种效果？

注意力计算是双向的：在标准的注意力机制中，元素 A 对元素 B 的注意力分数会影响元素 A 的表示更新，反之亦然。因此，默认情况下，ID 嵌入和模态嵌入之间会有相互作用。
掩码矩阵的控制效果：
如果设置 M[i,j]=0，那么在注意力计算中，位置 i不会受到来自位置 j的影响。
如果设置 M[i,j]=1，那么在注意力计算中，位置 i会受到位置 j的影响。

通过特定的掩码设计，可以 单向控制 注意力信息流：

ID 嵌入可以“看到”模态嵌入（即 M[i,j]=1，其中 i是 ID 嵌入，j是模态嵌入）。
模态嵌入“看不到” ID 嵌入（即 M[i,j]=0，其中 i 是模态嵌入，j 是 ID 嵌入）。

为了获得推荐域更强大的特征表示，我们经验地对每个输出使用单独的两层DNN，其中LeakyRelu激活层为:

ID嵌入初始化

通常情况下，ID 特征的嵌入表是随机生成的。然而，文本特征和图像特征通常是通过像 BERT 和 ViT 这样的预训练模型提取的，这些模型已经通过大量数据训练，能够生成高质量的特征表示。ID 嵌入与文本、图像特征在表示空间中存在显著差异。

在 IMT 模块中，使用自注意力机制来计算查询（query）和键（key）之间的相似性。如果 ID 嵌入和模态特征（文本和图像特征）之间存在较大的表示差异，会导致自注意力计算不准确，从而对 IMT 模块的优化产生负面影响。

用户序列建模

在顺序推荐任务中，用户顺序特征是从交互项生成的。广泛使用的SASRec【Wang-Cheng Kang and Julian McAuley. 2018. Self-attentive sequential recommendation.】模型采用多头注意机制进行用户序列建模。我们采用SASRec（基于self attention的序列推荐模型）作为骨干网络，从三种输入类型(图像、文本和ID)中学习用户序列表示。带有最终项嵌入的用户行为序列表示为。使用这个序列，我们得到用户序列特征𝐻𝑚如下:

批内偏差损失

我们采用下一项预测作为推荐任务，以负的log-softmax损失作为引导损失函数。为了提高计算效率，我们利用mini-batch中用户交互序列中的所有项作为候选项集。然而，这种方法会导致候选项目集中的项目分布，即所谓的马太效应（强者愈强、弱者愈弱的现象），其中大多数项目非常受欢迎，有大量的交互，导致受欢迎的项目被过度代表，并导致不太受欢迎的项目的性能优化不足。为了减轻这种影响，我们根据受欢迎程度对用户和物品之间的相似性计算结果进行了权衡。

值得注意的是，在批量抽样中要考虑假阴性。当使用用户已经交互过的项目错误的作为负样本时，可能会混淆模型的梯度下降方向。为了解决这个问题，在预测用户的点击项目时，应该排除候选项目集中与用户交互序列重叠的项目。

我们采用交叉熵损失作为目标函数：

在线蒸馏

与后期融合类似，我们对不同类型的用户序列进行建模，计算用户序列与目标项目以及候选项目之间的相似度，获得表示用户兴趣分布的logits。但与Late Fusion不同的是，我们将每个部分视为一个学生网络分支，直接计算每个对应logit的分类损失，而不是对多源logit进行平均，得到分类损失。我们认为这种独立的损失计算方法可以缓解训练过程中多个特征之间的冲突。

对于协同学习，我们计算分类损失如下:

在知识蒸馏部分，我们计算蒸馏损失如下:

KL散度的作用： KL散度衡量两个概率分布的相似性。在知识蒸馏中，通过最小化教师网络与学生网络输出分布之间的KL散度，可以将教师网络的知识（其概率分布）传递给学生网络。

T：为蒸馏的温度参数（temperature parameter）。它用来平滑 softmax 输出的概率分布，使得蒸馏过程中知识的传递更有效。

[!TIP]

KL 散度（Kullback-Leibler Divergence） 是一种非对称的概率分布之间的距离度量，用于衡量一个分布 P(x)相较于另一个分布 Q(x)的差异。它在信息论、机器学习和统计学中广泛应用。

因为在模型训练的初期，每个学生网络的预测结果尚不足够准确，因此需要在早期训练阶段降低蒸馏损失的权重。为此，我们采用了一种与时间相关的无监督增幅函数 w(α)【Samuli Laine and Timo Aila. 2016. Temporal ensembling for semi-supervised
learning. arXiv preprint arXiv:1610.02242 (2016).】。当训练轮数为 0 时，w(α)的值为 0。随后，随着训练轮数的增加，w(α)以指数形式增长。当训练轮数达到 α 时，w(α)的值变为 1。最终的总损失函数如下：

Experiment

具体实验，设计实验，实验结果，SoTA对比

数据集

我们通过使用从三个不同平台获得的四个数据集，Stream, Arts, Office和H&M来评估每种方法的性能。流数据集是我们自己从视频内容平台上抓取的流媒体数据集。Arts和Office是来自亚马逊平台的电子商务数据集，它们是公开可用且常用的。Arts数据集对应于amazon评论数据集的“艺术、手工艺和缝纫”类别，而Office代表“办公产品”类别。H&M是另一个来自H&M平台的电商数据集，这是一个由Kaggle2提供的公共竞赛数据集。来自不同平台的数据集的多样性有助于证明我们提出的方法的鲁棒性。

评价指标

为了评估每个模型的性能，我们采用常用的指标Recall@k和NDCG@k（归一化折扣累计增益@k）。我们在这两个指标中报告所有用户的平均结果，值越高表示性能越好。接下来[15,28]，我们使用最后一个交互作为预测，倒数第二个交互作为验证，其余的用于训练。我们对验证集进行超参数优化，选择产生最高值Recall@10的参数组合作为最优配置。

实现细节

为了进行公平的比较，我们利用管道框架重新生成所有基线。我们所有模型的默认损失函数都是去偏的批内交叉熵损失。基于“openai/clip- viti -base-patch32”预训练模型提取视觉特征。使用“hfl/ Chinese -roberta- wm-ext”预训练模型提取含有中文单词的文本特征，使用“bert-base-uncase”预训练模型提取含有英文单词的文本特征。我们对超参数进行网格搜索，如隐藏大小和学习率。对于一般序列模型FDSA和UniSRec，其隐藏大小和学习率的搜索范围分别为[128,256,512,768]和[1e-3, 1e-4, 1e-5]。根据经验，SASRec+EF和SASRec+LF都有两个用于文本和图像模式的Transformer层，最终总共有四个Transformer层。在我们的模型中，我们采用了两个Transformer层的IMT。在我们的实验中，我们将批大小设置为128，每批包括来自不同用户的128个序列进行训练。对于每个基线特有的特定超参数，例如GRU4Rec中的GRU层数和nextnet中展开卷积层的选择，我们参考RecBole中的设置。

与SOTA方法的比较

根据输入类型，我们将SOTA方法分为两类:

1)仅将项目ID信息作为输入的一般顺序推荐模型(例如GRU4Rec [12]， SASRec [20]， NextItNet[45])

2)将项目ID信息和模态信息(视觉和文本)作为输入的多模态顺序推荐模型(例如FDSA [52]， UniSRec [15]， SASRec+EF, SASRec+LF):

(a) GRU4Rec是一种基于会话的推荐算法，它使用递归神经网络(gru)来模拟用户行为;

(b)SASRec是一种基于自注意的顺序推荐算法，它使用多头自注意机制来捕获用户偏好;

(d) FDSA是一种基于特征驱动和自我注意的顺序推荐算法，它使用特征驱动的注意机制来捕获用户偏好;

(e) UniSRec是一种用于推荐的通用序列表征学习算法，它利用与项目相关的描述性文本来学习跨不同领域和平台的可转移表示;

(f) SASRec+EF(我们的扩展)是SASRec的扩展，它以id，文本和图像作为输入，并使用Transformer层作为早期融合的FST模块;

(g) SASRec+LF(我们的扩展)是SASRec的扩展，它以id，文本和图像作为输入，并使用Transformer层作为后期融合的FST模块。

对于普通的UniSRec[15]和FDSA[53]模型，只使用文本信息。为了进行公平的比较，我们利用UniSRec和FDSA模型固有的可扩展性，通过合并图像信息来复制这些模型。

表2展示了具有多模态特征的序列模型在所有数据集和评估指标上优于基于通用id的序列模型，这强调了合并模态信息以提高推荐准确性的潜在好处。值得注意的是，在具有模态特征的序列模型中，SASRec+EF和SASRec+LF在Recall@10和NDCG@10得分方面优于UniSRec和FDSA，这表明使用Transformers作为FST模块可能会导致更有效的项目表示建模并提高推荐准确性。此外，后期融合的融合策略被证明可以获得更好的整体性能。基于SASRec+LF框架，我们提出的ODMT模型旨在利用多模态Transformer模型和在线蒸馏方法的优势，以统一的方式实现多源信息表征学习。实验结果表明，我们提出的ODMT模型可以在所有四个数据集和四个指标上取得更好的性能，不仅优于SASRec+LF，而且优于所有其他基线模型。

消融实验

在本研究中，我们进行了分析，以评估每个模块对我们提出的ODMT模型的最终性能的影响。为了比较我们的模型与其他变体的性能，我们准备了8个不同的模型，包括:

(1)文本初始化，它只使用文本特征初始化ID嵌入表;

(2)图像初始化，仅使用视觉特征初始化ID嵌入表;

(3) w/o Initialization，放弃对具有文本和图像特征的ID嵌入表进行初始化;

(4) w/o ID mask，消除了IMT模块中模态特征无法关注ID特征的限制;

(5) w/o IMT(1)，将两层IMT替换为文本输入的两个标准Transformer层和图像输入的两个标准Transformer层，两种情况下Transformer的深度保持不变;

(6) w/o IMT(2)，将两层IMT替换为一个用于文本输入的标准Transformer层和一个用于图像输入的标准Transformer层，同时保持Transformer的总数不变;

(7) w/o在线蒸馏，采用传统的Late Fusion损失计算方法，去除蒸馏损失;

(8) w/o ID，去掉ODMT中的ID组件，代之以相应的无ID版本。

如表3所示，每个新组件对最终性能都有贡献。在ID初始化部分，利用文本和图像模式的平均特征初始化ID嵌入表的性能最好，文本特征紧随其后。但是，ID嵌入表的随机初始化会对预测结果产生不利影响，尤其会影响IMT模块的优化。与完整的ODMT相比，“w/o ID”表现出明显的性能下降，这突出了我们框架中ID特征和多模态特征的有效适应。

深度分析

关于项目流行度的性能比较。商品受欢迎程度分布遵循马太效应，大多数用户只对一小部分商品感兴趣。图4表明，现有模型可以很好地预测流行商品，但难以预测长尾商品。此外，图4说明了我们提出的方法在不同流行度的项目组中与SOTA模型相比的一致性改进。值得注意的是，在项目组0中，它由训练集中不存在的项目组成，基于id的SASRec无法做出准确的预测。相比之下，我们提出的模型有效地缓解了冷启动问题，与其他多模态顺序推荐模型相比，表现出优越的性能。

关于项目受欢迎程度的顺序模型的性能比较，其中x轴表示基于分位数统计划分的不同组。组0指的是没有出现在训练集中的项目，而其他组的项目数量保持一致。

不同序列模型作为主干。由于我们的方法是与模型无关的的，我们基于各种序列模型进行实验来测试鲁棒性。图5显示ODMT可以始终优于其他方法。这突出了odmt的通用性，它可以作为即插即用模块无缝集成到任何通用的顺序模型中。

Related Work

多模态推荐

计算机视觉、自然语言处理和多模态学习的发展为异构数据结构提供了更好的表征。近年来，多模态表示已广泛应用于推荐系统领域，其中协同过滤范式仍占主导地位，多模态特征通常作为侧信息纳入模型框架。多模态学习为异构数据结构提供了更好的表示。近年来，多模态表示已广泛应用于推荐系统领域，其中协同过滤范式仍占主导地位，多模态特征通常作为侧信息纳入模型框架。在顺序推荐领域，一些研究发现，多模态特征也可以产生显著的改进。特别是，甚至取得了与仅使用多模态特征的传统ID特征相当的结果，这强调了模态特征在顺序推荐中的重要性及其对传统ID特征的可替代性。我们将此归因于顺序推荐模型的特征，该模型严重依赖于项目表示来建模用户偏好，而协同过滤则需要额外学习用户表示。通过对多模态序列推荐进行广泛的实验探索，我们观察到在训练过程中多模态和ID特征之间存在冲突的问题。基于这些观察，我们设计了两个模块，利用ID和多模态特征的特点，使它们兼容和互利。

知识蒸馏

知识蒸馏旨在通过使用预训练的教师模型来指导学生模型的学习，使学生模型在更小的模型尺寸下获得更好的预测性能。近年来，在线蒸馏因其端到端训练策略而受到关注，该策略消除了对预培训教师模型的需求。与传统的“师生”知识蒸馏模式不同，在线蒸馏允许所有子网络之间的相互学习，或者使用集成方法获得组合了多个预测结果的教师输出，这反过来又指导所有子网络的学习。在线蒸馏通常要求每个子网络能够独立完成下游预测任务(通常是分类任务)，并且不同子网络的预测结果具有不同的特征。在顺序推荐中，我们发现使用ID特征或多模态特征(如图像或文本)可以独立完成推荐预测。此外，由于输入的异质性，不同特征的输出也不同。基于这些发现，我们为顺序推荐模型提出了一个多模态在线蒸馏框架。

[!NOTE]

传统的知识蒸馏方法通常是一个离线过程，教师模型已经训练完成并且固定，学生模型则在此基础上进行训练。学生模型通过模仿教师模型的输出（如概率分布或中间特征）来学习。

在线蒸馏是一种动态蒸馏方法，在学生模型训练的过程中，教师模型并不是静态的，而是与学生模型一起动态地更新和改进。在线蒸馏的核心思想是教师模型和学生模型共享同一个网络架构，并且教师模型的权重随着学生模型的学习而逐步变化。

结论

本文研究了项目表示学习对下游推荐任务的影响，探讨了不同阶段信息融合的差异。实验证明，这对推荐性能具有显著影响。为了提升推荐准确性，本文提出了两个新颖的模块：用于特征交互的ID感知多模态Transformer和用于多维用户兴趣分布的在线蒸馏训练，以提高预测的鲁棒性。四个数据集上的实验结果验证了这些模块的有效性。