多模态推荐系统指标总结_智能推荐roc-CSDN博客

多模态推荐系统指标总结

表示模型区分正负样本能力的综合指标，ROC曲线下面积。ROC曲线是以真阳性率为纵轴，假阳性率为横轴的曲线。值范围为0.5（随机猜测）到1（完美区分），值越高说明模型整体性能越好。

衡量推荐列表中前5项是否包含用户感兴趣的物品。若前5项中至少有一个正确物品，则记为一次命中。计算方式为：
$\text{HR@5} = \frac{\text{命中次数}}{\text{总样本数}} \times 100\%$
值越高，表示模型在推荐头部位置时更准确。

反映正确物品在推荐列表中的排名质量。计算方式为：对每个样本，若前5项中有正确物品，取其首次出现位置的倒数（如首次出现在第3位，则得分为1/3），否则为0；所有样本得分的均值即为MRR@5。

$\text{MRR@5} = \frac{1}{N} \sum_{i=1}^N \frac{1}{\text{首次命中位置}_i} \times 100\%$

值越高，说明正确物品的排名越靠前。

在推荐系统中，常见的评估指标 Precision@K、Recall@K、F1@K、NDCG@K 和 MAP@K 的含义如下：

定义：前 K 个推荐结果中，覆盖了用户所有相关项的比例。
公式：
$\text{Recall@K} = \frac{\text{前 K 项中用户实际感兴趣的物品数量}}{\text{用户所有相关物品的总数量}} \times 100\%$
意义：衡量推荐系统对相关项的覆盖能力。
示例：用户共有 10 个相关项，前 5 项推荐中覆盖了 3 项，则 Recall@5 = 30%。

定义：Precision@K 和 Recall@K 的调和平均数，用于综合平衡两者的性能。
公式：
$\text{F1@K} = \frac{2 \times \text{Precision@K} \times \text{Recall@K}}{\text{Precision@K} + \text{Recall@K}} \times 100\%$
意义：避免 Precision 或 Recall 单独偏高导致的片面性，适合类别不均衡的场景。

定义：衡量推荐列表中排序质量的指标，考虑相关项的位置权重（位置越靠前，权重越高）。
公式：
$\text{NDCG@K} = \frac{\text{DCG@K}}{\text{IDCG@K}}, \quad \text{DCG@K} = \sum_{i=1}^K \frac{\text{相关性分数}_i}{\log_2(i+1)}$
- DCG@K：折损累计增益，对高相关项在靠前位置给予更高权重。
- IDCG@K：理想 DCG（按真实相关性排序后的最大 DCG）。
意义：值越接近 1，排序质量越高，推荐结果与用户真实偏好越吻合。

定义：对每个用户计算前 K 项的平均准确率（AP@K），再对所有用户的 AP@K 取均值。
公式：
$\text{AP@K} = \frac{\sum_{i=1}^K \text{Precision@i} \times \text{是否第 i 项相关}}{\text{用户相关物品总数}}, \quad \text{MAP@K} = \frac{1}{N} \sum_{u=1}^N \text{AP@K}_u$
意义：综合反映推荐列表中相关项的位置和密度，适合多相关项场景。

指标	核心关注点	优势	局限性	典型场景
AUC	全局分类能力	不依赖K值，适合不平衡数据	无法反映排序质量	二分类模型评估
HR@5	是否命中	简单直观	忽略位置信息	快速有效性验证
MRR@5	首次命中位置	强调排名靠前的重要性	忽略后续命中	搜索引擎、第一印象
Precision@K	前K项准确性	控制推荐精准性	可能牺牲覆盖率	广告推荐、精准推送
Recall@K	前K项覆盖率	挖掘用户潜在兴趣	受K值限制	长尾推荐、兴趣覆盖
F1@K	平衡精准与召回	综合性能评估	需权衡两者权重	数据不均衡场景
NDCG@K	排序质量与位置权重	精细化评估排序效果	计算复杂度较高	电商、视频推荐
MAP@K	多相关项整体排序性能	综合位置和密度	计算复杂，依赖多相关项场景	新闻、多兴趣点推荐