排序算法常用评价指标计算方式AUC

最新推荐文章于 2025-03-15 10:56:24 发布

Charles.zhang

最新推荐文章于 2025-03-15 10:56:24 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：推荐系统

原文链接：https://blog.csdn.net/weixin_38405636/article/details/80675312

推荐系统专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了AUC（Area Under the Curve）的计算方法，包括阶梯面积法的复杂性、与Wilcoxon-Mann-Witney Test的等价性，以及两种常见计算策略：频率估计和基于样本rank的高效方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在的排序评估指标主要包括MAP、NDCG和AUC三个指标。NDCG考虑多指标，MAP和AUC考虑单个指标。

1.AUC

最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就可以得到我们想要的AUC。但是，这么做有个缺点，就是当多个测试样本的score相等的时候，我们调整一下阈值，得到的不是曲线一个阶梯往上或者往右的延展，而是斜着向上形成一个梯形。此时，我们就需要计算这个梯形的面积。由此，我们可以看到，用这种方法计算AUC实际上是比较麻烦的。

一个关于AUC的很有趣的性质是，它和Wilcoxon-Mann-Witney Test是等价的。这个等价关系的证明留在下篇帖子中给出。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。有了这个定义，我们就得到了另外一中计算AUC的办法：得到这个概率。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中，样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数（即n=M+N）
第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample 的rank为n，第二大score对应sample的rank为n-1，以此类推。

例如在排在n=5的正样本，共有4个样本与其组合的值小于5。。。

然后把所有的正类样本的rank相加，再减去两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即