聚类的评价指标

本文深入探讨了聚类算法的评估方法,介绍了Adjusted Rand Index和Silhouette Coefficient两种关键指标,前者用于比较聚类结果与实际分类的一致性,后者则衡量聚类的紧密性和分离度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  我们知道,监督学习的评价指标是准确率、召回率、F1、FβF_1、F_\betaF1Fβ、ROC-AUC等等,但聚类方法在大多数情况下数据是没有标签的,这些情况下聚类就不能使用以上的评价指标了。
  聚类有自己的评价指标,大多数聚类的评价指标是通过紧凑性和可分性来定义的。紧凑性基本上是衡量一个聚类中的元素彼此之间的距离,而可分性表示不同聚类之间的距离,总的来说聚类的评价指标有以下三个类型:
1、外部指标:这是处理有标签数据时使用的评分,可以说监督学习的评价指标都是外部指标。

2、内部指标:使用数据来衡量数据和结构之间的吻合度。

3、相对指标:通过对比,表明两个聚类结构中哪一个在某种意义上更好。

一、Adjusted Rand Index(调整兰德系数)

Adjusted Rand Index是外部指标的一种,其得分区间是[−1,1][-1,1][1,1]。在计算Adjusted Rand Index前,我们要先计算一下Rand Index。

1、Rand Index(兰德系数)

Rand Index是Adjusted Rand Index的前身,Rand Index因为惩罚力度不够,导致聚类得分普遍很高,因此才有Adjusted Rand Index。
RI=a+b(n2)RI = \frac{a+b}{ \begin{pmatrix} n\\ 2\\ \end{pmatrix} }RI=(n2)a+b
a:表示在真实标签上在同一个分类,聚类后也在同一个分类的对数。
b:表示在真实标签上不在同一个分类,聚类后也不在同一个分类的对数。
(n2)\begin{pmatrix} n\\ 2\\ \end{pmatrix}(n2):表示所有数据的对数,在排列组合中的表示方式是Cn2C^2_nCn2

例如:

假设有数据(a,b,c,d,e),在真实标签中(a,b)为一类,(c,d,e)为另一类,而聚类后(a,b,c)为一类,(d,e)为另一类,那么
a=C22+C22=2a = C^2_2 + C^2_2 = 2a=C22+C22=2
b=C21∗C21=4b = C^1_2 * C^1_2 = 4b=C21C21=4
(n2)=C52=10\begin{pmatrix} n\\ 2\\ \end{pmatrix} = C^2_5 = 10(n2)=C52=10
RI=2+410=0.6RI = \frac{2+4}{10} = 0.6RI=102+4=0.6

2、Adjusted Rand Index的计算

ARI=RI−ExpectedIndexmax(RI)−ExpectedIndexARI = \frac{RI- ExpectedIndex}{max(RI)-ExpectedIndex}ARI=max(RI)ExpectedIndexRIExpectedIndex
ARI的原始公式是这样子的:

二、Silhouette index(轮廓系数)

轮廓系数是内部指标的一种,其得分区间是[−1,1][-1,1][1,1]
计算数据点的轮廓系数
Si=bi−aimax(ai,bi)S_i = \frac{b_i - a_i}{max(a_i,b_i)}Si=max(ai,bi)biai
a是同一个聚类中到其它样本的平均距离;
b是与它距离最近的不同的聚类的样本的平均距离。

聚类的轮廓系数
S=∑i=1nSinS = \frac{\sum^{n}_{i=1}S_i}{n}S=ni=1nSi

轮廓系数的缺点:
1、轮廓系数不适合评价紧凑的环形的数据聚类;
2、当模型是DBSCAN时,不适合使用轮廓系数作为评价指标。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值