聚类指标SI,CH,ACC,NMI,AR,AMI的python函数实现

置顶 hellopari

已于 2022-03-02 13:19:09 修改

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： javascript 笔记 ubuntu

于 2020-11-20 10:45:48 首次发布

本文链接：https://blog.csdn.net/qq_38397338/article/details/109841904

python 专栏收录该内容

25 篇文章

订阅专栏

本文介绍了一种评估聚类效果的方法，通过多种指标如轮廓系数、Calinski-Harabasz指数、归一化互信息等来衡量聚类质量。文中还提供了一个计算这些指标的实用函数，并解释了如何使用这些指标进行聚类效果分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from sklearn.metrics.cluster import normalized_mutual_info_score as NMI, \
        adjusted_mutual_info_score as AMI, adjusted_rand_score as AR, silhouette_score as SI, calinski_harabasz_score as CH

def clustring_indicators (pred, data=None, labels=None, model_name='cluster', verbose=1):

    measure_dict = dict()
    #如果有原始数据
    if data is not None:
        measure_dict['si'] = SI(data, pred)
        measure_dict['ch'] = CH(data, pred)
       #如果数据有标签
    if labels is not None:
        measure_dict['acc'] = cluster_acc(pred, labels)[0]
        measure_dict['nmi'] = NMI(labels, pred)
        measure_dict['ar'] = AR(labels, pred)
        measure_dict['ami'] = AMI(labels, pred)

#如果需要打印所有指标
    if verbose:
        char = ''
        for (key, value) in measure_dict.items():
            char += '{}: {:.4f} '.format(key, value)
        print('{} {}'.format(model_name, char))

    return measure_dict

##参考论文Unsupervised deep embedding for clustering analysis
def cluster_acc(Y_pred, Y):
    assert Y_pred.size == Y.size
    D = max(Y_pred.max(), Y.max()) + 1
    w = np.zeros((D, D), dtype=np.int64)
    for i in range(Y_pred.size):
        w[Y_pred[i], Y[i]] += 1
    ind = linear_assignment(w.max() - w)
    total = 0
    for i in range(len(ind[0])):
        total += w[ind[0][i], ind[1][i]]
    return total * 1.0 / Y_pred.size, w