原理:
- 目标:将样本集合划分为 K 个高斯分布所表示的聚类,每个聚类对应一个高斯分布。
- 初始化:随机选择 K 个高斯分布作为初始聚类的参数。
- 迭代优化:重复以下步骤,直到收敛:
- E 步骤(Expectation):根据当前的高斯分布参数,计算每个样本属于每个高斯分布的后验概率。
- M 步骤(Maximization):基于样本的后验概率,重新估计每个高斯分布的参数(均值和协方差)。
- 收敛条件:当参数不再发生变化,或者变化很小,算法收敛。
数学公式:
- 高斯分布表示:假设第 k 个高斯分布的参数为 𝜃𝑘=(𝜇𝑘,Σ𝑘)),其中 𝜇𝑘是均值向量,Σ𝑘是协方差矩阵。
- 样本属于高斯分布的后验概率:对于样本
,它属于第 k 个高斯分布的后验概率为:
其中:
是第 k 个高斯分布的先验概率(混合系数),满足
。