【机器学习】无监督--学习降维、特征提取与流形学习-CSDN博客

降维、特征提取和流形学习是机器学习和数据科学中处理高维数据的关键技术，它们的目标都是简化数据表示，但侧重点和应用场景有所不同。

技术	核心目标	典型算法
降维	在尽可能保留信息的前提下减少特征数量，通常用于可视化或降低计算复杂度。	PCA
特征提取	将原始数据转换为更有意义的特征表示，强调提取对特定任务（如分类）最有用的信息。	NMF
流形学习	假设高维数据分布在低维流形上，通过非线性映射揭示数据的内在几何结构。	t-SNE

主成分分析（PCA）
- 原理：通过正交变换将数据投影到新的坐标系，使得数据的方差最大化。
- 优点：计算高效，可解释性强，适用于噪声过滤和数据压缩。
- 缺点：无法捕捉非线性结构，对异常值敏感。

t-SNE（t 分布随机邻域嵌入）
- 原理：通过概率分布建模高维数据点间的相似度，在低维空间中保持局部和全局结构。
- 优点：擅长揭示局部聚类结构，在可视化中广泛使用。
- 缺点：计算复杂度高（O (n²)），不适合大规模数据，全局结构保留较弱。

非负矩阵分解（NMF）
- 原理：将非负矩阵分解为两个非负矩阵的乘积，得到 “局部特征” 表示。
- 应用：图像分析（如人脸部件）、文本主题模型（如 LDA 的替代）。
独立成分分析（ICA）
- 原理：将混合信号分离为独立成分，假设信号源是统计独立的。
- 应用：语音分离、脑电信号处理。