【机器学习】无监督--学习降维、特征提取与流形学习

      降维、特征提取和流形学习是机器学习和数据科学中处理高维数据的关键技术,它们的目标都是简化数据表示,但侧重点和应用场景有所不同。

一、核心概念与目标

技术核心目标典型算法
降维在尽可能保留信息的前提下减少特征数量,通常用于可视化或降低计算复杂度。PCA
特征提取将原始数据转换为更有意义的特征表示,强调提取对特定任务(如分类)最有用的信息。NMF
流形学习假设高维数据分布在低维流形上,通过非线性映射揭示数据的内在几何结构。t-SNE

二、算法原理与比较

1. 线性降维方法
  • 主成分分析(PCA)

    • 原理:通过正交变换将数据投影到新的坐标系,使得数据的方差最大化。
    • 优点:计算高效,可解释性强,适用于噪声过滤和数据压缩。
    • 缺点:无法捕捉非线性结构,对异常值敏感。
2. 非线性流形学习方法
  • t-SNE(t 分布随机邻域嵌入)

    • 原理:通过概率分布建模高维数据点间的相似度,在低维空间中保持局部和全局结构。
    • 优点:擅长揭示局部聚类结构,在可视化中广泛使用。
    • 缺点:计算复杂度高(O (n²)),不适合大规模数据,全局结构保留较弱。
3. 特征提取方法
  • 非负矩阵分解(NMF)

    • 原理:将非负矩阵分解为两个非负矩阵的乘积,得到 “局部特征” 表示。
    • 应用:图像分析(如人脸部件)、文本主题模型(如 LDA 的替代)。
  • 独立成分分析(ICA)

    • 原理:将混合信号分离为独立成分,假设信号源是统计独立的。
    • 应用:语音分离、脑电信号处理。

三、算法选择指南

场景推荐算法理由
数据可视化(2D/3D)t-SNE擅长保留局部聚类结构,视觉效果直观。
高维数据预处理(降维)PCA计算高效,适用于大规模数据,可作为其他算法的前置步骤。
非负数据(如图像、文本)NMF分解结果具有可解释性(如人脸的眼睛、鼻子)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值