
应用监督式学习

监督式学习算法接受已知的输入数据集合(训练集)和已知的对数据的
响应(输出),然后训练一个模型,为新输入数据的响应生成合理的
预测。如果您尝试去预测现有数据的输出,则使用监督式学习。
何时考虑监督式学习

3
应用监督式学习
所有的 “监督式学习”改成“监督学习”技术
监督学习技术可分成分类或者回归的形式。
分类技术预测离散的响应 — 例如,电子邮件是真正邮件还是垃圾
邮件,肿瘤是小块、中等还是大块。分类模型经过训练后,将数据划分
成类别。应用软件包括医学成像、语音识别和信用评分。
回归技术预测连续的响应 — 例如,电力需求中温度或波动的变化。
应用软件包括预测股价、笔迹识别和声信号处理。
• 您的数据能否进行标记或分类?如果您的数据能分
为特定的组或类,则使用分类算法。
• 处理数据范围?如果您的响应性质是一个实数(比如
温度,或一件设备发生故障前的运行时间),则使用回
归方法。

4
应用监督式学习
选择合适的算法
如我们在第 1 部分所见,选择机器学习算法是一个试错过程。
同时也是算法具体特性的一种权衡,比如:
• 训练的速度
• 内存使用
• 对新数据预测的准确度
• 透明度或可解释性(您对算法做出预测的理由的理解难易程度)
我们详细介绍最常用的分类和回归算法。
使用较大的训练数据集生成的模型通常对新数据
归纳得比较完善。
训练的速度
内存使用
预测的准确度
可解释性

5
应用监督式学习
二分类与所有的“多类分类”改为“多分类”
在处理分类问题时,一开始就要确定该问题是二元问题还是多类问题。
对于二元分类问题,单个训练或测试项目(实例)只能分成两类 —
例如,如果您想确定电子邮件是真正邮件,还是垃圾邮件。对于多类
分类问题,可以分成多个类 — 例如,如果您想训练一个模型,将图
像分类为狗、猫或其它动物。
请记住,多类分类问题一般更具挑战性,因为需要比较复杂的模型。
某些算法(例如逻辑回归)是专门为二分类问题设计的。
在训练过程中,这些算法往往比多类算法更高效。
评论0