第2章 感知机
介绍感知机模型, 叙述感知机的学习策略, 特别是损失函数; 最后介绍感知机学习算法,包括原始形式和对偶形式, 证明算法的收敛性.
感知机模型
f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x + b)f(x)=sign(w⋅x+b)是模型函数
www和bbb是模型参数, 分别叫权值和偏置.
感知机是判别模型.假设空间是线性分类器集合
{ f∣f(x)=w⋅x+b}\{f|f(x)=w\cdot x+b \}{ f∣f(x)=w⋅x+b}
w⋅x+b=0w\cdot x + b=0w⋅x+b=0 确定一个超平面
感知机学习策略
线性可分数据集的定义
- 定义损失函数, 并将损失函数极小化.
- 损失函数可以使用误分类点到超平面的总距离
损失函数的定义为L(w,b)=−∑yi(w⋅xi+b)L(w,b)=-\sum y_i(w\cdot x_i + b)L(w,b)=−∑yi(w⋅xi+b)
- 感知机学习算法
最优化方法是随机梯度下降法,包括原始形式和对偶形式, 证明在训练数据线性可分的条件下, 感知机学习算法的收敛性.
- 算法的原始形式
minw,bL(w,b)=−∑yi(w⋅xi+b)\min\limits_{w,b}L(w, b)=-\sum y_i(w\cdot x_i + b)w,bminL(w,b)=−∑yi(w⋅xi+b)
感知机学习算法是误分类驱动的, 具体采用随机梯度下降法. 首先, 选一个超平面, 然后用梯度下降法不断极小化目标函数. 极小化一次随机选一个误分类点使其梯度下降.假设误分类点集合是固定的.梯度的定义
▽wL(w,b)=−∑xi∈Myixi\triangledown_w L(w, b) = -\sum\limits_{x_i\in M}y_i x_i▽wL(w,b)=−xi∈M∑yix