3.1基本形式
设由d个属性描述的示例,其中
是
在第
个属性上的取值
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。其简单,易于建模,且有很好的解释性。
一般向量形式表示为
,其中
,
和 b 学得后,模型即确立。
强大的非线性模型可以在线性模型的基础上通过引入层次结构或高维映射而得。
3.2线性回归
先从简单的情况进行分析,即每个样本只有一个属性,一元线性回归。
给定数据集:,其中
为
的真实标记。
线性回归则试图学得一个线性模型尽可能准确地将预测 去 逼近
,即:
,使得
显然,既然是逼近,那么误差肯定是存在的。一个良好的线性回归模型的关键就是如何将 与
之间的误差最小化!而该模型是由
和 b 确定的,那么问题回到
和 b 的确定:
回归任务中最常用的性能度量是均方误差,也称平方损失,因此上述 和 b 可以通过均方误差的最小化来计算得出,均方误差:
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,而在线性回归任务中,最小二乘法就是希望学得一条直线,使得所有样本到该直线上的欧氏距离之和最小。
求解出 和 b 使得均方误差最小化的过程也称为线性回归模型的最小二乘“参数估计”(parameter estimation),换句话讲就是对均方误差线性方程求最小值,解出
和 b 。通过对
和 b 分别求偏导,并令偏导为0,即可解出
和 b ,从而确定对应的模型结果。
,
, 其中
为
的均值
更一般的,样本由d维属性描述的情况,则为“多元线性回归”(multivariate linear regression):
,使得
类似地,也是一样通过最小二乘法对 和 b 进行估计,为了方便讨论,我们尽量将模型中的各类数据以向量及矩阵形式表示:我们将
和 b 纳入向量形式
,其中
是一个d+1维的向量。并且将数据集D表示为一个m行,d+1列的矩阵X,其中每行代表一个样本。
同时也将以向量y=
表示。
估其均方误差函数可定义为:,其中
为预测实值。将该公式展开,与上述一元线性回归求解过程的均方误差方程区别就是多元线性回归中每个样本的均方误差方程不再是仅有一个属性描述,而是d个。
对均方误差函数关于 求导,并另导数为0,解出
,这其中相对于一元的较为复杂,因为涉及矩阵求导,矩阵逆计算等。
矩阵解问题又涉及多解,单一解问题,后者即为结果,前者的话还需根据学习算法的归纳偏好决定。
我们即可让线性模型的预测值f(x)逼近真实标记y,当然也可以让线性模型的预测值f(x)通过联系函数g(·)来逼近不同情况下的目标
假设我们认为样本对应的输出标记是在指数尺度上变化的,那么我们可以令
即g(·)=ln(·),这是样本对应的输出标记在指数尺度上变化的特例,一般化来定义:,其中g(·)为单调可微函数,这也就是“广义线性模型”(generalized linear model)。
广义线性模型的参数估计通常通过加权最小二乘法或极大拟然法进行。
3.3对数几率回归
上述讨论了线性模型以及线性模型进行回归学习,但是如果要利用线性模型进行分类怎么办?
答案:分析分类任务的真实标记y与线性回归模型的预测值之间的联系,求出单调可微函数,建立广义线性模型进行求解。
考虑二分类问题,输出标记 y∈{0,1},则需要将线性回归模型产生的预测实值转换为0/1,因为g(·)必须为单调可微函数,单位阶跃函数不连续,故不可取的,因此另外考虑对数几率函数(logistic function):
将线性模型的预测实值带入z可得: , 进而可以变换为:
如果将y视为样本x作为正例的可能性,则1-y就是其作为反例的可能性。是两者的比值,称为“几率”(odds),反映了x作为正例的相对可能性。由此可以看出,实际上我们是在用线性模型的预测实值去逼近真实标记的对数几率,估该模型又称为“对数几率回归”(log odds)。
通过对数几率回归可以进行分类学习,该模型的确定同样是 和 b 的确定。
假设y为正例的可能性,1-y为反例的可能性,则可令 ,令
,
我们可得:
进而我们可推出: ,
在线性回归分析中,我们是通过均方误差最小化来求解出 和 b 的,
在对数几率回归这个分类学习中,为了能够让训练集中样本属于其真实标记的概率越大越好,我们可以应用极大似然法(maximum likelihood method),估计出 和 b ,从而达到这个目的。
对数几率回归模型最大化“对数似然”(log-likelihood):,
进一步基于梯度下降法(gradient descent method),牛顿法(Newton method)可求得最优解。