目录
线性回归
线性回归,顾名思义,就是回归问题,既然是回归问题,那必然是监督学习,回归问题就是用于输入变量和输出变量之间的关系,特别当输入值发生变化时,输出值也会发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合︰选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。
一元线性回归
如果研究的线性函数只包含一个自变量和一个因变量,且二者的关系可以用一条直线刻画时,这种回归就是一元线性回归一。如果涉及两个以上的自变量,且是线性关系,就称为多元线性回归
- 被预测的变量是因变量,即输出
- 用来进行预测的变量是自变量,即输入
- 一元线性回归包括一个自变量,一个因变量
- 如果是多元线性回归,那就有多个自变量
一元线性回归拟合
过程:
优化:
使用梯度下降的调优
- 算法的步长选择。在前面的算法描述中,我提到取步长为1,但是实际上取值取决于数据样本,可以多取一些值,从大到小,分别运行算法,看看迭代效果如果损失函数在变小,说明取值有效,否则要增大步长。前面说了。步长太大会导致迭代过快,甚至有可能错过最优解。步长太小,迭代速度太慢,很长时间算法都不能结束。所以算法的步长需要多次运行后才能得到一个较为优的值。
- 算法参数的初始值选择。初始值不同,获得的最小值也有可能不同,因此梯度下降求得的只是局部最小值;当然如果损失函数是凸函数则一定是最优解。由于有局部最优解的风险,需要多次用不同初始值运行算法,关键损失函数的最小值,选择损失函数最小化的初值。
- 归一化。由于样本不同特征的取值范围不一样,可能导致迭代很慢,为了减少特征取值的影响,可以对特征数据归一化,也就是对于每个特征x,求出它的期望x 和标准差std(x),然后转化为:
这样特征的新期望为0,新方差为1,迭代速度可以大大加快。
多元线性回归
过程:
多项式回归
一元多项式回归
过程
交叉验证法
&nb