原文:https://cloud.tencent.com/community/article/137341
机器学习概念总结
1,机器学习算法分类
1)监督学习: 有train set,train set里面y的取值已知。
2)无监督学习:有train set, train set里面y的取值未知。
3)半监督学习:有train set, train set里面y的取值有些知道有些不知道。
4)增强学习:reinforcement learning, 无train set。
2,常见算法
3,算法概念学习
1)最小二乘回归
最小二乘回归(英文名:Ordinary Least Squares Regression[OLS], 又叫Generalized Least Squares[GLS])是常见的线性回归方法。最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。
经典线性回归模型的基本假设:(1),残差具有零均值;(2)var <∞,即残差具有常数方差,且对于所有x值是有限的;(3)残差项之间在统计意义上是相互独立的;(4)残差项与变量x无关;(5)残差项服从正态分布;
如果满足假设(1)-(4),由最小二乘法得到的估计量具有一些特性,它们是最优线性无偏估计量(Best Linear Unbiased Estimators,简记BLUE)。1)线性(linear):意味着x与随机变量y之间是线性函数关系;2)无偏(unbiased):意味着平均而言,实际由样本数据得到的x的参数值与其总体数据中的真实值是一致的;3)最优(best):意味着在所有线性无偏估计量里,OLS估计量具有最小方差。
回归常见的3个必须要解决的问题在于:
1)Heterroskedasticity异方差性: 残差的方差不为常数, 残差与x相关(eg,x变大,残差变大), 违反了假设2和4
2)Autocorrelation自相关性:残差项之间自相关,违反了假设3
3)Multicollinearity多重共线性:多个x之间不独立,即xi与xj之间存在相关性。
2)岭回归
岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法(OLS回归),通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
一般线性回归是最小二乘法回归,残差计算是平方误差项。岭回归(Ridge Regression)是在平方误差的基础上增加正则项,通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减小而偏差增大。