1、定义
勒让德认为,最小化误差的平方和所估计出来的模型是最接近真实情形的(误差=真实值-理论值)。也就是说,最佳的拟合准则是使 yiy_iyi 与 f(xi)f(x_i)f(xi) 的距离的平方和最小,这个准则也被称为最小二乘准则。
L=∑i=1n(yi−f(xi))2 \textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2} L=i=1∑n(yi−f(xi))2
2、最大似然估计原理
它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定,利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。
假设 x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn 为独立同分布的采样,θ\thetaθ 为模型参数,fff 为我们所使用的模型,参数为 θ\thetaθ 的模型 fff 产生上述采样可表示为:
f(x1,x2,⋯ ,xn∣θ)=f(x1∣θ)×f(x2∣θ)×⋯×f(xn∣θ)
f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta)
f(x1,x2,⋯,xn∣θ)=f(x1∣θ)×f(x2∣θ)×⋯×f(xn∣θ)
定义似然函数为:
L(θ∣x1,x2,⋯ ,xn)=f(x1,x2,⋯ ,xn∣θ)=∏i=1nf(xi∣θ)
L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta)
L(θ∣x1,x2,⋯,xn)=f(x1,x2,⋯,xn∣θ)=i=1∏nf(xi∣θ)
求极大似然估计就是找到 θ\thetaθ 的估计值 θ^=θ^(x1,x2,⋯ ,xn)\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)θ^=θ^(x1,x2,⋯,xn) 使得上式的L(θ∣x1,x2,⋯ ,xn)L(\theta|x_1,x_2,\cdots,x_n)L(θ∣x1,x2,⋯,xn) 达到最大。当 L(θ∣x1,x2,⋯ ,xn)L(\theta|x_1,x_2,\cdots,x_n)L(θ∣x1,x2,⋯,xn) 是可微函数时,求导是求极大似然估计最常用的方法。又因 L(θ)L(\theta)L(θ) 和 lnL(θ)\ln L(\theta)lnL(θ) 在同一个 θ\thetaθ 处取到极值,且对数似然函数 lnL(θ)\ln L(\theta)lnL(θ) 求导更简单,故:
∂lnL∂θi=0,i=1,2,⋯ ,m
\dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m
∂θi∂lnL=0,i=1,2,⋯,m
判断方程组是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计在 θi\theta_iθi 的边界上。
3、数学推导
假设:观察值的误差服从标准正态分布,即 ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)ϵ∈N(0,σ2);
我们假设真实的模型参数为 θ\thetaθ,模型的真实输出为 fθ(xi)f_{\theta}(x_i)fθ(xi),由于各种问题,我们观测到的样本 yiy_iyi 距离真实值是存在误差的,误差 ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)ϵ∈N(0,σ2),则每个观测样本 yiy_iyi 应该有:yi∈N(fθ(xi),σ2)y_i\in N(f_\theta(x_i),\sigma^2)yi∈N(fθ(xi),σ2)。
在这个问题中,每个样本 yiy_iyi 发生的概率:
p(yi∣xi;θ)=12πσe−(yi−fθ(xi))22σ2
p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}
p(yi∣xi;θ)=2πσ1e−2σ2(yi−fθ(xi))2
则似然函数:
L(θ)=∏i=1mp(yi∣xi;θ)=∏i=1m12πσe−(yi−fθ(xi))22σ2
L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}
L(θ)=i=1∏mp(yi∣xi;θ)=i=1∏m2πσ1e−2σ2(yi−fθ(xi))2
对数似然函数:
ln(L(θ))=−12σ2∑i=1m(yi−fθ(xi))2−mlnσ2π
\ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi}
ln(L(θ))=−2σ21i=1∑m(yi−fθ(xi))2−mlnσ2π
去掉不包含 θ\thetaθ 的常数项以及系数,则
argmaxθln(L(θ))⇔argminθ(yi−fθ(xi))2
\arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2
argθmaxln(L(θ))⇔argθmin(yi−fθ(xi))2
即最大化似然函数等价于极小化最小二乘法的代价函数,这也表明了以误差平方和作为最佳拟合准则的合理性。
4、线性回归
从上述推导结果可以看出,最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数,理论上可以用导数法、几何法,工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。
线性回归定义为:hθ(x1,x2,⋯ ,xn−1)=θ0+θ1x1+⋯+θn−1xn−1h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1}hθ(x1,x2,⋯,xn−1)=θ0+θ1x1+⋯+θn−1xn−1
假设现在有 mmm 个样本,每个样本都有 n−1n-1n−1 维特征,将所有样本点代入模型中得:
h1=θ0+θ1x1,1+⋯+θn−1x1,n−1h2=θ0+θ1x2,1+⋯+θn−1x2,n−1⋮hm=θ0+θ1xm,1+⋯+θn−1xm,n−1
h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\
h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\
\vdots\\
h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1}
h1=θ0+θ1x1,1+⋯+θn−1x1,n−1h2=θ0+θ1x2,1+⋯+θn−1x2,n−1⋮hm=θ0+θ1xm,1+⋯+θn−1xm,n−1
为方便用矩阵表示,令 1=x1,0=⋯=xm,01=x_{1,0}=\cdots=x_{m,0}1=x1,0=⋯=xm,0,于是上述方程可以用矩阵表示为:
h=Xθ
\bf h = \bf X \theta
h=Xθ
其中,h\bf hh 为 m×1m\times 1m×1 的向量,代表模型的理论值,θ\thetaθ 为 n×1n\times 1n×1 的向量,X\bf XX 为 m×nm\times nm×n 的矩阵,mmm 代表样本的个数,nnn 代表样本的特征数,于是目标损失函数用矩阵表示为:
J(θ)=∣∣h−Y∣∣2=∣∣Xθ−Y∣∣2=(Xθ−Y)T(Xθ−Y)
J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y)
J(θ)=∣∣h−Y∣∣2=∣∣Xθ−Y∣∣2=(Xθ−Y)T(Xθ−Y)
其中,Y\bf YY 是样本的输出向量,维度为 m×1m\times 1m×1。
对目标函数化简:
J(θ)=θTXTXθ−θTXTY−YTXθ+YTY
J(\theta)=\bf\bf{\theta}^T\bf{X}^T X\theta -\theta^TX^TY-Y^TX\theta+Y^TY
J(θ)=θTXTXθ−θTXTY−YTXθ+YTY
求导令其等于0:
∂∂θJ(θ)=2XTXθ−2XTY=0
\dfrac{\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^TY=0
∂θ∂J(θ)=2XTXθ−2XTY=0
解得 θ=(XTX)−1XTY\bf \theta=(X^TX)^{-1}X^TYθ=(XTX)−1XTY