最小二乘法

本文介绍了最小二乘准则用于模型拟合的基本原理,以及最大似然估计在给定观测数据时评估模型参数的方法。通过线性回归实例,展示了如何使用这些方法求解参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

1、定义

勒让德认为,最小化误差的平方和所估计出来的模型是最接近真实情形的(误差=真实值-理论值)。也就是说,最佳的拟合准则是使 yiy_iyif(xi)f(x_i)f(xi) 的距离的平方和最小,这个准则也被称为最小二乘准则。

L=∑i=1n(yi−f(xi))2 \textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2} L=i=1n(yif(xi))2

2、最大似然估计原理

它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定,利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。

假设 x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,,xn 为独立同分布的采样,θ\thetaθ 为模型参数,fff 为我们所使用的模型,参数为 θ\thetaθ 的模型 fff 产生上述采样可表示为:
f(x1,x2,⋯ ,xn∣θ)=f(x1∣θ)×f(x2∣θ)×⋯×f(xn∣θ) f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta) f(x1,x2,,xnθ)=f(x1θ)×f(x2θ)××f(xnθ)

定义似然函数为:
L(θ∣x1,x2,⋯ ,xn)=f(x1,x2,⋯ ,xn∣θ)=∏i=1nf(xi∣θ) L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta) L(θx1,x2,,xn)=f(x1,x2,,xnθ)=i=1nf(xiθ)

求极大似然估计就是找到 θ\thetaθ 的估计值 θ^=θ^(x1,x2,⋯ ,xn)\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)θ^=θ^(x1,x2,,xn) 使得上式的L(θ∣x1,x2,⋯ ,xn)L(\theta|x_1,x_2,\cdots,x_n)L(θx1,x2,,xn) 达到最大。当 L(θ∣x1,x2,⋯ ,xn)L(\theta|x_1,x_2,\cdots,x_n)L(θx1,x2,,xn) 是可微函数时,求导是求极大似然估计最常用的方法。又因 L(θ)L(\theta)L(θ)ln⁡L(θ)\ln L(\theta)lnL(θ) 在同一个 θ\thetaθ 处取到极值,且对数似然函数 ln⁡L(θ)\ln L(\theta)lnL(θ) 求导更简单,故:
∂ln⁡L∂θi=0,i=1,2,⋯ ,m \dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m θilnL=0,i=1,2,,m
判断方程组是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计在 θi\theta_iθi 的边界上。

3、数学推导

假设:观察值的误差服从标准正态分布,即 ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)ϵN(0,σ2)
我们假设真实的模型参数为 θ\thetaθ,模型的真实输出为 fθ(xi)f_{\theta}(x_i)fθ(xi),由于各种问题,我们观测到的样本 yiy_iyi 距离真实值是存在误差的,误差 ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)ϵN(0,σ2),则每个观测样本 yiy_iyi 应该有:yi∈N(fθ(xi),σ2)y_i\in N(f_\theta(x_i),\sigma^2)yiN(fθ(xi),σ2)

在这个问题中,每个样本 yiy_iyi 发生的概率:
p(yi∣xi;θ)=12πσe−(yi−fθ(xi))22σ2 p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}} p(yixi;θ)=2πσ1e2σ2(yifθ(xi))2

则似然函数:
L(θ)=∏i=1mp(yi∣xi;θ)=∏i=1m12πσe−(yi−fθ(xi))22σ2 L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}} L(θ)=i=1mp(yixi;θ)=i=1m2πσ1e2σ2(yifθ(xi))2

对数似然函数:
ln⁡(L(θ))=−12σ2∑i=1m(yi−fθ(xi))2−mln⁡σ2π \ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi} ln(L(θ))=2σ21i=1m(yifθ(xi))2mlnσ2π

去掉不包含 θ\thetaθ 的常数项以及系数,则
arg⁡max⁡θln⁡(L(θ))⇔arg⁡min⁡θ(yi−fθ(xi))2 \arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2 argθmaxln(L(θ))argθmin(yifθ(xi))2

即最大化似然函数等价于极小化最小二乘法的代价函数,这也表明了以误差平方和作为最佳拟合准则的合理性。

4、线性回归

从上述推导结果可以看出,最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数,理论上可以用导数法、几何法,工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。

线性回归定义为:hθ(x1,x2,⋯ ,xn−1)=θ0+θ1x1+⋯+θn−1xn−1h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1}hθ(x1,x2,,xn1)=θ0+θ1x1++θn1xn1
假设现在有 mmm 个样本,每个样本都有 n−1n-1n1 维特征,将所有样本点代入模型中得:
h1=θ0+θ1x1,1+⋯+θn−1x1,n−1h2=θ0+θ1x2,1+⋯+θn−1x2,n−1⋮hm=θ0+θ1xm,1+⋯+θn−1xm,n−1 h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\ h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\ \vdots\\ h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1} h1=θ0+θ1x1,1++θn1x1,n1h2=θ0+θ1x2,1++θn1x2,n1hm=θ0+θ1xm,1++θn1xm,n1

为方便用矩阵表示,令 1=x1,0=⋯=xm,01=x_{1,0}=\cdots=x_{m,0}1=x1,0==xm,0,于是上述方程可以用矩阵表示为:
h=Xθ \bf h = \bf X \theta h=Xθ

其中,h\bf hhm×1m\times 1m×1 的向量,代表模型的理论值,θ\thetaθn×1n\times 1n×1 的向量,X\bf XXm×nm\times nm×n 的矩阵,mmm 代表样本的个数,nnn 代表样本的特征数,于是目标损失函数用矩阵表示为:
J(θ)=∣∣h−Y∣∣2=∣∣Xθ−Y∣∣2=(Xθ−Y)T(Xθ−Y) J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y) J(θ)=∣∣hY2=∣∣XθY∣2=(XθY)T(XθY)

其中,Y\bf YY 是样本的输出向量,维度为 m×1m\times 1m×1

对目标函数化简:
J(θ)=θTXTXθ−θTXTY−YTXθ+YTY J(\theta)=\bf\bf{\theta}^T\bf{X}^T X\theta -\theta^TX^TY-Y^TX\theta+Y^TY J(θ)=θTXTXθθTXTYYTXθ+YTY

求导令其等于0:
∂∂θJ(θ)=2XTXθ−2XTY=0 \dfrac{\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^TY=0 θJ(θ)=2XT2XTY=0

解得 θ=(XTX)−1XTY\bf \theta=(X^TX)^{-1}X^TYθ=(XTX)1XTY

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值