最小二乘法

原创于 2023-12-29 15:03:36 发布 · 975 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#最小二乘法 #概率论 #机器学习

数学之美专栏收录该内容

16 篇文章

订阅专栏

本文介绍了最小二乘准则用于模型拟合的基本原理，以及最大似然估计在给定观测数据时评估模型参数的方法。通过线性回归实例，展示了如何使用这些方法求解参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1、定义

勒让德认为，最小化误差的平方和所估计出来的模型是最接近真实情形的（误差=真实值-理论值）。也就是说，最佳的拟合准则是使 $y_i$ 与 $f(x_i)$ 的距离的平方和最小，这个准则也被称为最小二乘准则。

$\textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2}$

2、最大似然估计原理

它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知，参数未定，利用已知样本结果（统计概率）反推最有可能导致这样结果的参数值。

假设 $,xnx_1,x_2,\cdots,x_n$ 为独立同分布的采样， $θ\theta$ 为模型参数， $f$ 为我们所使用的模型，参数为 $θ\theta$ 的模型 $f$ 产生上述采样可表示为：
$f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta)$

定义似然函数为：
$L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta)$

求极大似然估计就是找到 $θ\theta$ 的估计值 $θ^=θ^(x1,x2,⋯ ,xn)\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)$ 使得上式的 $,xn)L(\theta|x_1,x_2,\cdots,x_n)$ 达到最大。当 $,xn)L(\theta|x_1,x_2,\cdots,x_n)$ 是可微函数时，求导是求极大似然估计最常用的方法。又因 $L(θ)L(\theta)$ 和 $ln⁡L(θ)\ln L(\theta)$ 在同一个 $θ\theta$ 处取到极值，且对数似然函数 $ln⁡L(θ)\ln L(\theta)$ 求导更简单，故：
$\dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m$
判断方程组是否有解，若有解，则其解即为所求的最大似然估计，若无解，则最大似然估计在 $θi\theta_i$ 的边界上。

3、数学推导

假设：观察值的误差服从标准正态分布，即 $ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)$ ；
我们假设真实的模型参数为 $θ\theta$ ，模型的真实输出为 $fθ(xi)f_{\theta}(x_i)$ ，由于各种问题，我们观测到的样本 $y_i$ 距离真实值是存在误差的，误差 $ϵ∈N(0,σ2)\epsilon\in N(0,\sigma^2)$ ，则每个观测样本 $y_i$ 应该有： $yi∈N(fθ(xi),σ2)y_i\in N(f_\theta(x_i),\sigma^2)$ 。

在这个问题中，每个样本 $y_i$ 发生的概率：
$p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}$

则似然函数：
$L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}$

对数似然函数：
$\ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi}$

去掉不包含 $θ\theta$ 的常数项以及系数，则
$\arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2$

即最大化似然函数等价于极小化最小二乘法的代价函数，这也表明了以误差平方和作为最佳拟合准则的合理性。

4、线性回归

从上述推导结果可以看出，最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数，理论上可以用导数法、几何法，工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。

线性回归定义为： $,xn−1)=θ0+θ1x1+⋯+θn−1xn−1h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1}$
假设现在有 $m$ 个样本，每个样本都有 $n - 1$ 维特征，将所有样本点代入模型中得：
$h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\ h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\ \vdots\\ h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1}$

为方便用矩阵表示，令 $1=x1,0=⋯=xm,01=x_{1,0}=\cdots=x_{m,0}$ ，于是上述方程可以用矩阵表示为：
$\bf h = \bf X \theta$

其中， $h\bf h$ 为 $m×1m\times 1$ 的向量，代表模型的理论值， $θ\theta$ 为 $n×1n\times 1$ 的向量， $X\bf X$ 为 $m×nm\times n$ 的矩阵， $m$ 代表样本的个数， $n$ 代表样本的特征数，于是目标损失函数用矩阵表示为：
$J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y)$