模型融合---为什么说bagging是减少variance,而boosting是减少bias?

本文深入探讨了Bagging和Boosting两种机器学习集成策略的原理与效果。Bagging通过减少variance提升模型稳定性,而Boosting则侧重于减少bias以提高预测精度。文章详细解释了两者如何在不同场景下发挥作用,以及它们各自的优势和局限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.bagging减少variance

Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立),所以bagging后的bias和单个子模型的接近,一般来说不能显著降低bias。

若各模型独立,则 n

若各模型完全相等,则n)=var(%7BX_i%7D)

此时不会降低variance。bagging方法得到的各子模型是有一定相关性的,属于上面两个极端状况的中间态,因此可以一定程度降低variance。为了进一步降低variance,Random forest通过随机选取变量子集做拟合的方式de-correlated了各子模型(树),使得variance进一步降低。

2.boosting减少bias

boosting从优化角度来看,是用forward-stagewise这种贪心法去最小化损失函数。gif.latex?L(y,%5Csum_%7Bi=1%7D%5E%7Bn%7D%7Ba_if_%7Bi%7D(x)%7D)

例如,常见的AdaBoost即等价于用这种方法最小化exponential loss:gif.latex?L(y,f(x))=exp(-yf(x))

所谓forward-stagewise,就是在迭代的第n步,求解新的子模型f(x)及步长a(或者叫组合系数),来最小化gif.latex?L(y,f_%7Bn-1%7D(x)+af(x)),这里gif.latex?f_%7Bn-1%7D(x)是前n-1步得到的子模型的和。因此boosting是在sequential地最小化损失函数,其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略,各子模型之间是强相关的,于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度。

参考文献:

【1】知乎大佬回答
【2】Bagging与方差

转载于:https://www.cnblogs.com/nxf-rabbit75/p/11165014.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值