【ML小结1】ML入门

本文介绍了机器学习中的交叉验证方法,包括留出法、k折交叉验证和自助采样法,强调其在评估模型性能和防止过拟合中的作用。此外,讨论了模型性能度量,如二分类和多分类问题中的查准率、查全率、F1度量,并详细阐述了正则化的概念,重点讲解了L0、L1、L2范数及其对模型复杂度的影响。最后,探讨了偏差与方差的权衡以及模型选择准则,如AIC、BIC和HQ准则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 数据挖掘完整过程

业务理解-数据理解-数据准备-模型搭建-模型评估-模型发布

1. 评估方法:交叉验证法

交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现。

1.1 划分数据集

  • 训练集用于训练模型参数
  • 验证集用于“训练”模型的超参数
  • 测试集用于估计整个模型对样本的泛化误差

1.2 作用

  • 可以在一定程度上减小过拟合。
  • 可以从有限的数据中获取尽可能多的有效信息。

1.3 方法

  • 留出法
  • k折交叉验证法
  • Bootstrapping自助采样法

2. 性能度量

混淆矩阵
在这里插入图片描述
准确率:
Acc=TP+TNTP+FN+FP+TNAcc = \frac{TP+TN}{TP+FN+FP+TN}Acc=TP+FN+FP+TNTP+TN

在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。

二分类问题

查准率P,在所有预测为正类的样本中,预测准确的样本占比:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP
查全率/召回率R,在所有真实为正类的样本中,预测准确的样本占比 :R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP
F1度量:F=2PRP+RF=\frac{2PR}{P+R}F=P+R2PR

多分类问题

法1:在n个二分类混淆矩阵上综合考量。

宏查准率P:macroP=1n∑i=1nPimacroP=\frac{1}{n}\sum_{i=1}^nP_imacroP=n1i=1n

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值