0. 数据挖掘完整过程
业务理解-数据理解-数据准备-模型搭建-模型评估-模型发布
1. 评估方法:交叉验证法
交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现。
1.1 划分数据集
- 训练集用于训练模型参数
- 验证集用于“训练”模型的超参数
- 测试集用于估计整个模型对样本的泛化误差
1.2 作用
- 可以在一定程度上减小过拟合。
- 可以从有限的数据中获取尽可能多的有效信息。
1.3 方法
- 留出法
- k折交叉验证法
- Bootstrapping自助采样法
2. 性能度量
混淆矩阵
准确率:
Acc=TP+TNTP+FN+FP+TNAcc = \frac{TP+TN}{TP+FN+FP+TN}Acc=TP+FN+FP+TNTP+TN
在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。
二分类问题
查准率P,在所有预测为正类的样本中,预测准确的样本占比:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP
查全率/召回率R,在所有真实为正类的样本中,预测准确的样本占比 :R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP
F1度量:F=2PRP+RF=\frac{2PR}{P+R}F=P+R2PR
多分类问题
法1:在n个二分类混淆矩阵上综合考量。
宏查准率P:macroP=1n∑i=1nPimacroP=\frac{1}{n}\sum_{i=1}^nP_imacroP=n1i=1∑n