机器学习（周志华）学习笔记（三）

最新推荐文章于 2025-05-07 21:06:29 发布

ELDORADO_KDW

最新推荐文章于 2025-05-07 21:06:29 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习分类决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coral_55u/article/details/123941684

机器学习（周志华）学习笔记（二）

机器学习（周志华）学习笔记（一）

目录

第四章决策树

4.1 基本流程

4.2 划分选择

4.2.1 信息增益

4.2.2 增益率（在信息增益基础上的进一步优化）

4.3 剪枝处理

4.4 连续与缺失值

4.4.1 连续值处理

4.4.2 缺失值处理

4.5 多变量决策树

第四章决策树

4.1 基本流程

一般的。一棵决策树包含一个根结点、若干个内部结点和若干个叶结点，叶结点对应于决策结果，其它每一个结点则对应于一个属性测试。

决策树学习的目的是为了产生一颗泛化能力强、即处理未见实例能力强的决策树。

决策树的生成：是一个递归过程。有三种情况导致递归返回：

①当前结点包含的样本全属于同一类别，即无需划分。

②当前属性集为空，或所有样本在所有属性上取值相同，无法划分。

③当前结点包含的样本集为空，不能划分。

在②情况下，把当前结点标记为叶节点，并将其类别设定为该结点所含样本最多的类别；

在③情况下，把当前结点标记为叶节点，但将其类别设定为其父结点所含样本最多的类别。

区别：②是利用当前结点的后验分布，③是把父结点的样本分布作为当前结点的先验分布。

4.2 划分选择

决策树的关键：如何选择最优化分属性，即结点“纯度”越来越高。

4.2.1 信息增益

“信息熵”：度量样本集合纯度的最常用指标。定义为：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。