机器学习(周志华)学习笔记(三)

机器学习(周志华)学习笔记(二)

机器学习(周志华)学习笔记(一)


目录

第四章 决策树

4.1 基本流程

4.2 划分选择

4.2.1 信息增益

4.2.2 增益率(在信息增益基础上的进一步优化)

4.3 剪枝处理

4.4 连续与缺失值

4.4.1 连续值处理

4.4.2 缺失值处理

4.5 多变量决策树


第四章 决策树

4.1 基本流程

        一般的。一棵决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对应于决策结果,其它每一个结点则对应于一个属性测试。

        决策树学习的目的是为了产生一颗泛化能力强、即处理未见实例能力强的决策树。

        决策树的生成:是一个递归过程。有三种情况导致递归返回:

                ①当前结点包含的样本全属于同一类别,即无需划分。

                ②当前属性集为空,或所有样本在所有属性上取值相同,无法划分。

                ③当前结点包含的样本集为空,不能划分。

在②情况下,把当前结点标记为叶节点,并将其类别设定为该结点所含样本最多的类别;

在③情况下,把当前结点标记为叶节点,但将其类别设定为其父结点所含样本最多的类别。

区别:②是利用当前结点的后验分布,③是把父结点的样本分布作为当前结点的先验分布。

4.2 划分选择

 决策树的关键:如何选择最优化分属性,即结点“纯度”越来越高。

4.2.1 信息增益

        “信息熵”:度量样本集合纯度的最常用指标。定义为:

       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值