目录
第四章 决策树
4.1 基本流程
一般的。一棵决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对应于决策结果,其它每一个结点则对应于一个属性测试。
决策树学习的目的是为了产生一颗泛化能力强、即处理未见实例能力强的决策树。
决策树的生成:是一个递归过程。有三种情况导致递归返回:
①当前结点包含的样本全属于同一类别,即无需划分。
②当前属性集为空,或所有样本在所有属性上取值相同,无法划分。
③当前结点包含的样本集为空,不能划分。
在②情况下,把当前结点标记为叶节点,并将其类别设定为该结点所含样本最多的类别;
在③情况下,把当前结点标记为叶节点,但将其类别设定为其父结点所含样本最多的类别。
区别:②是利用当前结点的后验分布,③是把父结点的样本分布作为当前结点的先验分布。
4.2 划分选择
决策树的关键:如何选择最优化分属性,即结点“纯度”越来越高。
4.2.1 信息增益
“信息熵”:度量样本集合纯度的最常用指标。定义为: