1 决策树
# 导入需要的模块
from sklearn import tree # 导入树
from sklearn.datasets import load_wine # 导入红酒数据集
from sklearn.model_selection import train_test_split # 划分训练集和测试集
import pandas as pd
import graphviz#绘制树,和export_graphviz联合使用
wine = load_wine() # 数据实例化
print(wine) # 是字典
print(wine.data, wine.data.shape) # (178, 13)
print(wine.target)# 三分类的数据集
print(pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)) # 将wine变成表的形式
x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3) # random_state=1,
clf = tree.DecisionTreeClassifier(criterion='entropy') # 实例化,gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型
score = clf.score(x_test, y_test) # 返回预测准确度accuracy 从接口中调用需要的信息
print(score)
feature_name = ['酒精', '苹果酸', '灰', '灰的属性', '镁', '总酚', '类黄酮', '非黄烷类酚类', '花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']
dot_data = tree.export_graphviz(clf
, feature_names=feature_name
, class_names=['琴酒', '雪莉', '贝尔摩德']
, filled=True
, rounded=True)# filled=True是否给树填充颜色 rounded=True框的边角是圆角还是方角
graph = graphviz.Source(dot_data)
print(graph)
为了防止过拟合
从所有特征中随机抽取几个特征构建决策树,从众多决策树中选择最优的模型。
clf = tree.DecisionTreeClassifier(criterion='entropy'
,random_state=30
,splitter="random") # 实例化,gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型
剪枝
clf = tree.DecisionTreeClassifier(criterion='entropy'
,random_state=30
,splitter="random"
,max_depth=3
,min_samples_leaf=8
,min_samples_split=10) # 实例化,gini系数,最大深度为3,一个节点分支后每一个子节点至少包含8个才能发生,一个节点至少包括10才能进行分割
#返回每一个测试样本所在的叶子节点的索引
clf.apply(x