sklearn 笔记

1 决策树

# 导入需要的模块
from sklearn import tree               # 导入树
from sklearn.datasets import load_wine # 导入红酒数据集
from sklearn.model_selection import train_test_split # 划分训练集和测试集
import pandas as pd
import graphviz#绘制树,和export_graphviz联合使用

wine = load_wine() # 数据实例化
print(wine) # 是字典
print(wine.data, wine.data.shape) # (178, 13)
print(wine.target)# 三分类的数据集
print(pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)) # 将wine变成表的形式

x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3) # random_state=1,

clf = tree.DecisionTreeClassifier(criterion='entropy') # 实例化,gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型
score = clf.score(x_test, y_test) # 返回预测准确度accuracy 从接口中调用需要的信息
print(score)

feature_name = ['酒精', '苹果酸', '灰', '灰的属性', '镁', '总酚', '类黄酮', '非黄烷类酚类', '花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']
dot_data = tree.export_graphviz(clf
                                , feature_names=feature_name
                                , class_names=['琴酒', '雪莉', '贝尔摩德']
                                , filled=True
                                , rounded=True)# filled=True是否给树填充颜色 rounded=True框的边角是圆角还是方角
graph = graphviz.Source(dot_data)
print(graph)

为了防止过拟合

从所有特征中随机抽取几个特征构建决策树,从众多决策树中选择最优的模型。

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                  ,random_state=30
                                  ,splitter="random") # 实例化,gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型

剪枝

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                  ,random_state=30
                                  ,splitter="random"
                                  ,max_depth=3
                                  ,min_samples_leaf=8
                                  ,min_samples_split=10) # 实例化,gini系数,最大深度为3,一个节点分支后每一个子节点至少包含8个才能发生,一个节点至少包括10才能进行分割
#返回每一个测试样本所在的叶子节点的索引
clf.apply(x
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值