sklearn 笔记

最新推荐文章于 2025-05-08 09:50:48 发布

超级码力……

最新推荐文章于 2025-05-08 09:50:48 发布

阅读量960

点赞数 11

CC 4.0 BY-SA版权

文章标签： sklearn 机器学习 python

本文链接：https://blog.csdn.net/m0_53675977/article/details/128438605

1 决策树

# 导入需要的模块
from sklearn import tree               # 导入树
from sklearn.datasets import load_wine # 导入红酒数据集
from sklearn.model_selection import train_test_split # 划分训练集和测试集
import pandas as pd
import graphviz#绘制树，和export_graphviz联合使用

wine = load_wine() # 数据实例化
print(wine) # 是字典
print(wine.data, wine.data.shape) # (178, 13)
print(wine.target)# 三分类的数据集
print(pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)) # 将wine变成表的形式

x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3) # random_state=1,

clf = tree.DecisionTreeClassifier(criterion='entropy') # 实例化，gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型
score = clf.score(x_test, y_test) # 返回预测准确度accuracy 从接口中调用需要的信息
print(score)

feature_name = ['酒精', '苹果酸', '灰', '灰的属性', '镁', '总酚', '类黄酮', '非黄烷类酚类', '花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']
dot_data = tree.export_graphviz(clf
                                , feature_names=feature_name
                                , class_names=['琴酒', '雪莉', '贝尔摩德']
                                , filled=True
                                , rounded=True)# filled=True是否给树填充颜色 rounded=True框的边角是圆角还是方角
graph = graphviz.Source(dot_data)
print(graph)

为了防止过拟合

从所有特征中随机抽取几个特征构建决策树，从众多决策树中选择最优的模型。

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                  ,random_state=30
                                  ,splitter="random") # 实例化，gini系数
clf.fit(x_train, y_train) # 用训练集数据训练模型

剪枝

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                  ,random_state=30
                                  ,splitter="random"
                                  ,max_depth=3
                                  ,min_samples_leaf=8
                                  ,min_samples_split=10) # 实例化，gini系数,最大深度为3，一个节点分支后每一个子节点至少包含8个才能发生，一个节点至少包括10才能进行分割

#返回每一个测试样本所在的叶子节点的索引
clf.apply(x

最低0.47元/天解锁文章

200万优质内容无限畅学