基于决策树鸢尾花模式识别系统的设计与实现.pdf资源-CSDN下载

需积分: 50 21 浏览量 2022-10-19 10:22:08 上传评论 1 收藏 393KB PDF 举报

《基于决策树鸢尾花模式识别系统的设计与实现》决策树是一种常见的机器学习算法，尤其适用于分类问题。本文主要探讨了如何运用决策树技术构建一个鸢尾花模式识别系统，通过对鸢尾花数据集的处理和分析，实现对鸢尾花种类的准确分类。 1.1 研究内容概述本研究主要涉及以下环节： - 数据集收集：项目收集了鸢尾花数据集，这是一个包含了4个特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和1个类别标签（鸢尾花类型）的经典分类数据集。 - 数据预处理：对数据进行计算信息熵的处理，以评估数据的不确定性。 - 特征选择：通过计算信息熵，选择最佳列特征，以最大程度地减少数据的不确定性。 - 决策树构建：依据选定的特征，生成决策树模型，用于分类新的鸢尾花实例。 - 模型验证：采用十折交叉验证方法，检验决策树的分类效果。 1.2 实验环境硬件方面，主要依赖于计算机进行仿真实验；软件上，使用Python编程语言，开发环境为PyCharm。 1.3 鸢尾花数据集鸢尾花数据集由600条左右的记录组成，每条记录包含4个数值特征和1个类别标签。特征以"first"、"second"、"third"、"forth"表示，分别代表萼片长度、萼片宽度、花瓣长度和花瓣宽度，而标签则指示鸢尾花的种类。 1.4 特征提取在特征提取过程中，首先计算信息熵，通过读取数据集并利用pandas库进行处理。接着，将特征值划分为四个类别，并选择最佳分类特征进行划分。信息熵被用来衡量数据集的纯度，选择信息增益最大的特征作为划分依据。 1.5 分类过程在Python的scikit-learn库中，使用`DecisionTreeClassifier`构建决策树模型。训练数据集`x_train`和对应的标签`y_train`用于训练分类器。`train_test_split`函数将数据集随机划分为训练集和测试集，以评估模型的泛化能力。在示例中，选择了第一个和最后一个特征进行分类展示。 1.6 程序代码研究中的主要程序代码涉及到计算信息熵的函数`calcshannonent`，以及使用pandas库对数据集的处理。计算信息熵是评估数据不确定性的关键步骤，而pandas库则用于数据的读取、处理和分类特征的选择。总结，本项目通过设计和实现基于决策树的鸢尾花模式识别系统，展示了如何运用决策树算法对鸢尾花数据集进行有效分类。通过数据预处理、特征选择、决策树构建和模型验证，实现了对新鸢尾花实例的准确识别，为实际应用提供了参考。

资源推荐

资源详情

资源评论

题目基于决策树鸢尾花模式识别系统的设计与实现

1．1 题目的主要研究内容（宋体四号加粗左对齐）

（1）工作的主要描述

本报告主要设计了基于决策树鸢尾花模式识别系统的设计与实现，首先收

集数据集，对数据进行处理计算其信息熵，对收集到的数据进行分类，选择最佳

列特征，获取当前特征列表，对每一个分裂值计算信息熵，，接着返回最佳分裂

特征号，最后生成决策树，使用决策对接下来新的鸢尾花分类分析。之后对所求

出的决策树，进行检验，采用的方法为十折交叉验证。

（2）系统流程图

1．2 题目研究的工作基础或实验条件

（1）硬件环境:电脑仿真虚拟

（2）软件环境:Pycharm,使用的语言是：python

1．3 数据集描述

鸢尾花数据集是机器学习领域一个非常经典的分类数据集。该数据集的基本

构成为，其数据集名称为 lris Data Set,总共包含 600 行左右的数据。每一行数据

由 4 个特征值及一个标签组成。其中 4 个特征值分别为:萼片长度、萼片宽度、

花瓣长度、花瓣宽度。在本例，为了便于观察更简洁，用(萼片长度，萼片宽度，

收集鸢尾花数据集

处理数据、分类

生成决策树

决策新的数据

选择最佳列特征

选择返回最佳分裂特征号

花瓣长度，花瓣宽度；类型。用 first,second,third,forth;label)来表示。

鸢尾花部分数据如下：

first

second

third

forth

1633

0

1

2

3

4

1

1

1

1

1

2

3

4

4

5

5

4

3

3

2

1

2

3

2

5

A

B

1．4 特征提取过程描述

实际上是二分类基础上实现多分类的问题，首先先计算信息熵，要先读取原

先的数据集，利用 pd.read 来读取，通过 csv 存储默认保存。我们主要读取“ first”

那一行每一个特征进行循环，最后得出数值；第二步对指定特征值进行分类，将

特征值分为 4 个，分类是“萼片长度，萼片宽度，花瓣长度，花瓣宽度”，用 Dataset

数据，对指定特征值进行分类，选择最佳分类特征进行分类。之后打印出每个特

征数据集划分。

在度量数据集的无序程度的时候，分类算法除了需要测量信息熵，还需要划

分数据集，度量花费数据集的熵，以便判断当前是否正确的划分了数据集。我们

将对每个特征数据集划分的结果计算一次信息熵，然后判断按照那个特征划分数

据集是最好的划分方式。我们依次选取我们数据集当中的所有特征作为我们划定

的特征，然后计算选取该特征时的信息增益，当信息增益最大时我们就选取对应

信息增益最大的特征作为我们分类的最佳特征。

1．5 分类过程描述

DecisionTreeClassifier.sklearn 机器学习包中，决策树实现类是

DecisionTreeClassifier,实现对数据集的多类分类。输入参数为两个数组 x_train 和

y_train, x_train 为练数据，y_train 为训练数据的标签，用于训练分类器。rain_ test

split 将原始数据将其按一定比例随机分为 x _train 和 x _test。 x _test 为测试数据，

用于测试类器。好的做法是多次随机划分 x_train 和 x_test,根据 y_test 的测试结

果和本身结果比较来衡量分类器的好坏。这里只以一次运行结果说明，且在 4

个特征中，以第一个和最后一个特征进行分类图示。

1．6 主要程序代码(要求必须有注释)

from math import log

import pandas as pd

import operator

import numpy as np

import matplotlib.pyplot as plt

剩余8页未读，继续阅读

内容反馈

李逍遥敲代码

粉丝: 2991

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip