scikit-learn与斯坦福机器学习课程实战指南-CSDN博客

本文链接：https://blog.csdn.net/weixin_35094083/article/details/148510391

简介：本实践项目深入探讨了使用Python中流行的机器学习库scikit-learn进行斯坦福机器学习课程的学习。scikit-learn库包含丰富的算法和工具，能帮助数据科学家和机器学习工程师进行快速有效的模型训练和验证。本课程将教授如何运用scikit-learn解决实际问题，巩固理论知识，并通过数据预处理、模型选择、评估和调优等步骤，详细介绍了多种机器学习算法及其应用。项目中包含了对线性回归、逻辑回归、决策树、随机森林、支持向量机（SVM）、K近邻（KNN）、聚类等算法的讲解和实践。通过掌握这些技术，参与者将提升编程技能，并能将机器学习技术应用于实际项目中。 Python-基于scikitlearn练习斯坦福机器学习课程

1. scikit-learn基础结构与功能介绍

1.1 安装和配置scikit-learn

scikit-learn的安装非常简单，推荐使用Python的包管理工具pip进行安装：

pip install scikit-learn

在安装完成后，scikit-learn便可以配置在各种开发环境中使用，如Jupyter Notebook、PyCharm或者VS Code等。为了确保安装成功，可以在Python环境中测试scikit-learn模块的导入：

import sklearn
print(sklearn.__version__)

上述代码应该会输出scikit-learn库的版本号，从而确认安装无误。

1.2 scikit-learn的核心模块

scikit-learn的核心模块主要分为以下几个部分：

数据预处理（Preprocessing） ：包括数据标准化、特征编码、特征选择等。
估计器（Estimators） ：机器学习模型，如分类器、回归器和聚类器等。
模型评估（Model Evaluation） ：用于评估模型性能的工具，包括交叉验证、评分函数等。
模型选择（Model Selection） ：用于选择模型的工具，如网格搜索和随机搜索。

接下来的章节中，我们将深入讲解这些模块如何在机器学习项目中发挥作用。

2. 数据预处理技巧

在机器学习项目中，良好的数据预处理是确保模型性能的关键步骤。数据预处理包括了从数据清洗到特征转换等多个环节，每个环节都至关重要。在本章中，我们将深入探讨数据预处理的关键技术和方法，并通过实例加深理解。

2.1 数据清洗与缺失值处理

在机器学习中，数据集常常会有噪声和不一致性。数据清洗就是识别并解决这些问题的过程，它有助于提高模型的准确性和泛化能力。数据清洗的一个重要方面是处理缺失值。

2.1.1 识别并处理重复数据

在数据集中，重复数据的出现往往会扭曲模型的学习效果。重复数据可能是由于数据导入错误或是数据处理过程中的疏忽造成的。

识别重复数据可以使用pandas库中的 duplicated() 函数。这个函数会检查DataFrame中的重复行，并返回一个布尔型Series。之后，可以使用 drop_duplicates() 函数删除重复数据。

import pandas as pd

# 假设df是已经加载的DataFrame
df = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3],
                   'B': [4, 5, 5, 6, 6, 7]})

# 查找重复行
duplicates = df.duplicated()

print("存在重复的行:", duplicates)

# 删除重复行
df_clean = df.drop_duplicates()
print("清洗后的数据集:\n", df_clean)

逻辑分析：代码中的 duplicated() 函数执行了检查重复行的任务，并返回了每行是否重复的布尔值。 drop_duplicates() 函数根据这些布尔值来移除重复的数据行，保留了每个重复集合中的第一个。

2.1.2 缺失值的识别和填补策略

缺失值是指在数据集中未被填写的数据，它们可能是由于数据收集或录入过程中发生的错误。处理缺失值之前，首先要识别出它们。pandas库中的 isnull() 函数可以帮助我们找出数据集中的缺失值。

# 检查df中每个元素是否是缺失值
missing_values = df.isnull()

print("缺失值情况:\n", missing_values)

填补缺失值的方式有很多种。最简单的就是用该列的均值、中位数或众数来替代。比如，用均值填补数值型数据的缺失值：

# 使用均值填补缺失值
df_filled = df.fillna(df.mean())
print("填补后的数据集:\n", df_filled)

逻辑分析： fillna() 函数通过 df.mean() 计算出每列的均值，并将这些均值填充到相应的缺失位置。

2.2 特征缩放和编码技术

数据预处理中的另一个重要步骤是特征缩放和编码。这有助于模型更好地学习数据的特征，特别是在距离计算时尤为重要。

2.2.1 标准化与归一化方法

标准化（Standardization）和归一化（Normalization）是数据预处理中常用的技术，用于将特征缩放到特定的范围。

标准化：将数据的平均值变为0，标准差变为1。使用 StandardScaler 类：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
print("标准化后的数据集:\n", df_scaled)

逻辑分析： StandardScaler 计算了每个特征的均值和标准差，并将每个特征缩放到均值为0、标准差为1的分布。这对于大多数基于距离的算法来说非常有用。

归一化：将数据缩放到[0,1]区间。使用 MinMaxScaler 类：

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df_normalized = scaler.fit_transform(df)
print("归一化后的数据集:\n", df_normalized)

逻辑分析： MinMaxScaler 将特征缩放到0和1之间的最小-最大值范围。这对于支持向量机或k-最近邻算法等对数据范围敏感的算法特别有用。

2.2.2 独热编码和标签编码的区别及应用场景

在机器学习中，分类变量需要转换为数值形式，以便算法能够处理。独热编码（One-Hot Encoding）和标签编码（Label Encoding）是两种常见的转换方法。

独热编码：为分类变量的每个唯一值创建一个新的二进制列。

from sklearn.preprocessing import OneHotEncoder

# 创建一个分类变量的例子
df['category'] = ['cat', 'dog', 'cat', 'dog', 'fish', 'cat']

# 应用独热编码
encoder = OneHotEncoder(sparse=False)
encoded = encoder.fit_transform(df[['category']])

print("独热编码后的数据:\n", encoded)

逻辑分析：在上述代码中， OneHotEncoder 为分类变量 category 的每个类别创建了一个新的二进制列。每个类别用一个二进制列表示，其中该类别的位置为1，其他为0。

标签编码：将分类值映射到整数标签。

from sklearn.preprocessing import LabelEncoder

# 应用标签编码
label_encoder = LabelEncoder()
encoded = label_encoder.fit_transform(df['category'])

print("标签编码后的数据:\n", encoded)

逻辑分析： LabelEncoder 将分类值转换为介于0到类别数减1之间的整数。这适用于分类值可以按一定的顺序排列的情况。

下表总结了独热编码和标签编码的区别和应用场景：

| 特征编码方法 | 说明 | 应用场景 | | --- | --- | --- | | 独热编码 | 对于每一个类别，创建一个新的二进制列 | 适用于类别无明显顺序或数量不多时 | | 标签编码 | 将类别直接转换为整数值 | 适用于类别具有自然排序或类别数量较多时 |

通过本节的学习，读者应能熟练运用数据清洗、缺失值处理、特征缩放和编码等数据预处理技术，为后续的模型训练和评估打下坚实的基础。在下一节中，我们将深入探讨决策树与集成学习方法的应用。

3. 多种机器学习算法应用

scikit-learn库支持多种机器学习算法，从监督学习到非监督学习，从分类到回归，本章将通过实例演示如何运用scikit-learn实现常见的机器学习算法，帮助读者深入掌握每种算法的原理和实际应用。

3.1 监督学习算法

监督学习是机器学习中的一种主要学习方法，其训练数据包含输入变量和预期输出标签。在这一小节中，我们将详细探讨如何使用scikit-learn构建和优化线性回归模型，并深入分析逻辑回归分类器的应用及其参数调优。

3.1.1 线性回归模型的构建和优化

线性回归是最基础的监督学习算法之一，其模型试图在给定的输入特征和输出之间找到线性关系。使用scikit-learn构建线性回归模型，我们首先需要准备训练数据集，然后创建模型实例，并使用训练数据集对其进行拟合。我们还可以使用scikit-learn的模型选择和交叉验证方法对模型进行性能评估和参数优化。

# 导入线性回归模型以及用于分割数据集的工具
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 假设我们有一个包含特征和目标值的numpy数组
X = # 特征数据
y = # 目标数据

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型实例
model = LinearRegression()

# 使用训练数据拟合模型
model.fit(X_train, y_train)

# 使用测试数据进行预测
predictions = model.predict(X_test)

# 计算预测的均方误差（MSE）
mse = mean_squared_error(y_test, predictions)
print("Mean Squared Error: ", mse)

# 使用交叉验证优化模型
# ...

在上述代码中，我们首先导入了 LinearRegression 类、 train_test_split 函数和 mean_squared_error 函数。然后，我们使用 train_test_split 函数将数据集分为训练集和测试集。 LinearRegression 类用于构建模型， fit 方法用于训练模型， predict 方法用于进行预测。最后，我们使用 mean_squared_error 来评估模型的性能。

3.1.2 逻辑回归的分类应用及其参数调优

逻辑回归是二分类问题中常用的算法，其背后的思想是将线性回归模型的结果映射到0到1之间，这可以解释为概率。在scikit-learn中，逻辑回归模型同样易于使用和调优。我们可以通过调整 C 参数（逆正则化强度）来控制模型的复杂度，避免过拟合。

# 导入逻辑回归模型以及用于分割数据集的工具
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 假设我们有一个包含特征和目标值的numpy数组
X = # 特征数据
y = # 目标数据，二分类问题中0和1

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建逻辑回归模型实例，设置正则化为l2，并设置C的值
model = LogisticRegression(C=1.0, penalty='l2', solver='lbfgs')

# 使用训练数据拟合模型
model.fit(X_train, y_train)

# 使用测试数据进行预测
predictions = model.predict(X_test)

# 计算预测的准确率
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: ", accuracy)

# 使用网格搜索进行参数优化
# ...

在这段代码中，我们导入了 LogisticRegression 类、 train_test_split 函数和 accuracy_score 函数。我们创建了 LogisticRegression 模型实例，并指定了 C 参数和正则化类型。使用 fit 方法对模型进行训练，并通过 predict 方法进行预测。我们用 accuracy_score 来计算模型的准确率。

要调优逻辑回归的参数，我们可以使用网格搜索（Grid Search）来系统地遍历多个参数组合，找到最佳的参数配置。下面是如何使用scikit-learn的 GridSearchCV 来优化逻辑回归模型的参数的一个例子：

from sklearn.model_selection import GridSearchCV

# 设置逻辑回归模型的参数网格
param_grid = {
    'C': [0.001, 0.01, 0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'lbfgs']
}

# 创建GridSearchCV实例，指定模型为逻辑回归，参数网格以及交叉验证的分组数
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)

# 使用训练数据对网格搜索进行拟合
grid_search.fit(X_train, y_train)

# 输出最佳参数和对应的模型分数
print("Best parameters found: ", grid_search.best_params_)
print("Best score: ", grid_search.best_score_)

在这个例子中，我们定义了一个参数网格，其中包含了不同的 C 值、正则化类型（ l1 或 l2 ）和求解器。然后我们创建了 GridSearchCV 的实例，指定了模型、参数网格和交叉验证的分组数。通过 fit 方法拟合模型，最后输出最佳的参数组合和对应的模型分数。

通过本小节，读者应理解如何利用scikit-learn构建线性回归和逻辑回归模型，进行性能评估和参数优化。接下来的3.2节将探讨决策树和集成学习方法的构建与性能提升技巧。

4. 模型选择、评估和调优方法

4.1 模型选择与交叉验证

选择一个合适的模型对于确保机器学习项目成功至关重要。在本节中，我们将详细讨论如何使用scikit-learn选择最佳的机器学习模型，并利用交叉验证技术来评估模型性能。

4.1.1 常见的模型选择标准

模型选择是机器学习工作流程中不可或缺的一环。选择正确的模型可以显著提高最终性能。常见的选择标准包括模型的准确度、复杂度、泛化能力以及可解释性。scikit-learn库为我们提供了一系列的评估指标，比如准确度（accuracy）、F1分数（F1 score）、均方误差（Mean Squared Error, MSE）等，可以帮助我们做出决策。

4.1.2 K折交叉验证的应用和优势

K折交叉验证是一种评估模型泛化能力的有效技术。在这种方法中，数据集被分成K个大小相同的子集。模型训练时，轮流将其中的K-1个子集作为训练数据集，剩下的一个子集作为测试数据集。这样重复K次，每次选择不同的测试集，最后计算所有K次测试的平均性能指标，作为模型的评估结果。

使用K折交叉验证的优势在于它可以减少模型评估过程中样本划分的随机性所造成的误差，提高评估结果的可靠性。

代码实现K折交叉验证

import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 初始化逻辑回归模型
model = LogisticRegression(max_iter=200)

# 初始化K折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 进行交叉验证并输出准确率
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"Model accuracy: {np.mean(y_pred == y_test)}")

# 使用cross_val_score方法进行交叉验证
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')
print(f"Mean CV accuracy: {np.mean(scores)}")

在上述代码中，我们首先导入必要的模块，加载了鸢尾花数据集，并初始化了一个逻辑回归模型。然后，我们手动实现了K折交叉验证的步骤，并输出了每次迭代的准确度。最后，我们利用 cross_val_score 函数简化了交叉验证的整个过程，并输出了平均准确度。

4.2 网格搜索与超参数调优

超参数调优是机器学习模型优化中的关键步骤，它对于模型性能的提升有着直接的影响。本节将详细介绍如何使用网格搜索技术寻找最优的超参数组合。

4.2.1 网格搜索的基本原理和操作

网格搜索是一种系统地遍历给定参数的组合并找出最优参数的方法。在scikit-learn中，可以通过 GridSearchCV 类实现网格搜索。这个类在内部使用交叉验证来评估所有参数组合的性能。

如何使用GridSearchCV

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits

# 加载数据集
digits = load_digits()
X, y = digits.data, digits.target

# 定义模型和参数网格
rf = RandomForestClassifier()
param_grid = {
    'n_estimators': [10, 20, 30],
    'max_depth': [10, 20, 30],
}

# 初始化网格搜索
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5)

# 训练网格搜索
grid_search.fit(X, y)

# 输出最佳参数和最佳分数
print(f"Best parameters found: {grid_search.best_params_}")
print(f"Best cross-validation score: {grid_search.best_score_}")

在上述示例中，我们使用了一个随机森林分类器，并定义了参数网格。然后，我们创建了一个 GridSearchCV 对象，并对数据集进行了训练。最后，输出了最佳参数组合和对应的交叉验证分数。

4.2.2 利用随机搜索进行参数优化

尽管网格搜索非常强大，但当参数空间变得非常大时，它可能变得不切实际。这时，随机搜索成为了一个高效的替代方案。 RandomizedSearchCV 可以随机选择一定数量的参数组合，这样就可以以较低的计算代价进行参数搜索。

使用RandomizedSearchCV进行参数优化

from sklearn.model_selection import RandomizedSearchCV

# 使用随机搜索进行参数优化
random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_grid, n_iter=10, cv=5)
random_search.fit(X, y)

# 输出最佳参数和最佳分数
print(f"Best parameters found with RandomizedSearchCV: {random_search.best_params_}")
print(f"Best cross-validation score: {random_search.best_score_}")

在该代码段中，我们使用了 RandomizedSearchCV 类，其中 n_iter 参数指定了要评估的参数组合数量。和 GridSearchCV 类似，我们训练并评估了随机搜索的结果，并打印了最佳参数和分数。

模型评估的其他方法和技巧

除了交叉验证和网格搜索，还有其他多种评估方法和技巧对于机器学习模型的选择和评估至关重要。这些技巧可以帮助我们深入理解模型在不同条件下的性能表现，进而做出更加明智的选择。

模型选择方法的实践案例

表格：不同模型的评估结果对比

| 模型 | 准确度 | 召回率 | F1分数 | 训练时间 | |------|--------|--------|--------|----------| | 决策树 | 0.85 | 0.83 | 0.83 | 0.1s | | 随机森林 | 0.91 | 0.89 | 0.89 | 1.2s | | SVM | 0.90 | 0.88 | 0.89 | 2.4s |

在实际应用中，可以利用上述表格的格式，整理出不同模型的性能指标。这些指标可以帮助我们进行横向比较，并选择最适合当前问题的模型。

模型调优技巧的深入解析

在模型调优过程中，不仅要考虑模型的性能指标，还需要关注模型的复杂度和计算效率。有时为了提高模型的性能，可能需要牺牲一定的计算效率。在实际操作中，需要在性能和效率之间找到一个平衡点。

逻辑回归超参数调优流程

逻辑回归是一种广泛用于二分类问题的算法。通过调整正则化强度和正则化类型，我们可以优化模型的性能。

代码示例：逻辑回归超参数调优

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

# 定义逻辑回归模型及参数网格
logreg = LogisticRegression()
param_grid = {'C': np.logspace(-4, 4, 20),
              'penalty': ['l1', 'l2']}

# 使用GridSearchCV进行参数搜索
grid = GridSearchCV(logreg, param_grid, cv=5)
grid.fit(X_train, y_train)

# 输出最佳参数
print(f"Best parameters: {grid.best_params_}")

在上述代码中，我们对逻辑回归的正则化系数 C 和惩罚项 penalty 进行了网格搜索，以找到最佳的模型参数。这是一个典型的模型超参数优化过程，通过调整这些参数，我们可以改善模型性能。

5. 实际案例应用

5.1 文本分析项目实践

5.1.1 文本预处理和特征提取

在文本分析项目中，预处理和特征提取是关键步骤。文本数据通常包含大量噪声和无关信息，因此，我们需要进行一系列的预处理操作以提高数据的质量。以下是预处理和特征提取的一些常用方法。

首先，文本数据常常需要进行分词（Tokenization），将句子或段落分割为单词或短语。接下来，进行词干提取（Stemming）或词形还原（Lemmatization）来减少词汇的不规则性。此外，去除停用词（Stop Words Removal）是另一个常见的操作，以消除对文本内容无实质贡献的词汇，如“and”, “the”等。

from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import nltk

nltk.download('stopwords')
nltk.download('punkt')

# 示例文本
documents = ['Data science is really interesting.', 'Machine learning is a field of AI.']

# 初始化词干提取器和停用词集合
stemmer = PorterStemmer()
stop_words = set(stopwords.words('english'))

# 预处理文本
def preprocess(document):
    # 分词
    tokens = nltk.word_tokenize(document.lower())
    # 词干提取
    stems = [stemmer.stem(token) for token in tokens if token not in stop_words]
    return " ".join(stems)

# 应用预处理
preprocessed_docs = [preprocess(doc) for doc in documents]

# 特征提取
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(preprocessed_docs)

5.1.2 文本分类模型的构建和评估

文本分类是将文本分配给一个或多个类别。在预处理和特征提取之后，我们将构建一个分类模型。在此示例中，我们将使用逻辑回归来分类文本。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# 假设我们有两种类别的文本
categories = ['interesting', 'field']

# 将文本分类
y = [categories[0] if 'interesting' in doc else categories[1] for doc in preprocessed_docs]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 评估模型
print(accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

5.2 图像识别项目实践

5.2.1 图像预处理步骤

在图像识别项目中，预处理步骤包括调整图像大小、归一化、图像增强等。以下是一个基本的图像预处理流程：

from keras.preprocessing.image import ImageDataGenerator
import cv2
import numpy as np

# 加载图像
img = cv2.imread('path_to_image.jpg')

# 调整图像大小
img = cv2.resize(img, (224, 224))

# 归一化图像
img = img.astype('float32') / 255.0

# 图像增强
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# 生成增强图像
augmented_images = datagen.flow(np.expand_dims(img, axis=0), batch_size=1)

5.2.2 图像识别算法的选择与实现

对于图像识别，我们可以选择使用卷积神经网络（CNN）。CNN是处理图像识别问题的强大工具。以下是使用Keras构建简单CNN模型的一个例子：

from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# 构建模型
model = Sequential()
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(224, 224, 3)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 拟合模型（由于没有真实数据，这里不执行实际拟合）
# model.fit(augmented_images, ...)

5.3 推荐系统项目实践

5.3.1 协同过滤与内容推荐算法

推荐系统可以基于用户的行为历史来推荐内容，其中协同过滤（Collaborative Filtering）和内容推荐（Content-based Filtering）是两种常见方法。在本节中，我们将简要介绍这些方法，并在后续章节中详细讨论。

5.3.2 推荐系统的评估指标和调优策略

推荐系统的评估通常关注于准确度、召回率和F1分数等指标。以下是使用Python计算准确度的代码示例：

from sklearn.metrics import accuracy_score

# 假设真实标签和预测标签如下
true_labels = [0, 1, 1, 1, 0]
predicted_labels = [0, 1, 1, 0, 0]

# 计算准确度
accuracy = accuracy_score(true_labels, predicted_labels)
print(accuracy)

为了提高推荐系统的性能，我们可以使用网格搜索等超参数优化技术来调优模型。这通常涉及到调整模型的参数，如学习率、正则化参数等，以获得最佳的推荐质量。

本文还有配套的精品资源，点击获取