机器学习期末复习题

南笙，

已于 2023-06-19 08:30:49 修改

阅读量7.3k

点赞数 43

CC 4.0 BY-SA版权

文章标签： python 机器学习

于 2023-06-17 11:13:59 首次发布

本文链接：https://blog.csdn.net/wfs66/article/details/131257994

本文介绍了过拟合和欠拟合的概念及处理方法，包括获取更多数据、降维、正则化等。探讨了10次10折交叉验证的作用，以及预剪枝和后剪枝在决策树构建中的差异。此外，解释了支持向量机中的支持向量和稀疏性，K-means聚类的流程及其优缺点，以及维数灾难和缓解技术。还涉及有监督和无监督学习的区别，以及泛化误差和经验误差的概念。最后，提到了决策树生成的流程和聚类算法的性能度量，以及PCA降维的选定方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.解释什么是过拟合和欠拟合，怎么降低过拟合

过拟合：在训练集中表现的特别优秀，贴合训练数据的特征，但是没有泛化能力，在新的数据集中无法做出准确的预测。

欠拟合：由于训练模型过于简单没有提取到测试样本的特性，无法拟合被测样本。

过拟合的处理：1.获得更多的训练数据2.降维3.正则化4.集成学习方法

欠拟合的处理：1.添加新特征2.增加模型复杂度3.适当减小正则化系数

2.什么是10次10折交叉验证?为什么要这么设计?

10折交叉验证(10-fold cross validation)，将数据集分成十份，轮流将其中9份做训练1份做验证，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10折交叉验证求均值，例如：10次10折交叉验证，以求更精确一点。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次。

3．什么是预剪枝和后剪枝?从时间开销、过拟合欠拟合风险，泛化性能等角度来讨论起两

种方式的差异.

·预剪枝(pre-pruning):提前终止某些分支的生长

·后剪枝(post-pruning):生成一棵完全树，再“回头”剪枝

时间开销：

预剪枝：训练时间开销降低，测试时间开销降低

后剪枝：训练时间开销增加，测试时间开销降低

过/欠拟合风险：

预剪枝：过拟合风险降低，欠拟合风险增加

后剪枝：过拟合风险降低，欠拟合风险基本不变

泛化性能：后剪枝通常优于预剪枝

4.什么支持向量?利用KKT条件分析硬间隔支持向量机的解具有稀疏性?

支持向量：在支持向量机（SVM）中，支持向量是指距离超平面最近的一些训练样本点。它们对于定义超平面的位置和方向起着关键作用。

利用KKT条件分析硬间隔支持向量机的解具有稀疏性，是因为大多数样本的拉格朗日乘子为零，只有少数支持向量对最优解和决策函数起作用。

5.简单描述下K-means聚类流程，该聚类算法的优点和缺点。

每个簇以该簇中所有样本点的“均值”表示

Step1:随机选取k个样本点作为簇中心

Step2:将其他样本点根据其与簇中心的距离，划分给最近的簇

Step3:更新各簇的均值向量，将其作为新的簇中心

Step4:若所有簇中心未发生改变，则停止；否则执行Step 2

优点：简单高效、可拓展性、可解释性

缺点：对初始聚类中心点敏感、需要预先指定聚类数量、对异常值和噪声敏感、仅适用于欧氏距离度量

6.什么是维数灾难?缓解维数灾难的两大主流技术分别是什么?

维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。

缓解维数灾难的技术:特征选取、降维

7.在特征选择中,为什么L1范数能比L2范数获得稀疏解?

L1范数是向量各元素的绝对值之和，L2范数是向量各元素的平方和的平方根。

L1范数能产生稀疏解，是因为它的最优解往往在某些轴上为0，而L2范数的最优解往往在所有轴上都不为0。
L1范数能够实现特征选择，是因为它会使得一些不重要的特征的系数变为0，从而剔除掉

8．什么是有监督学习和无监督学习，在数据输入上有什么区别?请简单举例说明

有监督学习是指根据给定的输入-输出对（即带有标签的数据）进行学习的过程，目标是找到一个模型，使得该模型在输入训练样本时能够产生尽可能接近真实标签的输出。而无监督学习是指在没有给定输出标签的情况下，根据输入数据的内在结构和关系进行学习的过程，目标是发现数据的内在结构。

输入数据有标签，则为有监督学习；没标签则为无监督学习。线性回归、神经网络决策树、支持向量机等为有监督学习。聚类和降维为无监督学习。

9.什么是泛化误差和经验误差，是不是越小越好?为什么?

经验误差是指模型在训练集上的误差，又称为训练误差。

泛化误差使指模型在“未来”样本集上的误差。

泛化误差越小越好，因为我们训练模型的目的就是为了通过模型进行一定的预测，预测的越准确越好，对应的就是泛化误差越小越好。

经验误差不是越小越好，因为如果训练误差过小会导致模型过拟合，此时，模型不具备很好的泛化能力。

10．决策树生成的基本流程，其三个停止条件式什么?

基本流程

策略：“分而治之”(divide-and-conquer)自根至叶的递归过程在每个中间结点寻找一个“划分”(split or test)属性

三种停止条件：

(1)当前结点包含的样本全属于同一类别，无需划分；

(2)当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；

(3)当前结点包含的样本集合为空，不能划分.

11.聚类算法的两大性能度量指标是什么?其简单举例说明

聚类性能度量：
聚类算法的两大性能度量指标是内部指标和外部指标。内部指标是根据聚类结果本身来评价聚类算法的优劣，比如SSE（误差平方和：计算每个样本到其所属簇的中心点的距离平方和（越小越好））、轮廓系数、Calinski-Harabaz系数等。
外部指标是根据聚类结果和已知的参考标准（如真实的类别标签）来比较，从而衡量聚类算法的性能，比如准确率（越高越好）、召回率、F1值等。

12.以PCA为例，维度个数的选定有几种方式?

累计贡献法、交叉验证法、平均方差法、拐点法

13.简单描述下PCA算法流程。

PCA算法流程大致如下：

输入：样本集D={x1，x2，.....,xm}

低维空间维数：d'

过程

1.对所有样本进行中心化

2.计算样本的协方差矩阵

3对协方差矩阵做特征值分解

4.取最大的d'个特征值对应的特征向量组成投影矩阵并输出

14．降维和特征选择的相同和不同之处?