机器学习宝典——附录-CSDN博客

附录A：常用机器学习术语中英文对照与速记

本附录旨在帮助你快速对应中英文术语，并理解其核心内涵，这在阅读英文文献、使用开源库以及应对英文面试时至关重要。

中文术语	英文术语 (English Term)	核心内涵速记
第一部分：机器学习基石
监督学习	Supervised Learning	用“有答案”的数据（特征+标签）训练模型。
无监督学习	Unsupervised Learning	用“没有答案”的数据（只有特征）发现模式。
强化学习	Reinforcement Learning	智能体通过与环境交互，学习最优策略以获得最大奖励。
特征	Feature	描述数据的属性或特点，模型的输入。
标签	Label	我们想要预测的结果，模型的输出。
损失函数/成本函数	Loss/Cost Function	衡量模型预测值与真实值之间差距的函数。
学习率	Learning Rate	控制模型参数更新幅度的超参数，即梯度下降的步长。
特征值/特征向量	Eigenvalue / Eigenvector	描述矩阵变换方向与缩放比例的关键。PCA的核心。
贝叶斯定理	Bayes’ Theorem	$\frac{P(B\|A)P(A)}{P(B)}$ ，执果索因，后验概率的计算基础。
最大似然估计 (MLE)	Maximum Likelihood Estimation	认为已发生的事件概率最大，来反推模型参数。
最大后验概率 (MAP)	Maximum a Posteriori Estimation	在MLE基础上加入了参数的先验信念，是正则化的体现。
梯度下降法	Gradient Descent	沿着损失函数梯度的反方向，小步迭代更新参数。
第二部分：监督学习核心算法
线性回归	Linear Regression	拟合一条线（超平面）来预测一个连续值。
逻辑回归	Logistic Regression	“披着回归外衣”的二分类模型，输出属于某类的概率。
正则化	Regularization	在损失函数中加入惩罚项，防止模型过拟合。
L1 正则化 (Lasso)	L1 Regularization (Lasso)	惩罚项是参数绝对值之和，易产生稀疏解（特征选择）。
L2 正则化 (Ridge)	L2 Regularization (Ridge)	惩罚项是参数平方和，使参数趋于平滑的小值。
k-近邻算法 (k-NN)	k-Nearest Neighbors	“近朱者赤”，一个样本的类别由其最近的k个邻居投票决定。
决策树	Decision Tree	树状结构，每个内部节点表示一个属性测试，从根到叶做决策。
信息增益	Information Gain	ID3算法的划分依据，衡量一个特征区分样本的能力。
基尼不纯度	Gini Impurity	CART树的划分依据，衡量数据集随机抽样被分错的概率。
朴素贝叶斯	Naive Bayes	基于贝叶斯定理，并“朴素”地假设特征之间相互独立。
支持向量机 (SVM)	Support Vector Machine	寻找一个能将两类样本以最大“间隔”分开的超平面。
核函数 (核技巧)	Kernel Function (Kernel Trick)	在低维空间计算，实现高维空间线性划分的技巧。
集成学习	Ensemble Learning	“三个臭皮匠，顶个诸葛亮”，组合多个弱学习器构建强模型。
Bagging	Bootstrap Aggregating	并行方法，通过自助采样训练多个模型，然后投票/平均。
随机森林	Random Forest	Bagging + 决策树，并在建树时引入特征随机性。
Boosting	Boosting	串行方法，新模型重点关注前序模型做错的样本。
GBDT	Gradient Boosting Decision Tree	Boosting + 决策树，用负梯度作为残差进行拟合。
第三部分：无监督学习与数据
聚类	Clustering	将数据点分组成不同的“簇”，使簇内相似、簇间相异。
K-均值 (K-Means)	K-Means	迭代地将样本分配给最近的质心，并更新质心位置。
降维	Dimensionality Reduction	在保留主要信息的前提下，减少数据特征的数量。
主成分分析 (PCA)	Principal Component Analysis	寻找数据方差最大的方向（主成分）作为新的坐标系。
特征工程	Feature Engineering	从原始数据中提取、构建和转换特征的过程，决定模型上限。
归一化	Normalization (Min-Max Scaling)	将特征缩放到 $[0, 1]$ 区间，消除量纲影响。
标准化	Standardization (Z-score)	将特征缩放到均值为0，标准差为1的正态分布，消除量纲。
独热编码	One-Hot Encoding	将类别特征转换为多个二进制特征，解决不可比问题。
第四部分：深度学习
神经网络	Neural Network (NN)	模仿人脑神经元结构，由大量连接的节点（神经元）组成。
激活函数	Activation Function	为神经元引入非线性，使网络能学习复杂模式。
ReLU	Rectified Linear Unit	$f(x)=max⁡(0,x)f(x)=\max(0,x)$ ，最常用的激活函数，计算简单有效。
反向传播	Backpropagation	高效计算损失函数对网络各参数梯度的算法，是训练的核心。
卷积神经网络 (CNN)	Convolutional Neural Network	通过卷积、池化操作提取空间层次特征，常用于图像。
循环神经网络 (RNN)	Recurrent Neural Network	具有“记忆”能力，能处理序列数据，但有长程依赖问题。
长短期记忆网络 (LSTM)	Long Short-Term Memory	RNN的变体，通过门控机制（输入、遗忘、输出门）解决长程依赖。
Transformer	Transformer	完全基于自注意力机制的模型，并行计算能力强，已成主流。
自注意力机制	Self-Attention Mechanism	在序列内部计算不同位置的相互依赖关系，捕捉全局信息。
第五部分：模型评估与优化
混淆矩阵	Confusion Matrix	$\times 2$ 矩阵，展示了分类模型预测结果（TP, FP, TN, FN）。
精确率	Precision	$TP / (TP + FP)$ ，预测为正的样本中，到底有多少是真的正。
召回率	Recall	$TP / (TP + FN)$ ，所有真的正样本中，被模型找出来了多少。
F1 分数	F1-Score	精确率和召回率的调和平均数，综合评价指标。
ROC 曲线	Receiver Operating Characteristic Curve	以FPR为横轴，TPR(召回率)为纵轴，绘制出的曲线。
AUC	Area Under the ROC Curve	ROC曲线下的面积，衡量模型整体排序能力的指标。
偏差-方差权衡	Bias-Variance Trade-off	模型复杂度的核心矛盾：高偏差（欠拟合） vs 高方差（过拟合）。
欠拟合	Underfitting	模型太简单，没学到数据的基本规律。
过拟合	Overfitting	模型太复杂，把训练数据的噪声也学进去了。
交叉验证	Cross-Validation	将数据多次切分来训练和验证模型，得到更鲁棒的评估结果。

附录B：核心公式备忘录 (面试笔试高频)

本附录汇集了各核心算法的“灵魂”公式，是笔试手推、面试考察的重中之重。请务必理解每个符号的含义。

1. 线性模型 (Linear Models)

线性回归假设函数 (Hypothesis):
$hθ(x)=θTx=θ0+θ1x1+⋯+θnxnh_\theta(x) = \theta^T x = \theta_0 + \theta_1 x_1 + \dots + \theta_n x_n$
线性回归损失函数 (最小二乘法, MSE):
$J(θ)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$