附录A:常用机器学习术语中英文对照与速记
本附录旨在帮助你快速对应中英文术语,并理解其核心内涵,这在阅读英文文献、使用开源库以及应对英文面试时至关重要。
中文术语 | 英文术语 (English Term) | 核心内涵速记 |
---|---|---|
第一部分:机器学习基石 | ||
监督学习 | Supervised Learning | 用“有答案”的数据(特征+标签)训练模型。 |
无监督学习 | Unsupervised Learning | 用“没有答案”的数据(只有特征)发现模式。 |
强化学习 | Reinforcement Learning | 智能体通过与环境交互,学习最优策略以获得最大奖励。 |
特征 | Feature | 描述数据的属性或特点,模型的输入。 |
标签 | Label | 我们想要预测的结果,模型的输出。 |
损失函数/成本函数 | Loss/Cost Function | 衡量模型预测值与真实值之间差距的函数。 |
学习率 | Learning Rate | 控制模型参数更新幅度的超参数,即梯度下降的步长。 |
特征值/特征向量 | Eigenvalue / Eigenvector | 描述矩阵变换方向与缩放比例的关键。PCA的核心。 |
贝叶斯定理 | Bayes’ Theorem | P(A∣B)=P(B∣A)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A),执果索因,后验概率的计算基础。 |
最大似然估计 (MLE) | Maximum Likelihood Estimation | 认为已发生的事件概率最大,来反推模型参数。 |
最大后验概率 (MAP) | Maximum a Posteriori Estimation | 在MLE基础上加入了参数的先验信念,是正则化的体现。 |
梯度下降法 | Gradient Descent | 沿着损失函数梯度的反方向,小步迭代更新参数。 |
第二部分:监督学习核心算法 | ||
线性回归 | Linear Regression | 拟合一条线(超平面)来预测一个连续值。 |
逻辑回归 | Logistic Regression | “披着回归外衣”的二分类模型,输出属于某类的概率。 |
正则化 | Regularization | 在损失函数中加入惩罚项,防止模型过拟合。 |
L1 正则化 (Lasso) | L1 Regularization (Lasso) | 惩罚项是参数绝对值之和,易产生稀疏解(特征选择)。 |
L2 正则化 (Ridge) | L2 Regularization (Ridge) | 惩罚项是参数平方和,使参数趋于平滑的小值。 |
k-近邻算法 (k-NN) | k-Nearest Neighbors | “近朱者赤”,一个样本的类别由其最近的k个邻居投票决定。 |
决策树 | Decision Tree | 树状结构,每个内部节点表示一个属性测试,从根到叶做决策。 |
信息增益 | Information Gain | ID3算法的划分依据,衡量一个特征区分样本的能力。 |
基尼不纯度 | Gini Impurity | CART树的划分依据,衡量数据集随机抽样被分错的概率。 |
朴素贝叶斯 | Naive Bayes | 基于贝叶斯定理,并“朴素”地假设特征之间相互独立。 |
支持向量机 (SVM) | Support Vector Machine | 寻找一个能将两类样本以最大“间隔”分开的超平面。 |
核函数 (核技巧) | Kernel Function (Kernel Trick) | 在低维空间计算,实现高维空间线性划分的技巧。 |
集成学习 | Ensemble Learning | “三个臭皮匠,顶个诸葛亮”,组合多个弱学习器构建强模型。 |
Bagging | Bootstrap Aggregating | 并行方法,通过自助采样训练多个模型,然后投票/平均。 |
随机森林 | Random Forest | Bagging + 决策树,并在建树时引入特征随机性。 |
Boosting | Boosting | 串行方法,新模型重点关注前序模型做错的样本。 |
GBDT | Gradient Boosting Decision Tree | Boosting + 决策树,用负梯度作为残差进行拟合。 |
第三部分:无监督学习与数据 | ||
聚类 | Clustering | 将数据点分组成不同的“簇”,使簇内相似、簇间相异。 |
K-均值 (K-Means) | K-Means | 迭代地将样本分配给最近的质心,并更新质心位置。 |
降维 | Dimensionality Reduction | 在保留主要信息的前提下,减少数据特征的数量。 |
主成分分析 (PCA) | Principal Component Analysis | 寻找数据方差最大的方向(主成分)作为新的坐标系。 |
特征工程 | Feature Engineering | 从原始数据中提取、构建和转换特征的过程,决定模型上限。 |
归一化 | Normalization (Min-Max Scaling) | 将特征缩放到 [0,1][0, 1][0,1] 区间,消除量纲影响。 |
标准化 | Standardization (Z-score) | 将特征缩放到均值为0,标准差为1的正态分布,消除量纲。 |
独热编码 | One-Hot Encoding | 将类别特征转换为多个二进制特征,解决不可比问题。 |
第四部分:深度学习 | ||
神经网络 | Neural Network (NN) | 模仿人脑神经元结构,由大量连接的节点(神经元)组成。 |
激活函数 | Activation Function | 为神经元引入非线性,使网络能学习复杂模式。 |
ReLU | Rectified Linear Unit | f(x)=max(0,x)f(x)=\max(0,x)f(x)=max(0,x),最常用的激活函数,计算简单有效。 |
反向传播 | Backpropagation | 高效计算损失函数对网络各参数梯度的算法,是训练的核心。 |
卷积神经网络 (CNN) | Convolutional Neural Network | 通过卷积、池化操作提取空间层次特征,常用于图像。 |
循环神经网络 (RNN) | Recurrent Neural Network | 具有“记忆”能力,能处理序列数据,但有长程依赖问题。 |
长短期记忆网络 (LSTM) | Long Short-Term Memory | RNN的变体,通过门控机制(输入、遗忘、输出门)解决长程依赖。 |
Transformer | Transformer | 完全基于自注意力机制的模型,并行计算能力强,已成主流。 |
自注意力机制 | Self-Attention Mechanism | 在序列内部计算不同位置的相互依赖关系,捕捉全局信息。 |
第五部分:模型评估与优化 | ||
混淆矩阵 | Confusion Matrix | 2×22 \times 22×2 矩阵,展示了分类模型预测结果(TP, FP, TN, FN)。 |
精确率 | Precision | TP/(TP+FP)TP/(TP+FP)TP/(TP+FP),预测为正的样本中,到底有多少是真的正。 |
召回率 | Recall | TP/(TP+FN)TP/(TP+FN)TP/(TP+FN),所有真的正样本中,被模型找出来了多少。 |
F1 分数 | F1-Score | 精确率和召回率的调和平均数,综合评价指标。 |
ROC 曲线 | Receiver Operating Characteristic Curve | 以FPR为横轴,TPR(召回率)为纵轴,绘制出的曲线。 |
AUC | Area Under the ROC Curve | ROC曲线下的面积,衡量模型整体排序能力的指标。 |
偏差-方差权衡 | Bias-Variance Trade-off | 模型复杂度的核心矛盾:高偏差(欠拟合) vs 高方差(过拟合)。 |
欠拟合 | Underfitting | 模型太简单,没学到数据的基本规律。 |
过拟合 | Overfitting | 模型太复杂,把训练数据的噪声也学进去了。 |
交叉验证 | Cross-Validation | 将数据多次切分来训练和验证模型,得到更鲁棒的评估结果。 |
附录B:核心公式备忘录 (面试笔试高频)
本附录汇集了各核心算法的“灵魂”公式,是笔试手推、面试考察的重中之重。请务必理解每个符号的含义。
1. 线性模型 (Linear Models)
-
线性回归假设函数 (Hypothesis):
hθ(x)=θTx=θ0+θ1x1+⋯+θnxnh_\theta(x) = \theta^T x = \theta_0 + \theta_1 x_1 + \dots + \theta_n x_nhθ(x)=θTx=θ0+θ1x1+⋯+θnxn -
线性回归损失函数 (最小二乘法, MSE):
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2J(θ)=2m1i=1∑m(hθ(x(i))−y