一、Transformer核心机制:自注意力(Self -Attention)
公式: Attention = softmax(QK^T/√d_k)v
运作原理:
1. Q/K/V矩阵:输入向量通过线性变换生成Query (查询)、Key(键)、Value(值)
2. 注意力权重: Softmax(QKT/√d_k) →计算词与词之间的关联度
3.输出:权重与Value加权求和 →捕获长距离依赖
-优势:并行计算、全局上下文感知
二、BERT vs GPT对比
三、梯度问题解决方案
-梯度爆炸:梯度裁剪(如阈值设为1.0)
-梯度消失:残差连接、LayerNorm(Transformer标配)
-通用策略:He初始化(ReLU适用)、BatchNorm (CNN常用)
四、归一化技术对比
BatchNorm:跨样本归一化,需维护全局统计量
→适合图像(CNN)
LayerNorm:样本内特征归一化→适合序列数据(Transformer/RNN)
五、模型加速四大方向
1.剪枝:移除冗余权重(如小于阈值的神经元)
2. 量化:FP32→INT8(推理速度↑,内存占用↓
3.蒸馏:教师→学生模型(BERT→TinyBERT)
4.轻架构:MobileNet(深度可分离卷积)
六、过拟合防御手册
- Dropout:训练随机屏蔽神经元(Transformer常用0.1)
-早停法:验证集loss上升时刹车
-数据增强:图像翻转/文本同义词替换
七、模型选型指南
-数据量小:SVM/随机森林
-高实时性:MobileNet(边缘设备友好)
-文本任务:BERT(语义理解)VSLSTM(轻量序列建模)
八、文本表示演进史
1. 统计时代:TF-IDF(关键词加权)
2. 静态向量:Word2Vec(Skip-Gram局部语义
3.动态向量:BERT(上下文敏感,如“苹果"公司vs水果)
九、优化器选Adam还是SGD?
- Adam:默认推荐(自适应学习率,收敛快)
- SGD+Momentum:调参到位时精度更优(需耐心)
十、机器学习项目闭环
1. 定义问题→分类/回归?评估指标选AUC或MAE?
2. 数据清洗 →处理缺失值/标准化
3. 模型迭代→交叉验证调参 (学习率、层数)
4. 部署优化→ ONNX转换/API封装
插播:有意向的可联系我邮箱或私信