华为OD技术面试高频考点(算法篇、AI方向)

一、Transformer核心机制:自注意力(Self -Attention)

公式: Attention = softmax(QK^T/√d_k)v

运作原理:

1. Q/K/V矩阵:输入向量通过线性变换生成Query (查询)、Key(键)、Value(值)

2. 注意力权重: Softmax(QKT/√d_k) →计算词与词之间的关联度

3.输出:权重与Value加权求和 →捕获长距离依赖

-优势:并行计算、全局上下文感知

二、BERT vs GPT对比

三、梯度问题解决方案

-梯度爆炸:梯度裁剪(如阈值设为1.0)

-梯度消失:残差连接、LayerNorm(Transformer标配)

-通用策略:He初始化(ReLU适用)、BatchNorm (CNN常用)

四、归一化技术对比

BatchNorm:跨样本归一化,需维护全局统计量

→适合图像(CNN)

LayerNorm:样本内特征归一化→适合序列数据(Transformer/RNN)

五、模型加速四大方向

1.剪枝:移除冗余权重(如小于阈值的神经元)

2. 量化:FP32→INT8(推理速度↑,内存占用↓

3.蒸馏:教师→学生模型(BERT→TinyBERT)

4.轻架构:MobileNet(深度可分离卷积)

六、过拟合防御手册

- Dropout:训练随机屏蔽神经元(Transformer常用0.1)

-早停法:验证集loss上升时刹车

-数据增强:图像翻转/文本同义词替换

七、模型选型指南

-数据量小:SVM/随机森林

-高实时性:MobileNet(边缘设备友好)

-文本任务:BERT(语义理解)VSLSTM(轻量序列建模)

八、文本表示演进史

1. 统计时代:TF-IDF(关键词加权)

2. 静态向量:Word2Vec(Skip-Gram局部语义

3.动态向量:BERT(上下文敏感,如“苹果"公司vs水果)

九、优化器选Adam还是SGD?

- Adam:默认推荐(自适应学习率,收敛快)

- SGD+Momentum:调参到位时精度更优(需耐心)

十、机器学习项目闭环

1. 定义问题→分类/回归?评估指标选AUC或MAE?

2. 数据清洗 →处理缺失值/标准化

3. 模型迭代→交叉验证调参 (学习率、层数)

4. 部署优化→ ONNX转换/API封装

插播:有意向的可联系我邮箱或私信

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值