超全总结！大模型算法岗面试指南来了！

最新推荐文章于 2025-02-10 21:38:39 发布

机器学习社区

最新推荐文章于 2025-02-10 21:38:39 发布

阅读量2.1k

点赞数 56

分类专栏：大模型文章标签：算法面试职场和发展大模型检索增强生成人工智能 LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59596990/article/details/136006358

版权

大模型专栏收录该内容

261 篇文章

订阅专栏

大家好，从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的大模型不断涌现。可以说，LLMs 的研究在学界和业界都得到了很大的推进，尤其2022年11月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。

近些年，在大规模语料库上预训练 Transformer 模型产生了预训练语言模型（PLMs），并在解决各类 NLP 任务上展现出了强大的能力。

当参数规模超过一定水平时，这个更大的语言模型实现了显著的性能提升，并展现出小模型中不存在的能力，比如上下文学习。为了区别于 PLM，这类模型被称为大型语言模型（LLMs）。

为了让大家更容易上车大模型赛道，最近技术群组织了一场算法面试讨论会，结合我们技术群小伙伴的面试分享和自己的面试经验，对大模型常考的面试题归纳为：大模型基础，大模型参数微调、训练、推理，大模型应用框架，大模型分布式训练，其他等内容

喜欢本文，喜欢记得收藏、关注、点赞，喜欢技术交流，文末加入我们

大模型基础

你比较关注那些主流的开源大模型？
目前大模型模型结构都有那些？
prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？
模型幻觉是什么？业内解决方案是什么？
大模型的 Tokenizer 的实现方法及原理？
ChatGLM3 的词表实现方法？
GPT3、LLAMA、Chatglm 的Layer Normalization 的区别是什么？各自的优缺点是什么？
大模型常用的激活函数有那些？
Multi-query Attention 与 Grouped-query Attention 是否了解？区别是什么？
多模态大模型是否有接触？落地案例？

大模型参数微调、训练、推理

为什么需要进行参选微调？参数微调的有点有那些？
模型参数微调的方式有那些？你最常用那些方法？
prompt tuning 和 prefix tuning 在微调上的区别是什么？
LLaMA-adapter 如何实现稳定训练？
LoRA 原理与使用技巧有那些？
LoRA 微调优点是什么？
AdaLoRA 的思路是怎么样的？
LoRA 权重合入chatglm模型的方法？
P-tuning 讲一下？与 P-tuning v2 区别在哪里？优点与缺点？
为什么SFT之后感觉LLM傻了?
垂直领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
进行SFT操作的时候，基座模型选用Chat还是Base?
领域模型词表扩增是不是有必要的？
训练中文大模型的经验和方法
模型微调用的什么模型？模型参数是多少？微调模型需要多大显存？
预训练和SFT操作有什么不同？
训练一个通用大模型的流程有那些
DDO 与 DPO 的区别是什么？
是否接触过 embeding 模型的微调方法
有哪些省内存的大语言模型训练/微调/推理方法？
大模型（LLMs）评测有那些方法？如何衡量大模型的效果？
如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
模型训练的数据集问题：一般数据集哪里找？
为什么需要进行模型量化及原理？
大模型词表扩充的方法及工具？

大模型应用框架

什么是 LangChain?
什么是 LangChain Agent?
什么是 LangChain model?
除了 LangChain，是否了解其他框架？
是否有基于LangChain 搭建大模型应用的经验，请详细说明？
搭建大模型应用遇到过那些问题？如何解决的？
如何提升大模型的检索效果
是否了解上下文压缩方法？
如何实现窗口上下文检索？
开源的 RAG 框架有哪些，你比较了解？
大模型应用框架 LangChain 和 LlamaIndex 各种的优势有那些？
你使用的向量库有那些？各自有点与区别？
使用外部知识数据库时需要对文档进行分块，如何科学的设置文档块的大小？
LLMs 受到上下文长度的限制，如果检索到的文档带有太多噪声，该如何解决这样的问题？
RAG（检索增强生成）对于大模型来说，有什么好处？

大模型分布式训练

大模型进行训练，你用的是什么框架？
业内常用的分布式AI框架，你什么了解？
数据并行、张量并行、流水线并行的原理及区别？
推理优化技术 Flash Attention 的作用是什么？
推理优化技术 Paged Attention 的作用是什么？
CPU-offload，ZeRO-offload 了解?
ZeRO，零冗余优化器的三个阶段？
混合精度训练的优点是什么？可能带来什么问题？
Megatron-DeepSpeed 方法？
Megatron-LM 方法

其他

你GPU服务器用的那些？
是否使用过国产GPU服务器？
是否部署过Docker 和 k8s ?
Linux 常见命令大全
Docker 常用命令大全
Kubernetes 常用命令大全
平时使用的开发语言是什么？

技术交流

技术要学会分享、交流，不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型面试&技术交流群， 大模型学习资料、数据代码、技术交流提升，均可加知识星球交流群获取，群友已超过2000人，添加时切记的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2060，备注：技术交流

用通俗易懂的方式讲解系列

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。