文章大纲
📖 核心知识点:
- 分布式训练与推理:了解DeepSpeed、FSDP等分布式训练策略,以及TensorRT、ONNX等模型部署优化技术。
- 模型量化:训练后量化(PTQ)与量化感知训练(QAT)的区别与实现。
- 系统设计:如何设计一个高可用、可扩展的AI Agent或大模型服务平台,考虑微服务、缓存、监控、安全等因素。
❓ 高频面试题:
- 如何让大模型处理更长的文本?
- 有哪些省内存的大模型训练/微调/推理方法?
- 如果想在全参数微调,需要多少显存?
- 如何进行模型的分布式训练和推理优化?
- 如何设计一个支持高并发访问的RAG系统?
🔗 相关GitHub资源:
- DeepSpeed: https://github.com/microsoft/DeepSpeed - 微软开发的深度学习优化库,支持高效的大模型训练和推理。
- TensorRT: https://gith