
大模型推理
文章平均质量分 95
在这个专栏中,我们将探讨大模型推理的前沿技术和应用。从模型架构的设计到推理优化策略,再到实际部署中的挑战与解决方案。
yhwang-hub
还是什么也不写吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在Nvidia Jetson AGX Orin中使用TensorRT-LLM运行llama3-8b
在本指南中,我将以 Llama-3-8B-Instruct 模型为例,演示如何在 NVIDIA Jetson AGX Orin 64GB 开发者套件上使用 TensorRT-LLM 部署 LLM 推理引擎。TensorRT-LLM 是一个开源库,可加速和优化 NVIDIA AI 平台上 LLM 的推理性能。在这篇博文中,我的目标是演示如何在 NVIDIA Jetson AGX Orin 64GB 开发者套件上使用 TensorRT LLM 实现最先进的推理。命令验证您的 Hugging Face 帐户。原创 2025-01-07 15:18:41 · 1356 阅读 · 0 评论 -
大模型推理加速调研(框架、方法)
大模型推理加速的目标是高吞吐量、低延迟。吞吐量为一个系统可以并行处理的任务量。延时,指一个系统串行处理一个任务时所花费的时间。调研了一些大模型推理的框架。近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,为了将大模型部署在端侧设备中,我们需要使用一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。量化(Quantization)剪枝(Pruning)知识蒸馏(Knowledge Distillation)原创 2025-01-05 21:54:13 · 1023 阅读 · 0 评论 -
大模型高效推理综述
6.5 认识,建议和未来方向系统级优化在不降低精度的同时提高了效率,因此在大模型推理实践中越来越普遍。对推理的优化也适用于服务。最近,operator优化已经与实际服务场景紧密结合,例如,专门为前缀缓存设计的RadixAttention和加速推测解码验证的tree attention。应用和场景的迭代将不断对operator的发展提出新的要求。考虑到实际推理服务系统中固有的多方面目标,例如JCT、系统吞吐量和公平性,调度策略的设计相应地变得复杂。在请求长度不确定的大模型服务领域,现有文献通常依赖于预测原创 2025-01-05 20:42:37 · 976 阅读 · 0 评论