Azure官宣支持VLLM
VLLM支持AMD芯片
支持Mixtral MoE,支持DeepSeek MoE
性能优化 (以下4招,总共将吞吐量提升50%,延迟降低40%)
1. PageAttention V2 (同一个Q,和不同的KV的计算,分散在多个SM上;计算得到了并行)
2. CUDA Graph
CPU侧,python/pytorch,改为CUDA Graphs后,可使总延迟减少40%。
3. 这是TP还是每个model独立?
4. 小数据上,使用One-shot AllReduce,比NCCL的Ring-AllReduce,更快: