
分布式训练
文章平均质量分 81
大模型之分布式训练
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM推理】Sglang推理框架使用入门
Sglang启动推理服务(1)安装:`pip install "sglang[all]>=0.4.6.post1"`,截止20250705能用(2)下面是一个基础的启动推理服务的例子,相关重要的参数有:- 该推理服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下,它将在 http://localhost:30000 启动服务器。您可以通过 --host 和 --port 参数来自定义地址。- `tensor-parallel-size`:使用张量并行的分布式推理,下面设置为4就是原创 2025-07-05 16:39:22 · 1440 阅读 · 0 评论 -
【LLM】MOE混合专家大模型综述(重要模块&原理)
定义expert类:由线性层和激活函数构成- 定义MOE类: - self.num_experts:专家的数量,也就是上面提到的“并列线性层”的个数,训练后的每个专家的权重都是不同的,代表它们所掌握的“知识”是不同的。 - self.top_k:每个输入token激活的专家数量。 - self.expert_capacity:代表计算每组token时,每个专家能被选择的最多次数。 - self.gate:路由网络,一般是一个线性层,用来计算每个专家被选择的概率。 - self.experts:实原创 2025-04-30 23:43:21 · 1673 阅读 · 0 评论 -
【LLM训练框架】deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但是训练速度特别慢,于是deepseed就把autoTP+zero1这个方案提出来了,TP的优势是拆模型原创 2025-04-15 11:52:14 · 449 阅读 · 0 评论 -
【LLM】DeepSeek开源技术汇总
一、FlashMLA:MLA解码内核二、DeepEP:针对MoE和EP的通信库三、DeepGEMM:FP8 通用矩阵乘法(GEMM)库四、DualPipe、EPLB:双向管道并行算法五、3FS:一种高性能分布式文件系统原创 2025-02-28 22:50:36 · 1636 阅读 · 0 评论 -
【LLM】deepseek v3模型和MiniMax-01的对比
#note-DeepSeek-V3是一个混合专家(MoE)语言模型,整体参数规模达到671B,其中每个token激活的参数量为37B。评估结果表明,DeepSeek-V3在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。-基于DeepSeek-V2,团队采用了多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效推理和经济的训练。模型在延续MLA和DeepSeekMoE架构优势的基础上,创新性地提出了无辅助损失负载均衡策略,并引入多token预测训原创 2025-01-04 16:17:50 · 1837 阅读 · 0 评论 -
【LLM】GLM长文本训练(数据、流程、infra)
GLM融合packing和sorted batching的优点,提出sorted packing训练方法:根据计算量来构建同一批次内的 Pack,确保同一批次中各个 Pack 数据的计算量相近,从而减少了气泡时间。此外,我们还引入了梯度累积技术,以避免排序带来的偏差长短文本混合 SFT 的高效训练方法主要有两种:Packing 和 Sorted Batching。Sorted Batching 可能会引入某些先验知识,即同一批次内的数据长度趋于一致,这有可能导致不良的训练效果。相比之下,Packing 策原创 2024-08-25 20:06:47 · 1865 阅读 · 1 评论 -
【智源大会2024】(一)智源技术专题
1.千万级数据集: BAAI创建了首个千万级别的高质量开源指令微调数据集。2.模型性能与数据质量: 强调了模型性能与数据质量之间的高度相关性。3.技术亮点: - 使用了高质量的指令数据筛选与合成技术。 - 这些技术显著提升了模型遵循指令的能力。4.性能比较: - 提到综合性能达到了GPT-4的水平。 - 1000条高质量数据微调的效果可以超过52,000条普通数据。5.数据集评估: - 使用了AlpacaEval和MT-Bench等评估工具来筛选数据。原创 2024-06-15 11:03:34 · 409 阅读 · 0 评论 -
【LLM硬件】V100、A100、A800、H100参数对比
NVIDIA GPU 的核心参数:CUDA Core:CUDA Core 是 NVIDIA GPU上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。Tensor Core:Tensor Core 是 NVIDIA Volta 架构及其后续架构(如Ampere架构)中引入的一种特殊计算单元。它们专门用于原创 2024-04-27 14:17:55 · 2427 阅读 · 2 评论 -
解决nvidia-smi无进程,但GPU显存被占用的情况
# 一、问题描述如题,解决nvidia-smi无进程,但GPU显存被占用的情况。# 二、解决方案```python# 查看没有显示出来的进程fuser -v /dev/nvidia*# Kill掉sudo kill -9 pid```如果要`kill`的进程特别多,可以用以下的python脚本:```pythonimport ospid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))kill_cmd =原创 2024-03-24 10:35:44 · 1726 阅读 · 1 评论 -
【LLM加速】注意力优化(基于位置/内容的稀疏注意力 | flashattention)
note(1)近似注意力:Routing Transformer采用K-means 聚类方法,针对Query和Key进行聚类,类中心向量集合为 其中k 是类中心的个数。每个Query 只与其处在相同簇 (Cluster) 下的Key 进行交互。Reformer 则采用局部敏感哈希 (Local-Sensitive Hashing,LSH) 的方法为每个Query 选择Key-Value 对。其主要思想是使用LSH 函数对原创 2024-03-16 17:15:49 · 2463 阅读 · 0 评论 -
【Pytorch基础教程41】DeepSpeed分布式训练框架
在 DeepSpeed 中,可以通过在配置文件中设置 “bf16.enabled”: true 来启用 BF16 混合精度训练,减少占用内存。混合精度训练是指在训练过程中同时使用FP16(半精度浮点数)和FP32(单精度浮点数)两种精度的技术。deepspeed可以根据具体情况选择合适的通信库,例如在 CPU 集群上进行分布式训练,可以选择 mpi 和 gloo;如果是在 GPU 上进行分布式训练,可以选择 nccl。mpi 是一种跨节点通信库,常用于 CPU 集群上的分布式训练;gloo 是一种高原创 2023-07-10 12:29:53 · 14717 阅读 · 5 评论 -
【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架
当前比较主流的一些分布式计算框架 DeepSpeed、Megatron 等,都在降低显存方面做了很多优化工作,比如:量化、模型切分、混合精度计算、Memory Offload 等文章目录note大模型参数计算1. 模型参数单位2. 训练显存计算3. 推理显存计算大模型的分布式训练1. 数据并行2. 模型并行3. 流水并行4. 混合并行模型量化DeepSpeed ZeRO:零冗余优化DeepSpeed Chatfastertransformer:LLM推理加速引擎Megatro原创 2023-09-19 00:24:34 · 6173 阅读 · 0 评论