Chaos_Wang_-CSDN博客

原创使用stable diffusion webui在本地搭建中文的AI绘图模型

最近一段时间大火的AI绘画引起了各界人士的关注，但是stable diffusion开源的都是英文的模型，本文参考封神榜团队开源的太乙模型以及相关代码，利用stable diffusion webui搭建一个中文的AI绘图模型，在本地实现AI绘画。

2022-12-07 16:20:10 27015 26

原创英伟达NVIDIA服务器显卡多实例技术（MIG）

多实例技术有点类似于vGPU，如果物理服务器安装的是vmware或者KVM这种虚拟机系统，那么如果想给每个虚拟机分配一张显卡显然显卡不够分，一般6U的服务器也就8张显卡，所以需要用到vGPU技术，将显卡虚拟化成多张显卡，而这玩意跟虚拟机系统一样是需要收费的，按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统，例如安装的是Ubuntu系统，然后采用docker等容器技术，也是需要对显卡进行多实例划分的，提高显卡的利用率。英伟达服务器显卡多实例技术（MIG）

2022-12-06 17:04:17 12635 3

原创 nvidia-smi命令详解和一些高阶技巧介绍

在深度学习等场景中，nvidia-smi命令是我们经常接触到的一个命令，用来查看GPU的占用情况，可以说是一个必须要学会的命令了，普通用户一般用的比较多的就是nvidia-smi的命令，其实掌握了这一个命令也就能够覆盖绝大多数场景了，但是本质求真务实的态度，本文调研了相关资料，整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。

2022-12-05 17:44:06 26307 4

原创【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面

内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术，将内网的一些设备的数据包进行转发，从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用，我们访问公网IP，然后公网服务器将我们访问的数据转发到内网设备的IP，内网设备将数据在转发给公网服务器，公网服务器将数据转发给本地客户机，从而实现内网穿透，在任何地方访问内网设备。

2022-12-04 14:10:27 9925

原创【NLP相关】深入理解attention机制（产生、发展、原理、应用和代码实现）

attention机制并不是一个新概念，在很久之前（90年代）就有学者提出，其最早产生并且应用在计算机视觉（CV）领域，之后在自然语言处理（NLP）领域快速发展，最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用，尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。

2020-10-22 20:45:34 18869 2

原创 DeepSeek Coder：面向编程的代码专用模型

DeepSeek Coder系列基于DeepSeek V2的Transformer骨干结构，集成了混合专家（MoE, Mixture-of-Experts）技术，以在参数规模和算力资源之间实现高效平衡。尽管DeepSeek Coder专注于编程任务，但它在保持通用语言理解能力方面同样进行了精心设计。

2025-05-02 21:02:24 200

原创 DeepSeek R1：强化学习范式的推理强化模型

DeepSeek R1 不仅以其卓越的性能震撼了业界，更为未来大模型的训练和演进指明了方向，其方法论和训练范式必将成为推动智能模型持续进化的重要力量。随后，在整个训练流程中继续保留一部分简单问答的监督任务，以巩固模型的基础能力，从而在提升推理水平的同时保持回答的稳定性。在数学题目中，R1 能够按步骤列出完整的推导过程，比如在解联立方程时，模型会依次进行移项、计算和结果验证，每一步都符合逻辑，最终得到准确答案。R1 这种自带链式解答的能力，让用户更容易理解模型的推理路径，并减少了因误解造成的错误。

2025-05-02 20:52:10 380

原创 DeepSeek V3 训练策略：FP8混合精度与多Token预测

近年来，大规模语言模型取得重大突破，但其训练与部署成本也随之攀升。DeepSeek 系列开源模型致力于通过优化模型结构和训练策略来降低成本、提升性能。DeepSeek V3 融合了多种先进技术（如 FP8 低精度训练、DualPipe 双流水线机制、多Token 预测目标等），在保证模型能力的同时大幅提高了效率。本文将分五部分详细介绍 DeepSeek V3 在高效训练框架、双流水线并行、多Token 预测、多项部署优化策略及效果与影响方面的技术实现与创新。

2025-05-01 22:42:48 216

原创 DeepSeek V3 架构创新：大规模MoE与辅助损失移除

DeepSeek 团队推出的全新模型版本，相比之前的 V2 版本，V3 的参数量从两千多亿一跃攀升到，近乎实现了参数规模的三倍增长。如此宏大的模型规模并不只是简单地堆砌参数，而是建立在稀疏混合专家（Mixture-of-Experts，MoE）结构之上。得益于 MoE 的稀疏激活机制，DeepSeek V3 在保持强大表达能力的同时，仍能将推理计算开销控制在可接受范围内。这一规模飞跃为模型带来了更强大的知识储备和推理能力，在编程、数学、逻辑推理等任务上取得了前所未有的突破表现，展现出超越以往版本的强大实力。

2025-05-01 22:23:48 387

原创 DeepSeek V2：引入MLA机制与指令对齐

由于 RoPE 会在做注意力计算时插入位置相关的旋转矩阵，如果直接在压缩后的 Key 上应用 RoPE，会使得之前可被合并的线性变换无法合并，从而失去压缩的效果。这样设计后，MLA 在保留 RoPE 带来的位置敏感信息的同时，仍然大幅削减了 KV 缓存，并无需在推理时重新计算完整的 Key/Value 计算，从而彻底减轻了长序列推理时的带宽瓶颈。它采用了类似 YaRN 的上下文扩展方法，在训练中逐步上调位置编码的尺度，使模型在 4K 训练下也能稳定泛化到 32K 甚至 128K 的推理长度。

2025-04-30 22:45:12 565

原创 DeepSeek V1：初代模型的架构与性能

本文将深入解析DeepSeek V1的架构设计与技术细节，包括其关键机制、训练优化策略，以及在各类NLP任务上的表现。

2025-04-30 22:23:13 600

原创 Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

Mixture-of-Experts（MoE，混合专家）是一种“”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时，并非激活所有专家参与运算，而是通过一个专门的（Gate Network）为每个输入少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数（稀疏激活），从而的同时保持计算开销在可控范围内。

2025-04-29 22:27:34 315

原创卷积神经网络（CNN）详解

卷积神经网络（Convolutional Neural Network，CNN）之所以在图像处理中表现突出，源于两个关键操作：卷积（Convolution）与池化（Pooling）。两者配合，增强了网络提取特征和泛化的能力。较大的卷积核虽然视野更广，但会增加大量参数，提升计算成本，并可能导致过拟合。当前趋势是使用多个小尺寸（如3x3）的卷积核叠加实现大卷积核的效果，既减少参数，又能获得更多非线性表达。这是因为奇数尺寸卷积核能明确指定中心像素，便于对称地覆盖特征图，确保卷积操作输出尺寸的对齐和特征定位准确。

2025-04-29 21:49:57 145

原创集成学习详解

Bagging是一种通过随机抽样训练多个独立模型再通过投票或平均预测结果来提升性能的集成方法。

2025-04-28 23:33:39 281

原创深度学习任务评估指标

在深度学习中，评估模型性能是至关重要的环节。不同的任务和应用场景需要不同的评估指标来衡量模型的效果。本文将介绍一些常见的评估指标，包括混淆矩阵、F1-Score、ROC曲线及相关的性能指标，并帮助大家理解它们的作用及应用。

2025-04-28 23:15:03 111

原创批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）

批量级负载均衡是一种在整个训练批次（batch）范围内计算或施加负载均衡损失或策略的方法，它关注的是整个批次中各专家的总体负载分布，而非单个序列内部的平衡。与严格的序列级平衡不同，批量级方法允许模型根据整个批次内的令牌分布动态调整路由，从而为专家提供更大的专精空间和灵活性。顺序级负载均衡则在单个序列（sequence）或微批次（micro-batch）内部计算负载平衡损失，并强制每个序列中的令牌均匀分配到所有专家，以避免序列内部出现专家过载或闲置的情况。

2025-04-27 23:01:01 215

原创大语言模型架构基础与挑战

大语言模型（Large Language Model, LLM）在近几年引领了自然语言处理领域的革命性进展。这类模型通常拥有极其庞大的参数规模（往往达到数十亿乃至数千亿级别），通过对海量文本数据进行自监督训练，展现出卓越的语言理解和生成能力。自2018年前后第一批大语言模型问世以来，基于Transformer架构的模型（如BERT和GPT系列）在各种NLP任务上取得了前所未有的成绩。大语言模型之所以能够取得成功，一方面归功于其底层强大的模型架构设计，另一方面也依赖于大规模数据训练所带来的知识获取。

2025-04-27 22:52:34 140

原创 DeepSeek预训练追求极致的训练效率的做法

DeepSeek在预训练阶段通过多种技术手段实现了极致的训练效率，其中包括采用FP8混合精度训练框架以降低计算和内存需求，创新性地引入Multi-head Latent Attention（MLA）压缩KV缓存以提升推理效率，以及基于Mixture-of-Experts（MoE）的稀疏计算架构以在保证性能的同时显著降低训练成本。通过DualPipe算法优化流水线并行，DeepSeek实现了计算与通信的高度重叠，从而几乎消除了跨节点MoE训练的通信瓶颈。

2025-04-26 23:59:26 115

原创 DeepSeek 的长上下文扩展机制

YaRN（Yet another RoPE extensioN method）是一种基于 Rotary Position Embeddings (RoPE) 的高效上下文扩展技术。它通过在自注意力模块中对位置编码进行调整，使模型能够在处理更长序列时保持原有的位置信息精度，同时显著减少计算和内存开销。在具体实现上，YaRN 只作用于解耦的共享 key（decoupled shared key），避免了对整个注意力结构的全面修改，从而最大程度地保持模型原有性能与稳定性。

2025-04-26 23:56:34 150

原创 NLP高频面试题（五十五）——DeepSeek系列概览与发展背景

在多个权威基准上，DeepSeek-V2实现了与OpenAI GPT-4-Turbo相当的性能，而推理API价格仅为后者的1/70，“性能对标GPT-4-Turbo、成本大幅降低”使其一举成名，成为开源大模型的新标杆。DeepSeek-V3展示了在超大规模数据和参数下开源模型逼近甚至追平闭源模型的可能性，同时因为采用MoE技术，其实际计算开销仅相当于同等能力稠密模型的一小部分，这凸显了架构创新在大模型发展中的价值。其发布的每个模型版本均公开了模型权重、代码和技术报告，展现出高度的学术含量和严谨性。

2025-04-25 23:56:44 315

原创 NLP高频面试题（五十四）——深度学习归一化详解

现代深度学习中出现了多种归一化技术，它们各有针对的应用场景和特点。我们下面将介绍批归一化（Batch Normalization）层归一化（Layer Normalization）组归一化（Group Normalization）等最为常见的方法，以及实例归一化（Instance Normalization）、**权重归一化（Weight Normalization）**等衍生技术。对于每种方法，我们将讨论其核心原理、计算步骤、优势与局限。

2025-04-25 22:37:54 354

原创 NLP高频面试题（五十三）——深度学习正则化详解

R1w∑i∣wi∣R1wi∑∣wi∣.它会在优化过程中倾向于将许多权重压缩为零，实现稀疏化（sparsity）。稀疏模型不仅在存储和推理时更高效，也能自动完成特征选择，因为被置零的参数对应的输入特征被认为不重要。R2w∑iwi2R2wi∑wi2它会使得权重均匀收缩，但很少将其精确推到零。相比 L1，L2 更强调平滑性（smoothness），防止任意一个权重过大，从而降低模型对某一维特征的过度依赖。

2025-04-24 23:49:54 240

原创 NLP高频面试题（五十二）——深度学习优化器详解

在深度学习的训练过程中，各种基于梯度的优化器肩负着寻找损失函数最优解的重任。最基础的梯度下降法通过沿着损失函数负梯度方向迭代更新参数，实现对模型参数的优化；而随机梯度下降（SGD）则以更高的计算效率和内存利用率在大规模数据集上大放异彩，但也因更新噪声大、易陷入鞍点或局部最优而存在局限。为克服这些问题，Momentum、Adagrad、RMSProp、Adam 等优化器相继提出，分别通过动量项、参数自适应学习率或两者结合，有效提高了收敛速度与稳定性。

2025-04-24 23:34:44 146

原创 NLP高频面试题（五十三）——LLM中激活函数详解

激活函数（Activation Function）是一种非线性映射，将神经元的加权输入及偏置进行转换后再传递给下一层。没有激活函数，无论网络有多少层，都将退化为线性模型，无法拟合复杂的自然语言规律。激活函数需满足可导性（以便反向传播）与计算效率（以利大规模模型训练与推理）等基本要求。

2025-04-23 23:06:04 138

原创 NLP高频面试题（五十二）——BERT 变体详解

跨层参数共享即让每个 Transformer 层复用同一组权重，而非为每层维护独立参数。这样，模型深度不再线性增加参数量，显著降低内存占用并提升训练效率。在前向计算中，输入依次经过相同的层函数，但由于输入内容不同，仍能实现多层表达能力。ELECTRA 创新性地用替换标记检测（Replaced Token Detection, RTD）取代 MLM：训练一个小型生成器（Generator）在输入中生成候选替换标记，然后让判别器（Discriminator）对每个位置判断该标记是真实（来自原文）还是被替换。

2025-04-23 23:01:30 312

自然语言处理文本匹配任务baseline

空空如也