- 博客(229)
- 收藏
- 关注

原创 使用stable diffusion webui在本地搭建中文的AI绘图模型
最近一段时间大火的AI绘画引起了各界人士的关注,但是stable diffusion开源的都是英文的模型,本文参考封神榜团队开源的太乙模型以及相关代码,利用stable diffusion webui搭建一个中文的AI绘图模型,在本地实现AI绘画。
2022-12-07 16:20:10
27015
26

原创 英伟达NVIDIA服务器显卡多实例技术(MIG)
多实例技术有点类似于vGPU,如果物理服务器安装的是vmware或者KVM这种虚拟机系统,那么如果想给每个虚拟机分配一张显卡显然显卡不够分,一般6U的服务器也就8张显卡,所以需要用到vGPU技术,将显卡虚拟化成多张显卡,而这玩意跟虚拟机系统一样是需要收费的,按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统,例如安装的是Ubuntu系统,然后采用docker等容器技术,也是需要对显卡进行多实例划分的,提高显卡的利用率。英伟达服务器显卡多实例技术(MIG)
2022-12-06 17:04:17
12635
3

原创 nvidia-smi命令详解和一些高阶技巧介绍
在深度学习等场景中,nvidia-smi命令是我们经常接触到的一个命令,用来查看GPU的占用情况,可以说是一个必须要学会的命令了,普通用户一般用的比较多的就是nvidia-smi的命令,其实掌握了这一个命令也就能够覆盖绝大多数场景了,但是本质求真务实的态度,本文调研了相关资料,整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。
2022-12-05 17:44:06
26307
4

原创 【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面
内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术,将内网的一些设备的数据包进行转发,从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用,我们访问公网IP,然后公网服务器将我们访问的数据转发到内网设备的IP,内网设备将数据在转发给公网服务器,公网服务器将数据转发给本地客户机,从而实现内网穿透,在任何地方访问内网设备。
2022-12-04 14:10:27
9925

原创 【NLP相关】深入理解attention机制(产生、发展、原理、应用和代码实现)
attention机制并不是一个新概念,在很久之前(90年代)就有学者提出,其最早产生并且应用在计算机视觉(CV)领域,之后在自然语言处理(NLP)领域快速发展,最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用,尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。
2020-10-22 20:45:34
18869
2
原创 DeepSeek Coder:面向编程的代码专用模型
DeepSeek Coder系列基于DeepSeek V2的Transformer骨干结构,集成了混合专家(MoE, Mixture-of-Experts)技术,以在参数规模和算力资源之间实现高效平衡。尽管DeepSeek Coder专注于编程任务,但它在保持通用语言理解能力方面同样进行了精心设计。
2025-05-02 21:02:24
200
原创 DeepSeek R1:强化学习范式的推理强化模型
DeepSeek R1 不仅以其卓越的性能震撼了业界,更为未来大模型的训练和演进指明了方向,其方法论和训练范式必将成为推动智能模型持续进化的重要力量。随后,在整个训练流程中继续保留一部分简单问答的监督任务,以巩固模型的基础能力,从而在提升推理水平的同时保持回答的稳定性。在数学题目中,R1 能够按步骤列出完整的推导过程,比如在解联立方程时,模型会依次进行移项、计算和结果验证,每一步都符合逻辑,最终得到准确答案。R1 这种自带链式解答的能力,让用户更容易理解模型的推理路径,并减少了因误解造成的错误。
2025-05-02 20:52:10
380
原创 DeepSeek V3 训练策略:FP8混合精度与多Token预测
近年来,大规模语言模型取得重大突破,但其训练与部署成本也随之攀升。DeepSeek 系列开源模型致力于通过优化模型结构和训练策略来降低成本、提升性能。DeepSeek V3 融合了多种先进技术(如 FP8 低精度训练、DualPipe 双流水线机制、多Token 预测目标等),在保证模型能力的同时大幅提高了效率。本文将分五部分详细介绍 DeepSeek V3 在高效训练框架、双流水线并行、多Token 预测、多项部署优化策略及效果与影响方面的技术实现与创新。
2025-05-01 22:42:48
216
原创 DeepSeek V3 架构创新:大规模MoE与辅助损失移除
DeepSeek 团队推出的全新模型版本,相比之前的 V2 版本,V3 的参数量从两千多亿一跃攀升到,近乎实现了参数规模的三倍增长。如此宏大的模型规模并不只是简单地堆砌参数,而是建立在稀疏混合专家(Mixture-of-Experts,MoE)结构之上。得益于 MoE 的稀疏激活机制,DeepSeek V3 在保持强大表达能力的同时,仍能将推理计算开销控制在可接受范围内。这一规模飞跃为模型带来了更强大的知识储备和推理能力,在编程、数学、逻辑推理等任务上取得了前所未有的突破表现,展现出超越以往版本的强大实力。
2025-05-01 22:23:48
387
原创 DeepSeek V2:引入MLA机制与指令对齐
由于 RoPE 会在做注意力计算时插入位置相关的旋转矩阵,如果直接在压缩后的 Key 上应用 RoPE,会使得之前可被合并的线性变换无法合并,从而失去压缩的效果。这样设计后,MLA 在保留 RoPE 带来的位置敏感信息的同时,仍然大幅削减了 KV 缓存,并无需在推理时重新计算完整的 Key/Value 计算,从而彻底减轻了长序列推理时的带宽瓶颈。它采用了类似 YaRN 的上下文扩展方法,在训练中逐步上调位置编码的尺度,使模型在 4K 训练下也能稳定泛化到 32K 甚至 128K 的推理长度。
2025-04-30 22:45:12
565
原创 DeepSeek V1:初代模型的架构与性能
本文将深入解析DeepSeek V1的架构设计与技术细节,包括其关键机制、训练优化策略,以及在各类NLP任务上的表现。
2025-04-30 22:23:13
600
原创 Mixture-of-Experts(MoE)原理与在DeepSeek中的应用
Mixture-of-Experts(MoE,混合专家)是一种“”的神经网络架构思想。在MoE模型中,存在多个并行的子网络,被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时,并非激活所有专家参与运算,而是通过一个专门的(Gate Network)为每个输入少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数(稀疏激活),从而的同时保持计算开销在可控范围内。
2025-04-29 22:27:34
315
原创 卷积神经网络(CNN)详解
卷积神经网络(Convolutional Neural Network,CNN)之所以在图像处理中表现突出,源于两个关键操作:卷积(Convolution)与池化(Pooling)。两者配合,增强了网络提取特征和泛化的能力。较大的卷积核虽然视野更广,但会增加大量参数,提升计算成本,并可能导致过拟合。当前趋势是使用多个小尺寸(如3x3)的卷积核叠加实现大卷积核的效果,既减少参数,又能获得更多非线性表达。这是因为奇数尺寸卷积核能明确指定中心像素,便于对称地覆盖特征图,确保卷积操作输出尺寸的对齐和特征定位准确。
2025-04-29 21:49:57
145
原创 深度学习任务评估指标
在深度学习中,评估模型性能是至关重要的环节。不同的任务和应用场景需要不同的评估指标来衡量模型的效果。本文将介绍一些常见的评估指标,包括混淆矩阵、F1-Score、ROC曲线及相关的性能指标,并帮助大家理解它们的作用及应用。
2025-04-28 23:15:03
111
原创 批量级负载均衡(Batch-Wise Load Balance)和顺序级负载均衡(Sequence-Wise Load Balance)
批量级负载均衡是一种在整个训练批次(batch)范围内计算或施加负载均衡损失或策略的方法,它关注的是整个批次中各专家的总体负载分布,而非单个序列内部的平衡。与严格的序列级平衡不同,批量级方法允许模型根据整个批次内的令牌分布动态调整路由,从而为专家提供更大的专精空间和灵活性。顺序级负载均衡则在单个序列(sequence)或微批次(micro-batch)内部计算负载平衡损失,并强制每个序列中的令牌均匀分配到所有专家,以避免序列内部出现专家过载或闲置的情况。
2025-04-27 23:01:01
215
原创 大语言模型架构基础与挑战
大语言模型(Large Language Model, LLM)在近几年引领了自然语言处理领域的革命性进展。这类模型通常拥有极其庞大的参数规模(往往达到数十亿乃至数千亿级别),通过对海量文本数据进行自监督训练,展现出卓越的语言理解和生成能力。自2018年前后第一批大语言模型问世以来,基于Transformer架构的模型(如BERT和GPT系列)在各种NLP任务上取得了前所未有的成绩。大语言模型之所以能够取得成功,一方面归功于其底层强大的模型架构设计,另一方面也依赖于大规模数据训练所带来的知识获取。
2025-04-27 22:52:34
140
原创 DeepSeek预训练追求极致的训练效率的做法
DeepSeek在预训练阶段通过多种技术手段实现了极致的训练效率,其中包括采用FP8混合精度训练框架以降低计算和内存需求 ,创新性地引入Multi-head Latent Attention(MLA)压缩KV缓存以提升推理效率,以及基于Mixture-of-Experts(MoE)的稀疏计算架构以在保证性能的同时显著降低训练成本。通过DualPipe算法优化流水线并行,DeepSeek实现了计算与通信的高度重叠,从而几乎消除了跨节点MoE训练的通信瓶颈。
2025-04-26 23:59:26
115
原创 DeepSeek 的长上下文扩展机制
YaRN(Yet another RoPE extensioN method)是一种基于 Rotary Position Embeddings (RoPE) 的高效上下文扩展技术。它通过在自注意力模块中对位置编码进行调整,使模型能够在处理更长序列时保持原有的位置信息精度,同时显著减少计算和内存开销。在具体实现上,YaRN 只作用于解耦的共享 key(decoupled shared key),避免了对整个注意力结构的全面修改,从而最大程度地保持模型原有性能与稳定性。
2025-04-26 23:56:34
150
原创 NLP高频面试题(五十五)——DeepSeek系列概览与发展背景
在多个权威基准上,DeepSeek-V2实现了与OpenAI GPT-4-Turbo相当的性能,而推理API价格仅为后者的1/70,“性能对标GPT-4-Turbo、成本大幅降低”使其一举成名,成为开源大模型的新标杆。DeepSeek-V3展示了在超大规模数据和参数下开源模型逼近甚至追平闭源模型的可能性,同时因为采用MoE技术,其实际计算开销仅相当于同等能力稠密模型的一小部分,这凸显了架构创新在大模型发展中的价值。其发布的每个模型版本均公开了模型权重、代码和技术报告,展现出高度的学术含量和严谨性。
2025-04-25 23:56:44
315
原创 NLP高频面试题(五十四)——深度学习归一化详解
现代深度学习中出现了多种归一化技术,它们各有针对的应用场景和特点。我们下面将介绍批归一化(Batch Normalization)层归一化(Layer Normalization)组归一化(Group Normalization)等最为常见的方法,以及实例归一化(Instance Normalization)、**权重归一化(Weight Normalization)**等衍生技术。对于每种方法,我们将讨论其核心原理、计算步骤、优势与局限。
2025-04-25 22:37:54
354
原创 NLP高频面试题(五十三)——深度学习正则化详解
R1w∑i∣wi∣R1wi∑∣wi∣.它会在优化过程中倾向于将许多权重压缩为零,实现稀疏化(sparsity)。稀疏模型不仅在存储和推理时更高效,也能自动完成特征选择,因为被置零的参数对应的输入特征被认为不重要。R2w∑iwi2R2wi∑wi2它会使得权重均匀收缩,但很少将其精确推到零。相比 L1,L2 更强调平滑性(smoothness),防止任意一个权重过大,从而降低模型对某一维特征的过度依赖。
2025-04-24 23:49:54
240
原创 NLP高频面试题(五十二)——深度学习优化器详解
在深度学习的训练过程中,各种基于梯度的优化器肩负着寻找损失函数最优解的重任。最基础的梯度下降法通过沿着损失函数负梯度方向迭代更新参数,实现对模型参数的优化;而随机梯度下降(SGD)则以更高的计算效率和内存利用率在大规模数据集上大放异彩,但也因更新噪声大、易陷入鞍点或局部最优而存在局限。为克服这些问题,Momentum、Adagrad、RMSProp、Adam 等优化器相继提出,分别通过动量项、参数自适应学习率或两者结合,有效提高了收敛速度与稳定性。
2025-04-24 23:34:44
146
原创 NLP高频面试题(五十三)——LLM中激活函数详解
激活函数(Activation Function)是一种非线性映射,将神经元的加权输入及偏置进行转换后再传递给下一层。没有激活函数,无论网络有多少层,都将退化为线性模型,无法拟合复杂的自然语言规律。激活函数需满足可导性(以便反向传播)与计算效率(以利大规模模型训练与推理)等基本要求。
2025-04-23 23:06:04
138
原创 NLP高频面试题(五十二)——BERT 变体详解
跨层参数共享即让每个 Transformer 层复用同一组权重,而非为每层维护独立参数。这样,模型深度不再线性增加参数量,显著降低内存占用并提升训练效率。在前向计算中,输入依次经过相同的层函数,但由于输入内容不同,仍能实现多层表达能力。ELECTRA 创新性地用替换标记检测(Replaced Token Detection, RTD)取代 MLM:训练一个小型生成器(Generator)在输入中生成候选替换标记,然后让判别器(Discriminator)对每个位置判断该标记是真实(来自原文)还是被替换。
2025-04-23 23:01:30
312
原创 NLP高频面试题(五十一)——LSTM详解
长短期记忆网络(LSTM)相较于传统循环神经网络(RNN)的核心改进在于通过引入记忆单元(cell state)和门机制(gating mechanism)来有效缓解梯度消失与梯度爆炸问题,从而更好地捕捉长距离依赖关系。在其网络结构中,信息通过输入门(input gate)、遗忘门(forget gate)和输出门(output gate)进行有选择的流入、保留与输出,同时记忆单元内部还包含输入调制门(input modulation gate)以丰富细粒度控制。
2025-04-22 21:43:19
357
原创 NLP高频面试题(五十)——大模型(LLMs)分词(Tokenizer)详解
综上所述,我们深入探讨了当前主流的大模型分词器算法:BPE、WordPiece 和 Unigram。基于频率贪心合并,高效简单,在各领域广泛应用,是子词分词的开创者之一。引入了概率最大化准则,选择合并更加稳健,被BERT等模型采用。采用生成模型视角,全局优化词表,能提供概率和多样性,是一种更复杂但功能更强大的方法。在优缺点方面,BPE 胜在实现容易、速度快且效果已被证明足够好;WordPiece 对细节概率分布更敏感,在极大语料上略有优势。
2025-04-22 21:36:19
1697
原创 NLP高频面试题(四十九)——大模型RAG常见面试题解析
RAG系统通过结合信息检索和生成模型,解决了LLM在知识更新、幻觉和上下文限制等方面的挑战。:需要频繁更新知识库、处理多任务、快速部署的应用,如企业知识问答系统。:特定任务性能要求高、数据稳定的应用,如法律文书生成、医学诊断等。:先使用一种检索方式,结果不理想时再使用其他方式。:将问答对向量化,存入数据库,支持相似度检索。:同时使用关键词检索和向量检索,获取多种结果。:将处理后的信息输入LLM,生成最终答案。:根据各自的置信度,对结果进行加权排序。:使用训练好的模型,对合并结果进行精排。
2025-04-21 23:10:11
182
原创 NLP高频面试题(四十八)——大语言模型中的思维链(CoT)技术详解
思维链(Chain of Thought)技术的出现,为大型语言模型破解复杂推理任务开辟了一条新路。从最初在GPT-3上实验出惊人的效果,到如今融入GPT-4、Claude、Gemini等顶级模型的“思维”机制,CoT已经成为大模型能力版图中不可或缺的一部分。通过让模型模仿人类的逐步推理,我们显著提升了模型在数学、逻辑、常识等领域的表现,也让模型的决策过程更加透明、可监控。
2025-04-21 22:31:45
801
原创 NLP高频面试题(四十七)——探讨Transformer中的注意力机制:MHA、MQA与GQA
Transformer架构中,注意力机制始终是核心,而MHA、MQA、GQA则是其演化的重要变体。这篇博客将深入探讨这些机制的区别与联系,并分析为何GQA逐渐取代传统的MHA。
2025-04-17 22:05:25
147
原创 NLP高频面试题(四十六)——Transformer 架构中的位置编码及其演化详解
Transformer 模型(Vaswani 等人,2017)在序列建模中取得了革命性突破,利用自注意力机制实现了并行的序列处理。然而,Transformer 本身对序列的顺序信息不敏感:输入序列元素在自注意力中是无排列的(Permutation-invariant)。换言之,Transformer 缺乏像 RNN 那样的自然顺序编码能力,必须显式地注入位置(顺序)信息才能让模型“知道”第一个词和第二个词的区别。
2025-04-17 21:37:25
400
原创 NLP高频面试题(四十五)——PPO 算法在 RLHF 中的原理与实现详解
近端策略优化(PPO)是一种基于策略梯度的深度强化学习算法。PPO 由 OpenAI 团队于 2017 年提出,旨在在保证策略更新稳定性的同时提高训练效率。与经典的策略梯度方法(如 REINFORCE)相比,PPO 引入了“近端”约束,避免每次更新时策略发生过大变化;与先前的信赖域策略优化(Trust Region Policy Optimization, TRPO)方法相比,PPO 的实现更加简单、高效,无需二阶导数计算。
2025-04-16 22:22:35
325
原创 NLP高频面试题(四十四)——RLHF过程中的马尔科夫决策过程及对话场景MDP设计
(S):状态集合,描述环境的所有可能状态。(A):动作集合,描述智能体可以采取的所有可能动作。(P):状态转移概率函数,表示从一个状态执行某个动作后,到达另一个状态的概率。(R):奖励函数,用于衡量在某个状态下执行某个动作后得到的回报。γ\gammaγ:折扣因子,用于平衡当前奖励与未来奖励的重要性。
2025-04-16 22:04:48
198
原创 NLP高频面试题(四十三)——什么是人类偏好对齐中的「对齐税」(Alignment Tax)?如何缓解?
所谓「对齐税」(Alignment Tax),指的是在使人工智能系统符合人类偏好的过程中,所不可避免付出的性能损失或代价。换句话说,当我们迫使AI遵循人类价值观和规范时,AI系统往往无法达到其最大理论性能。这种性能上的妥协和折衷,就是所谓的「对齐税」。举例来说,一个未经约束的AI可能能够更迅速、更高效地完成某项任务,但若要确保该AI符合人类道德与价值观的要求,则可能必须放慢其速度、限制其行为或在决策中添加额外的安全措施,这就导致了AI表现出低于理论最佳状态的现象。
2025-04-15 23:48:33
165
原创 NLP高频面试题(四十二)——RAG系统评估:方法、指标与实践指南
检索增强生成是近年来自然语言处理领域的一个重要进展。RAG系统在大型语言模型生成文本的过程中引入了外部检索模块,从外部知识库获取相关信息,以缓解纯生成模型可能出现的幻觉和知识盲点。通过将查询相关的事实作为上下文提供给生成模型,RAG能够显著降低输出中不符合事实的成分,提高内容的可靠性和准确性。检索组件和生成组件。
2025-04-15 23:39:54
356
原创 NLP高频面试题(四十一)——什么是 IA3 微调?
随着大型语言模型的广泛应用,如何高效地将这些模型适配到特定任务中,成为了研究和工程实践中的重要课题。IA3(Infused Adapter by Adding and Adjusting)微调技术,作为参数高效微调的一种新颖方法,提供了在保持模型性能的同时,显著减少可训练参数数量的解决方案。
2025-04-11 23:25:50
162
原创 NLP高频面试题(四十)——什么是 BitFit?
BitFit 的核心思想是:在微调阶段,只更新模型中的偏置项(bias term),冻结其余所有参数。偏置项通常占模型总参数量的不到 0.1%,因此这种方法极大地降低了训练成本和显存占用。BitFit 最初由 Elad Ben Zaken 等人在 2021 年提出,并在 BERT 等 Transformer 模型上进行了验证。
2025-04-11 23:21:55
315
原创 NLP高频面试题(三十九)——什么是大模型的涌现能力?
在人工智能领域,随着模型规模的扩大,研究人员观察到大型语言模型会展现出一些在小型模型中未曾出现的全新能力,这种现象被称为。这些能力并非通过特定编程或训练目标直接获得,而是在模型参数和训练数据达到一定规模后自发出现的。
2025-04-10 22:27:19
215
原创 NLP高频面试题(三十八)——什么是LLM的灾难性遗忘?如何避免灾难性遗忘?
近年来,大语言模型在人工智能领域取得了显著进展。然而,随着模型的不断更新和新任务的引入,出现了一个重要的问题,即。灾难性遗忘指的是大模型在连续学习新知识或新任务时,先前掌握的旧知识会迅速被覆盖或遗忘,从而导致模型在旧任务中的表现明显下降。
2025-04-10 21:56:48
165
原创 NLP高频面试题(三十七)——大模型训练和推理的显存估计
在训练和推理大型语言模型时,显存(GPU 内存)的需求是一个关键考虑因素。准确估计这些需求有助于选择合适的硬件配置,确保模型高效运行。
2025-04-09 22:15:48
857
自然语言处理文本匹配任务baseline
2023-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人