- 博客(13)
- 收藏
- 关注
原创 happy_llm学习08—什么是 LLM
大语言模型(LLM)是指具有大规模参数量的语言模型,通常在数十亿甚至数万亿个参数级别以上。这类模型通过在海量文本数据上进行预训练,学习到丰富的语言结构、知识和推理能力。一般来说,LLM 指包含数百亿(或更多)参数的语言模型,它们往往在数 T token 语料上通过多卡分布式集群进行预训练,具备远超出传统预训练模型的文本理解与生成能力。不过,随着 LLM 研究的不断深入,多种参数尺寸的 LLM 逐渐丰富,广义的 LLM 一般覆盖了从十亿参数到万亿参数的所有大型语言模型。只要模型展现出涌现能力。
2025-06-30 17:39:33
893
原创 happy_llm学习07—Decoder-Only PLM
GLM 是一种具有创新性的统一语言模型架构,它的出现打破了 NLU 和 NLG 之间的界限,提供了一个更加通用的语言模型范式。后续基于 GLM 架构开发的模型,也在持续推动着中文大模型的发展。
2025-06-30 14:14:42
767
原创 happy_llm学习06—Encoder-Decoder PLM
(Causal Language Model, CLM),(如GPT系列)是一个单向的解码器结构,模型只能看到前面已经出现的词,不能“回头”看后面的词,训练时给定序列的一部分,模型的任务是依次预测下一个词。T5 的“大一统思想”是指将所有 NLP 任务统一建模为“文本到文本”的形式,从而实现模型结构、训练流程、任务适配的全面统一,极大提升了模型的通用性、可迁移性和工程实用性,是现代预训练语言模型走向统一和高效的重要里程碑。也就是说,模型始终在做的是:根据一段输入文本,生成一段输出文本。
2025-06-26 15:50:16
754
原创 happy_llm学习05—Encoder-only PLM
Transformer 的整体结构主要由两个核心部分组成:这两个部分在结构上不同、输入输出形式也不同。整个模型包含多个堆叠的 Encoder Layer 和 Decoder Layer。针对 Encoder、Decoder 的特点,引入 ELMo 的预训练思路,开始出现不同的、对 Transformer 进行优化的思路。 Transformer 时代的各个主流预训练模型根据结构可以分为 Encoder-Only、Encoder-Decoder、Decoder-Only。Encoder-only BERT(B
2025-06-26 11:03:49
765
原创 happy_llm学习04—Transformer
Embedding 层的输入往往是一个形状为 (batch_size,seq_len,1)的矩阵,第一个维度是一次批处理的数量,第二个维度是自然语言序列的长度,第三个维度则是 token 经过 tokenizer 转化成的 index 值。在注意力机制的计算过程中,对于序列中的每一个 token,其他各个位置对其来说都是平等的,即“我喜欢你”和“你喜欢我”在注意力机制看来是完全相同的。,而不是它们在序列中的绝对位置。注意力机制可以实现良好的并行计算,但同时,其注意力计算的方式也导致序列中相对位置的丢失。
2025-06-24 15:40:33
903
原创 happy_llm学习03—Encoder-Decoder
在《Attention is All You Need》一文中,搭建出 的Transformer 模型仅使用注意力机制而抛弃了传统的 RNN、CNN ,使用注意力机制的是其两个核心组件——Encoder(编码器)和 Decoder(解码器)。
2025-06-22 23:42:34
922
原创 happy_llm学习02—注意力机制
由计算机视觉发展起来的神经网络核心架构主要有:CNN、RNN、FNN。由于NLP需要处理的文本往往是序列,所以在注意力机制出现之前,NLP领域主要使用的都是RNN及其衍生架构LSTM。之前提过的开创了预训练思想的文本表示模型ELMo就是以双向LSTM为网络架构。但是RNN和LSTM也存在两个缺点:1. 序列需要依次输入计算,限制了GPU并行计算的能力 2. 难以捕捉长序列的关系。
2025-06-20 09:29:08
823
原创 happy_llm学习01—NLP基础概念
NLP 是 一种让计算机理解、解释和生成人类语言的技术。发展历程:从早期的规则基础方法,到统计方法,再到现在的机器学习和深度学习方法。文本摘要(Text Summarization)是 NLP 中的一个重要任务,目的是生成一段简洁准确的摘要,来概括原文的主要内容。根据生成方式的不同,文本摘要可以分为两大类:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。抽取式摘要:抽取式摘要通过直接从原文中选取关键句子或短语来组成摘要。
2025-06-18 10:16:18
924
原创 使用segmentation model pytorch训练自己的数据集
如果要使用UNet、FPN、UnetPlusPlus等模型,只要改成model = smp.Unet() or model = smp.FPN() or model = smp.UnetPlusPlus()即可。包含背景在内,分割类别共4类: ["bg", "class1","class2", "class3"]数据集主目录中包含以下几个文件夹,分别是训练集的原图和mask 、测试集的原图和mask。在mask中的像素值分别为0,64,128,192。训练的时候还遇到了问题,显示报错。
2025-03-03 11:45:55
829
2
原创 segmentation model pytorch安装记录
是一个基于PyTorch的库,旨在简化语义分割模型的使用和训练过程。它提供了多种流行的架构和预训练权重,能够快速地进行实验、开发和部署语义分割任务。
2025-02-26 17:48:17
828
原创 深度学习停止训练后,显存仍然占用的问题
停止深度学习训练后,使用nvidia-smi查看 发现显存仍然被占用。输入 ps aux | grep python。再次输入nvidia-smi查看显存占用情况。输入 kill -9 PID。找到对应进程的PID。
2025-02-21 15:06:02
251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人