明月皎皎。-CSDN博客

原创制作涂鸦数据集

项目需要进行涂鸦分割or检测，故需要生成一批带涂鸦的图片。打开windows自带的画图软件。

2025-07-08 11:26:36 156

大语言模型（LLM）是指具有大规模参数量的语言模型，通常在数十亿甚至数万亿个参数级别以上。这类模型通过在海量文本数据上进行预训练，学习到丰富的语言结构、知识和推理能力。一般来说，LLM 指包含数百亿（或更多）参数的语言模型，它们往往在数 T token 语料上通过多卡分布式集群进行预训练，具备远超出传统预训练模型的文本理解与生成能力。不过，随着 LLM 研究的不断深入，多种参数尺寸的 LLM 逐渐丰富，广义的 LLM 一般覆盖了从十亿参数到万亿参数的所有大型语言模型。只要模型展现出涌现能力。

2025-06-30 17:39:33 893

原创 happy_llm学习07—Decoder-Only PLM

GLM 是一种具有创新性的统一语言模型架构，它的出现打破了 NLU 和 NLG 之间的界限，提供了一个更加通用的语言模型范式。后续基于 GLM 架构开发的模型，也在持续推动着中文大模型的发展。

2025-06-30 14:14:42 767

原创 happy_llm学习06—Encoder-Decoder PLM

（Causal Language Model, CLM），（如GPT系列）是一个单向的解码器结构，模型只能看到前面已经出现的词，不能“回头”看后面的词，训练时给定序列的一部分，模型的任务是依次预测下一个词。T5 的“大一统思想”是指将所有 NLP 任务统一建模为“文本到文本”的形式，从而实现模型结构、训练流程、任务适配的全面统一，极大提升了模型的通用性、可迁移性和工程实用性，是现代预训练语言模型走向统一和高效的重要里程碑。也就是说，模型始终在做的是：根据一段输入文本，生成一段输出文本。

2025-06-26 15:50:16 754

原创 happy_llm学习05—Encoder-only PLM

Transformer 的整体结构主要由两个核心部分组成：这两个部分在结构上不同、输入输出形式也不同。整个模型包含多个堆叠的 Encoder Layer 和 Decoder Layer。针对 Encoder、Decoder 的特点，引入 ELMo 的预训练思路，开始出现不同的、对 Transformer 进行优化的思路。 Transformer 时代的各个主流预训练模型根据结构可以分为 Encoder-Only、Encoder-Decoder、Decoder-Only。Encoder-only BERT（B

2025-06-26 11:03:49 765

原创 happy_llm学习04—Transformer

Embedding 层的输入往往是一个形状为（batch_size，seq_len，1）的矩阵，第一个维度是一次批处理的数量，第二个维度是自然语言序列的长度，第三个维度则是 token 经过 tokenizer 转化成的 index 值。在注意力机制的计算过程中，对于序列中的每一个 token，其他各个位置对其来说都是平等的，即“我喜欢你”和“你喜欢我”在注意力机制看来是完全相同的。，而不是它们在序列中的绝对位置。注意力机制可以实现良好的并行计算，但同时，其注意力计算的方式也导致序列中相对位置的丢失。

2025-06-24 15:40:33 903

原创 happy_llm学习03—Encoder-Decoder

在《Attention is All You Need》一文中，搭建出的Transformer 模型仅使用注意力机制而抛弃了传统的 RNN、CNN ，使用注意力机制的是其两个核心组件——Encoder（编码器）和 Decoder（解码器）。

2025-06-22 23:42:34 922

原创 happy_llm学习02—注意力机制

由计算机视觉发展起来的神经网络核心架构主要有：CNN、RNN、FNN。由于NLP需要处理的文本往往是序列，所以在注意力机制出现之前，NLP领域主要使用的都是RNN及其衍生架构LSTM。之前提过的开创了预训练思想的文本表示模型ELMo就是以双向LSTM为网络架构。但是RNN和LSTM也存在两个缺点：1. 序列需要依次输入计算，限制了GPU并行计算的能力 2. 难以捕捉长序列的关系。

2025-06-20 09:29:08 823

原创 happy_llm学习01—NLP基础概念

NLP 是一种让计算机理解、解释和生成人类语言的技术。发展历程：从早期的规则基础方法，到统计方法，再到现在的机器学习和深度学习方法。文本摘要（Text Summarization）是 NLP 中的一个重要任务，目的是生成一段简洁准确的摘要，来概括原文的主要内容。根据生成方式的不同，文本摘要可以分为两大类：抽取式摘要（Extractive Summarization）和生成式摘要（Abstractive Summarization）。抽取式摘要：抽取式摘要通过直接从原文中选取关键句子或短语来组成摘要。

2025-06-18 10:16:18 924