大模型中的常用名词介绍一：【模型架构与基础概念】【建议收藏】-CSDN博客

本文总结了大模型领域有关【模型架构与基础概念】部分的名词，并解释其含义。跳出浩如烟海的大模型知识圈层，从概念上理清大模型的基础脉络！

序号	模块分组	说明	快捷访问
1	模型架构与基础概念	介绍了【模型架构与基础概念】相关的常见名词及含义	大模型中的常用名词介绍一：【模型架构与基础概念】【建议收藏】-CSDN博客
2	训练方法与技术	介绍了【训练方法与技术】相关的常见名词及含义	大模型中的常用名词介绍二：【训练方法与技术】【建议收藏】-CSDN博客
3	模型优化与压缩	介绍了【模型优化与压缩】相关的常见名词及含义	大模型中的常用名词介绍三：【模型优化与压缩】【建议收藏】-CSDN博客
4	推理与应用	介绍了【推理与应用】相关的常见名词及含义	大模型中的常用名词介绍四：【推理与应用】【建议收藏】-CSDN博客
5	计算与性能优化	介绍了【计算与性能优化】相关的常见名词及含义	大模型中的常用名词介绍五：【计算与性能优化】【建议收藏】-CSDN博客
6	数据与标签	介绍了【数据与标签】相关的常见名词及含义	大模型中的常用名词介绍六：【数据与标签】【建议收藏】-CSDN博客
7	模型评估与调试	介绍了【模型评估与调试】相关的常见名词及含义	大模型中的常用名词介绍七：【模型评估与调试】【建议收藏】-CSDN博客
8	特征与数据处理、伦理与公平性等	介绍了【特征与数据处理、伦理与公平性等】相关的常见名词及含义	大模型中的常用名词介绍八：【特征与数据处理、伦理与公平性等】【建议收藏】-CSDN博客

大语言模型（LLM，Large Language Model）：一种基于深度学习的大规模神经网络模型，通常采用Transformer架构。它能够处理大量的语言数据并生成高质量的文本，通过大规模的数据集训练来学习语言的复杂模式。

Transformer架构：一种广泛应用于自然语言处理任务的神经网络架构，因其自注意力机制(self-attention)而能够高效处理序列数据中的长距离依赖关系，成为NLP领域的主流架构。

循环神经网络（RNN，Recurrent Neural Network）：一种能够处理序列数据的神经网络架构，适用于自然语言处理等任务。尽管有效，但在捕捉长期依赖方面存在局限性，容易出现梯度消失或爆炸的问题。

长短期记忆网络（LSTM，Long Short-Term Memory）：一种特殊类型的RNN，通过特殊的门控机制解决了标准RNN在长序列训练中的梯度消失问题，从而更好地捕捉长期依赖关系。

卷积神经网络（CNN，Convolutional Neural Network）：一种专门用于处理图像数据的神经网络架构，通过卷积操作提取图像特征。此外，CNN也可应用于文本分类等其他领域。

全连接层（Fully Connected Layer）：一种神经网络层，输入的每个节点都与输出的每个节点相连接。这种层通常出现在网络的最后几层中，用于整合前面层提取的特征以做出最终预测。

混合专家模型（MoE，Mixture of Experts）：一种模型架构，通过多个“专家”网络并行处理输入数据，然后通过门控机制选择最合适的专家输出结果。MoE模型特别适合于处理大规模数据，在计算效率和性能平衡方面表现出色。

多头注意力（Multi-Head Attention）：Transformer架构中的一种机制，通过将注意力机制分解为多个“头”，每个“头”都可以学习输入数据的不同特征，从而提高模型的表现力。

位置编码（Positional Encoding）：在Transformer模型中，用于向模型提供输入序列中每个元素的位置信息，因为Transformer本身不具有序列顺序的记忆能力。

注意力机制（Attention Mechanism）：一种允许模型在处理序列数据时聚焦于输入序列的特定部分的机制，是Transformer架构的核心组成部分之一。

图神经网络（Graph Neural Network, GNN）：一种专门设计用来处理图形结构数据的神经网络类型，可用于社交网络分析、分子结构预测等领域。

自注意力机制（Self-Attention Mechanism）：一种特殊的注意力机制，它允许输入序列中的每个元素都能注意到该序列中的所有其他元素，从而帮助捕捉长距离依赖关系。

编码器-解码器架构（Encoder-Decoder Architecture）：一种常见的深度学习架构，用于处理序列到序列的任务，如机器翻译。编码器将输入序列转换为一个中间表示形式，而解码器则根据这个中间表示生成输出序列。

残差连接/跳跃连接（Residual/Skip Connections）：在网络层之间添加直接连接，使得信息可以跳过一层或多层直接传递到后面的层中。这种方法有助于训练非常深的网络，缓解梯度消失问题。

归一化层（Normalization Layers）：包括批归一化（Batch Normalization）、层归一化（Layer Normalization）等，通过调整和缩放激活值来加速训练过程并稳定训练。

正则化（Regularization）：用于防止过拟合的技术，常见的方法包括L2正则化、Dropout等。

Dropout：一种正则化技术，在训练过程中随机“丢弃”神经元（即设置其激活值为零），以避免模型对特定神经元的过度依赖，从而提高泛化能力。

激活函数（Activation Function）：引入非线性因素到神经网络中，使得模型能够学习复杂的模式。常用的激活函数包括ReLU、Sigmoid、Tanh等。

嵌入层（Embedding Layer）：将离散的类别型数据（如词汇表中的单词）映射到连续向量空间的一种方式，常用于自然语言处理任务。