本文总结了大模型领域有关【模型架构与基础概念】部分的名词,并解释其含义。跳出浩如烟海的大模型知识圈层,从概念上理清大模型的基础脉络!
序号 | 模块分组 | 说明 | 快捷访问 |
1 | 模型架构与基础概念 | 介绍了【模型架构与基础概念】相关的常见名词及含义 | 大模型中的常用名词介绍一:【模型架构与基础概念】【建议收藏】-CSDN博客 |
2 | 训练方法与技术 | 介绍了【训练方法与技术】相关的常见名词及含义 | 大模型中的常用名词介绍二:【训练方法与技术】【建议收藏】-CSDN博客 |
3 | 模型优化与压缩 | 介绍了【模型优化与压缩】相关的常见名词及含义 | 大模型中的常用名词介绍三:【模型优化与压缩】【建议收藏】-CSDN博客 |
4 | 推理与应用 | 介绍了【推理与应用】相关的常见名词及含义 | 大模型中的常用名词介绍四:【推理与应用】【建议收藏】-CSDN博客 |
5 | 计算与性能优化 | 介绍了【计算与性能优化】相关的常见名词及含义 | 大模型中的常用名词介绍五:【计算与性能优化】【建议收藏】-CSDN博客 |
6 | 数据与标签 | 介绍了【数据与标签】相关的常见名词及含义 | 大模型中的常用名词介绍六:【数据与标签】【建议收藏】-CSDN博客 |
7 | 模型评估与调试 | 介绍了【模型评估与调试】相关的常见名词及含义 | 大模型中的常用名词介绍七:【模型评估与调试】【建议收藏】-CSDN博客 |
8 | 特征与数据处理、伦理与公平性等 | 介绍了【特征与数据处理、伦理与公平性等】相关的常见名词及含义 | 大模型中的常用名词介绍八:【特征与数据处理、伦理与公平性等】【建议收藏】-CSDN博客 |
大语言模型(LLM,Large Language Model):一种基于深度学习的大规模神经网络模型,通常采用Transformer架构。它能够处理大量的语言数据并生成高质量的文本,通过大规模的数据集训练来学习语言的复杂模式。
Transformer架构:一种广泛应用于自然语言处理任务的神经网络架构,因其自注意力机制(self-attention)而能够高效处理序列数据中的长距离依赖关系,成为NLP领域的主流架构。
循环神经网络(RNN,Recurrent Neural Network):一种能够处理序列数据的神经网络架构,适用于自然语言处理等任务。尽管有效,但在捕捉长期依赖方面存在局限性,容易出现梯度消失或爆炸的问题。
长短期记忆网络(LSTM,Long Short-Term Memory):一种特殊类型的RNN,通过特殊的门控机制解决了标准RNN在长序列训练中的梯度消失问题,从而更好地捕捉长期依赖关系。
卷积神经网络(CNN,Convolutional Neural Network):一种专门用于处理图像数据的神经网络架构,通过卷积操作提取图像特征。此外,CNN也可应用于文本分类等其他领域。
全连接层(Fully Connected Layer):一种神经网络层,输入的每个节点都与输出的每个节点相连接。这种层通常出现在网络的最后几层中,用于整合前面层提取的特征以做出最终预测。
混合专家模型(MoE,Mixture of Experts):一种模型架构,通过多个“专家”网络并行处理输入数据,然后通过门控机制选择最合适的专家输出结果。MoE模型特别适合于处理大规模数据,在计算效率和性能平衡方面表现出色。
多头注意力(Multi-Head Attention):Transformer架构中的一种机制,通过将注意力机制分解为多个“头”,每个“头”都可以学习输入数据的不同特征,从而提高模型的表现力。
位置编码(Positional Encoding):在Transformer模型中,用于向模型提供输入序列中每个元素的位置信息,因为Transformer本身不具有序列顺序的记忆能力。
注意力机制(Attention Mechanism):一种允许模型在处理序列数据时聚焦于输入序列的特定部分的机制,是Transformer架构的核心组成部分之一。
图神经网络(Graph Neural Network, GNN):一种专门设计用来处理图形结构数据的神经网络类型,可用于社交网络分析、分子结构预测等领域。
自注意力机制(Self-Attention Mechanism):一种特殊的注意力机制,它允许输入序列中的每个元素都能注意到该序列中的所有其他元素,从而帮助捕捉长距离依赖关系。
编码器-解码器架构(Encoder-Decoder Architecture):一种常见的深度学习架构,用于处理序列到序列的任务,如机器翻译。编码器将输入序列转换为一个中间表示形式,而解码器则根据这个中间表示生成输出序列。
残差连接/跳跃连接(Residual/Skip Connections):在网络层之间添加直接连接,使得信息可以跳过一层或多层直接传递到后面的层中。这种方法有助于训练非常深的网络,缓解梯度消失问题。
归一化层(Normalization Layers):包括批归一化(Batch Normalization)、层归一化(Layer Normalization)等,通过调整和缩放激活值来加速训练过程并稳定训练。
正则化(Regularization):用于防止过拟合的技术,常见的方法包括L2正则化、Dropout等。
Dropout:一种正则化技术,在训练过程中随机“丢弃”神经元(即设置其激活值为零),以避免模型对特定神经元的过度依赖,从而提高泛化能力。
激活函数(Activation Function):引入非线性因素到神经网络中,使得模型能够学习复杂的模式。常用的激活函数包括ReLU、Sigmoid、Tanh等。
嵌入层(Embedding Layer):将离散的类别型数据(如词汇表中的单词)映射到连续向量空间的一种方式,常用于自然语言处理任务。