
大语言模型
文章平均质量分 96
格兰芬多_未名
找到自己的目标和方向是一件很幸福的事
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习优化器【学习率调整和梯度修正,Optimizer】
在当今快速发展的人工智能领域,优化算法在深度学习模型(比如语言大模型)的训练过程中尤为重要。本文主要介绍与随机梯度下降法相关的两个技巧——学习率调整和梯度修正方法。原创 2024-10-28 16:11:17 · 2054 阅读 · 1 评论 -
BERT语言模型详解【Encoder-Only】
传统的语言模型,如标准的自回归模型,通常只能基于从左到右或从右到左的单向上下文生成文本。BERT创新性地引入了“掩蔽语言模型”(MLM),它会随机遮盖输入句子中的某些词,然后让模型预测这些被遮盖的词,从而实现了对句子中双向上下文的理解。原创 2024-10-28 16:06:41 · 1759 阅读 · 0 评论 -
大语言模型微调方法详解【全量微调、PEFT、LoRA、Adapter】
全参数微调,一般称作参数高效微调,全参数微调空间、时间代价高,参数高效微调是指微调少量或额外的模型参数,固定大部分预训练模型(LLM)参数,从而大大降低了计算和存储成本,同时,也能实现与全量参数微调相当的性能。参数高效微调方法甚至在某些情况下比全量微调效果更好,可以更好地泛化到域外场景。PEFT全参数微调目标提高预训练模型在特定任务上的性能,使用有限的数据和计算资源提高预训练模型在特定任务上的性能,使用有限的数据和充足的计算资源训练时间较快较长计算资源较少较多模型参数。原创 2024-10-26 16:52:02 · 1320 阅读 · 0 评论 -
大语言模型的Scaling Law【Power Low】
Scaling Law是人工智能和机器学习中一类理论,它描述了随着模型规模(例如参数数量)、训练数据量、计算资源的增加,模型性能如何提升的规律。简单来说,Scaling Law 研究的是模型性能与模型规模之间的关系。原创 2024-10-26 16:43:41 · 1591 阅读 · 0 评论 -
Transformer图文详解【Attention is all you need】
在理解了自注意力机制的基础上,我们来介绍大语言模型的基础——Transformer结构,Attention is all you need!原创 2024-07-21 20:20:18 · 1441 阅读 · 0 评论 -
深入理解注意力机制【Self-Attention,自注意力模型】
本篇博客将详细介绍注意力机制的基本原理、一般形式以及自注意力模型,并通过具体例子和图示帮助读者更好地理解这些关键概念。让我们一起深入探索,看看注意力机制如何在自然语言处理任务中发挥神奇的作用。原创 2024-07-15 19:41:51 · 1936 阅读 · 0 评论 -
详解注意力机制上篇【RNN,Seq2Seq(Encoder-Decoder,编码器-解码器)等基础知识】
本文介绍注意力机制相关的基础知识,如RNN,编码器-解码器的结构,以及什么是Embedding,为什么需要Embedding。通过实例能更好的帮助理解。原创 2024-07-15 19:33:20 · 1177 阅读 · 0 评论