自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Skadi3609的博客

原创多轮对话论文阅读

《Learning Efficient Dialogue Policy from Demonstrations through Shaping》和《Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping》两篇论文的阅读

2025-05-03 18:10:22 1983 1

原创 CoT-大模型思维链

大模型思维链综述介绍

2025-04-30 14:21:34 1264

原创 LoRA+代码解析

LoRA+的原理与代码解析

2025-04-15 15:15:08 1698

原创 transformer架构

特别是在某些专业领域。预训练技术使得模型能够从未标记的大规模数据中学习通用特征和先验知识，比如语言的语法规则、视觉的底层特征，从而减少对标记数据的依赖，使得在有限的数据集上也能训练出性能良好的模型。编码器解码器注意力计算时，关注来自编码器的源序列和解码器自身输入的注意力信息，将编码器的输出作为Key和Value向量，解码器的自身自注意力输出作为Query向量。技巧，缓解神经网络中的内部协变量偏移问题，即层之间的输入分布的变化，有助于稳定模型的训练过程，提高模型的收敛速度，并且可以使用更大的学习率。

2025-03-17 14:01:43 826

原创大模型微调技术整理

transformer的基础结构。

2025-03-14 18:26:29 1739 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄3年

5
原创

176
点赞

151
收藏

64
粉丝

关注

私信

热门文章

分类专栏

大模型学习 5篇

最新评论

多轮对话论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
大模型微调技术整理
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619635869。

提示

确定要删除当前文章？

取消删除