大模型如何训练和推理？

金木AI

于 2024-12-26 09:35:55 发布

阅读量258

点赞数 1

CC 4.0 BY-SA版权

文章标签： AI编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43160662/article/details/144734333

为了便于理解，我们可以将大模型想象成一个勤奋的学生，这个学生通过阅读大量的书籍和资料来学习知识。而人类大脑则更像是一位经验丰富的教师，它不仅能学习，还能创造新的想法并解决复杂的问题。

大模型几乎阅读了所有人类说过的话，这就是“机器学习”。在处理文本时，大模型通常会将输入的文本分解成一个个的Token。这些Token可以是单词、短语或者其他语言单位，它们被用于模型的训练和推理过程中。每个Token都被转换成数字，大模型通过学习这些数字之间的关系来理解和生成语言。

在训练过程中，大模型会把不同token出现的概率存入“神经网络”文件，保存的数据就是“参数”。通常情况下，参数越多，意味着大模型能够学习和记住更多的信息，其表现能力和处理复杂问题能力也越强。

在推理过程中，我们给推理程序若干token，程序会加载大模型权重文件，算出概率最高的下一个token是什么。用生成的token，再加上上文，就能继续生成下一个token。以此类推，生成更多文字。

AI是人类的好帮手，但也存在“幻觉”，有时候甚至会“一本正经地胡说八道”。这是因为大模型对没有确切答案的问题做出了不合逻辑的回答。因此，针对大模型的输出，我们人类应该进行严谨评估和测试，并对大模型进行持续优化，确保其输出质量和准确性。

博客等级

码龄7年

368
原创

972
点赞

919
收藏

772
粉丝

关注

私信

热门文章

分类专栏

AI 105篇
大数据 21篇
Python 23篇
前端 115篇
VBA 1篇
架构 2篇
IOS 3篇
Java 14篇
C# 1篇
算法 4篇

展开全部收起

上一篇：: 大模型项目如何成功落地？

下一篇：: 为什么要把AI当人看？

最新评论

为什么说Python语法简单？
2401_87749981: 不知道为啥很多人都在说脚本语言简单，简单个球。比较一下脚本语言和面相对象教程，如c++和java教程。脚本语言要厚很多。脚本语言，弱类型需要并不适合写大型程序。本身不是面向对象设计，就是为了短，快而设计。东西做复杂了自己都感觉力不从心，看了都想吐。于是又要把自己往面向对象靠，把自己搞得不伦不类的。自己搞一大堆特殊规则，隐藏规则，内植函数，把自己搞得像面相对象一样。真踏马考记忆。学个java语法基础可能一个周就基本掌握了，学python两个周你也记不住，即使记得住，要不了多久就忘记各种内置函数区别了。不知道python简单在哪里。我是看见过一个python谢几千行的。python最开始就是学习研究型的，所以工程规范这些差的太多，火起来的原因是有很多人工智能相关库方便使用，所以在许多领域🔥起来了。简单我真是不敢恭维，不知道哪里简单了，他们吹的简单灵活估计就是像野马一样让你在草原狂奔，还可以随地大小便。javascript也简单，但是javascript权威指南那本书老厚。面相对象哪里，我看了两三遍我都记不住。python面相对象也相当复杂难记，反正我是记不住。
大模型微调起什么作用？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
GitHub Copilot 能为程序员带来什么？
金木AI: 感谢支持，一起学习！
GitHub Copilot 能为程序员带来什么？
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
CSS3中z-index不生效怎么办？
m0_57627431: 评论能不能获取积分啊谁知道？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。