
每日学习打卡
文章平均质量分 77
啊我有兔子牙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AutoDL微调打怪升级
回到lamafactory的界面,,方法同上述部署模型方法一致,把加载模型路径改为微调模型的输出路径就行了(就是上图的路径)/root/autodl-tmp/myModel,模型名字没变,因为它就是Qwen-7B-Chat的升级版,底层架构啥的都一样。选择模型名称Qwen-7B-Chat,输入地址(之前下载的地方)/root/autodl-tmp/qwen/Qwen-7B-Chat,地址从MobaXterm复制,复制了记得删最后的/gpu是负责运算的,显存是你计算的内存大小,都还够着呢,别担心。原创 2025-02-09 12:17:33 · 985 阅读 · 0 评论 -
2025.2.10 每日学习记录3:技术报告只差相关工作+补实验
技术报告只差相关工作+补实验原创 2025-02-11 23:15:21 · 303 阅读 · 0 评论 -
2025.2.9 每日学习记录2:技术报告写了一半+一点点读后感
写完了一半技术报告+一点点阅读体会原创 2025-02-10 22:08:31 · 377 阅读 · 0 评论 -
2025.2.9 每日学习记录1:微调与技术报告书写
1.完成微调的技术实践,技术学习1 微调系列01-一文吃透!大模型里的微调技术到底是什么?-CSDN博客 2.为了研究技术报告怎么写,阅读了deepseek R1的技术报告原文DeepSeek-R1系列01——技术报告解读:DeepSeek-R1:通过强化学习激励 LLM 中的推理能力-CSDN博客 3.完成技术报告的文字叙述版,确定了摘要和目录 4.完成每日学习记录原创 2025-02-09 23:08:46 · 515 阅读 · 0 评论 -
DeepSeek-R1系列01——技术报告解读:DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
本文深入解读 DeepSeek - R1 通过强化学习激励大语言模型(LLM)推理能力的技术报告。开篇介绍 DeepSeek - R1 系列在人工智能领域的重要地位,引出对其利用强化学习提升 LLM 推理能力这一核心技术的探讨。详细阐述强化学习在该模型中的应用机制,包括如何设计奖励函数来引导模型在复杂推理任务中找到更优解,以及如何通过与环境交互不断优化推理策略 。分析这一技术相较于传统提升 LLM 推理能力方法的优势,如在面对复杂逻辑问题时能更高效地给出准确答案,大幅提升模型的实用性和智能水平。同时,结合具原创 2025-02-09 21:41:57 · 2804 阅读 · 0 评论 -
微调系列01-一文吃透!大模型里的微调技术到底是什么?
在深度学习和机器学习领域,“微调” 是一个频繁出现却又让不少人一知半解的概念。本文将深入浅出地为你剖析什么是微调。首先,介绍微调的基本定义,它是在预训练模型基础上进行的进一步训练,利用少量特定任务数据对模型参数进行针对性调整 。接着,详细阐述微调的流程,从选择合适的预训练模型,到准备适配的数据集,再到确定微调的超参数,每个步骤都关乎微调的效果。然后,探索展示微调如何让模型在特定任务中表现大幅提升。原创 2025-02-09 15:26:53 · 798 阅读 · 0 评论