- 博客(1276)
- 资源 (4)
- 收藏
- 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In
2024-06-02 13:05:46
4216
8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)
- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习
2021-10-06 21:11:58
2192
13
原创 【LLM推理】Sglang推理框架使用入门
Sglang启动推理服务(1)安装:`pip install "sglang[all]>=0.4.6.post1"`,截止20250705能用(2)下面是一个基础的启动推理服务的例子,相关重要的参数有:- 该推理服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下,它将在 http://localhost:30000 启动服务器。您可以通过 --host 和 --port 参数来自定义地址。- `tensor-parallel-size`:使用张量并行的分布式推理,下面设置为4就是
2025-07-05 16:39:22
720
原创 【LLM】大模型量化方法(权重&激活值量化)| 压测
qwen3模型量化实践论文链接:https://arxiv.org/pdf/2505.02214项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b结论:权重量化的影响:在8比特时,Qwen3始终保持接近无损的性能,表明高比特量化在实际部署中仍具有很大潜力激活值量化的影响:大型模型可能对激活量化特别敏感,可能是由于激活值异常导致的显著性能下降在应用经典
2025-06-29 16:47:53
1100
原创 【LLM】Gemini research和LangGraph框架
DeepMind开源全栈「Deep Research」项目:DeepMind开源的「Deep Research」项目是一个面向科研、开发者和普通用户的全栈智能研究工具,它通过AI技术模拟人类研究员的思考方式,提供深度信息整合与分析能力。https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart🔄 智能体通过研究和反思迭代循环,直到收集到足够的信息🔍 动态查询生成、通过Gemini原生Google搜索工具进行网络研究
2025-06-28 18:24:47
1094
原创 【MLLM】seed-vl-think、qwen3-vl和kimi-vl模型对比
seed-vl-think、qwen3-vl和kimi-vl模型对比从seed-vl-think、qwen3-vl和kimi-vl的最新工作看技术创新点。1)从模型架构角度看,Kimi-VL采用MoE架构,总参数16B但仅激活2.8B参数,视觉编码器使用原生分辨率的MoonViT。Qwen3-VL系列包含多种尺寸模型(0.6B到235B),其中235B-A22B是MoE模型,支持FP8权重。Seed-VL-Think使用20B激活参数的MoE LLM,视觉编码器是支持动态分辨率的Seed-ViT。
2025-06-23 22:26:24
626
1
原创 【LLM】三种主流文本嵌入编码范式
三种主流文本嵌入编码范式对于Bi-encoders,分别编码查询和文档。计算查询的[CLS]标记与文档之间的余弦相似度。这具有高度可扩展性,因为文档嵌入可以离线计算。但这种方式,失去了所有的交互,只是希望”关于查询和文档的全部信息都能很好地总结在【CLS)标记中。对于Cross-encoder,将查询文本和文档文本连接起来,使用类似BERT的编码器模型进行编码。对[CLS]标记表示应用一个转换(密集层)以获得相似性分数。由于模型同时关注两个上下文,这产生了极其语义表达力的表示。但它无法扩展,因为如果拥
2025-06-16 00:12:17
396
原创 【生活】程序员防猝si指南
note一、定期体检二、均衡饮食,多食用对心脏有保护作用的食物三、每周运动四、减压五、保证睡眠六、戒烟限酒7、控制血压8、警惕流感攻击心脏9、关注牙齿健康10、不要抵触吃药一、定期体检定期体检是发现和预防心脏病最简单的手段之一。对于已有心脑血管疾病的患者,定期体检还能了解血压、血脂、血糖水平、血管内皮功能、血管狭窄情况等。必要时可以服用药物抗斑块形成,改善内皮功能等,及时控制血管硬化。建议从20岁起,每个人都要定期体检。心血管病有很强的遗传性,如遗传性心律失常、心肌病、家族性高胆
2025-06-07 16:41:50
795
原创 【LLM】多智能体系统 Why Do Multi-Agent LLM Systems Fail?
多智能体MAS多智能体系统 (MAS):这是由多个 LLM 智能体组成的集合。这些智能体被设计成可以相互沟通、协调,共同完成一个更大的目标。设计 MAS 的初衷是为了利用“分工协作”的力量,例如:- 任务分解: 将复杂任务拆分成小块,交给专门的智能体处理。- 并行处理: 多个智能体同时工作,提高效率。- 上下文隔离/专业化: 每个智能体专注于自己的领域,避免信息过载,提升专业度。- 多样化推理/讨论: 不同智能体可能提出不同见解,通过讨论或辩论产生更好的解决方案。论文中研究的 MAS 系统
2025-06-07 14:46:06
930
原创 【LLM-Agent】智能体的记忆缓存设计
Cursor 的记忆系统采用了双重机制:先生成候选记忆,再严格评估筛选。这种设计有几个巧妙之处:1.严格的记忆标准系统对"值得记住"的标准极其严格,大部分记忆会被评为 1-3 分(低分),只有真正有价值的通用偏好才能得到 4-5 分。这避免了记忆污染问题。2.丰富的示例驱动提示词中包含大量正面和负面示例,帮助 AI 准确理解什么该记什么不该记。特别是对"显而易见"和"过于具体"的记忆进行了明确排除。3.用户意图优先如果用户明确要求记住某事,系统会直接给 5 分,体现了对用户主观意愿的尊重。
2025-06-07 14:33:58
1396
原创 【MLLM】字节BAGEL多模态理解和生成统一模型
字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的,并使用 FLUX.1-schnell VAE 模型。多模态模型效果:seed_vl>qwenvl>internvl>kimivl>minicpm文章目录No
2025-06-07 14:03:42
833
原创 【LLM】AI Agents vs. Agentic AI(概念&应用&挑战)
一、AI Agent 和 Agentic AI(一)AI Agent 在架构分类和实际部署中具有三大基础特征:自主性:独立运行,减少对人工的依赖,例如客户服务机器人或日程助手任务专一性:在特定尝尽高效运行反应性与适应性:Agent 能够响应其环境(包括用户指令、软件状态或 API 响应)变化;当进一步结合适应性时,一些系统还通过反馈循环、启发式方法或更新上下文缓冲区等方式,整合了基础的学习机制,以在个性化推荐或对话流程管理等场景中逐步优化行为。(二)Agentic AI 是一种新兴的智能架构,其
2025-06-02 21:28:07
952
转载 【Agent】Qwen-Agent框架代码解读和MCP应用
Qwen-Agent是一个专门设计用于开发基于大型语言模型(LLM)的应用程序的框架。它不仅支持指令遵循、工具使用、规划和记忆能力,还能够处理从8K到100万tokens的文档,超越了传统长上下文模型的限制。这意味着开发者可以利用Qwen-Agent构建出能够理解和生成自然语言、执行复杂任务的智能代理应用。核心功能:更强的工具调用(Function Calling)能力:框架支持智能体自动调用外部工具或函数,包括内置的代码解释器、浏览器助手等,也支持开发者自定义工具,扩展智能体的能力。便捷的MCP
2025-06-02 16:47:31
1145
2
原创 【LLM】Agent综述Advances And Challenges In Foundation Agents
对 Agent 来说也是。奖励系统负责评估 Agent 的行为表现,并提供学习信号。这不仅仅是简单的奖励,可能涉及到多目标优化、内在动机(如好奇心、探索欲)以及对未来价值的预估。价值系统则负责评估不同状态或行动的长期价值,指导 Agent 的决策。如何设计能够引导 Agent 学习复杂行为、符合人类价值观,并且能够适应动态环境的奖励和价值系统,是确保 Agent 目标一致性的核心。reward范式的分类:
2025-06-02 14:47:15
699
原创 【LLM】FastAPI入门教程
FastAPI 是一个现代的、快速(高性能)的 Web 框架,用于构建 API(应用程序编程接口)。它基于 Python 3.7+,使用了 Python 类型提示(type hints),并且具有自动化的文档功能。(1)安装fastapi```python# 安装 FastAPI 和一个异步 HTTP 服务器(比如 Uvicorn)pip install fastapi uvicorn```(2)创建一个简单的 FastAPI 应用`main.py`内容如下:```pythonfrom
2025-05-31 17:15:40
889
原创 【MLLM】2025上半年多模态技术发展(Better、Faster、Stronger)
Moonshot AI团队的Kimi-VL-A3B-Thinking。它由MoonViT(SigLIP-so-400M)作为图像编码器,以及一个拥有160亿总参数、仅28亿活跃参数的专家混合(MoE)解码器组成。该模型是Kimi-VL基础视觉语言模型的长链推理微调版本,并进一步通过强化学习进行了对齐。作者还发布了一个指令微调版本,名为Kimi-VL-A3B-Instruct。该模型可以接受长视频、PDF文件、屏幕截图等输入,并且还具备代理能力。小巧但功能强大的模型通过增加模型参数数量和高质量合成数据来
2025-05-31 14:51:29
1057
原创 【LLM】LLM源码阅读与分析工具DeepWiki项目
详细介绍:https://deepwiki.com/shcherbak-ai/contextgem,使用deepwiki去看一个项目很方面。例如,看它的核心模块:https://deepwiki.com/shcherbak-ai/contextgem/2-core-architecture。真的太方便了。Deepresearch与github进展Cognition Labs推出DeepWiki项目,可为GitHub仓库提供AI驱动的实时交互式文档,通过层级化分解和提交历史分析来理解代码全局结构,已索引。
2025-05-25 21:38:40
563
原创 【LLM】deepseek R1之GRPO训练笔记(持续更新)
相关框架对比: - 需微调模型且资源有限 → Unsloth; - 本地隐私优先的小规模推理 → Ollama; - 复杂逻辑或多模态任务 → SGLang; - 高并发生产环境 → vLLM- 微调SFT和GRPO是确实能学到新知识的- 四种格式(``messages``、`sharegpt`、`alpaca`、`query-response`)在AutoPreprocessor处理下都会转换成ms-swift标准格式中的`messages`字段,即都可以直接使用`--dataset <dat
2025-05-04 22:50:34
2063
2
原创 【MLLM】Qwen2.5-Omni-7B/3B模型
Qwen2.5-Omni-7B模型是全模态LLM:输入可以是文本、图片、语音、视频,输出可以是流式的文本/语音提出Thinker-Talker模型架构提出了一种名为 TMRoPE(时间对齐多模态 RoPE)的新颖位置嵌入,用于同步视频输入和音频的时间戳实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出和单模态模型作对比,更强:Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio,并达到了与 Qwen2.5-VL-7B 相当的性能
2025-05-03 15:27:19
992
原创 【LLM】MOE混合专家大模型综述(重要模块&原理)
定义expert类:由线性层和激活函数构成- 定义MOE类: - self.num_experts:专家的数量,也就是上面提到的“并列线性层”的个数,训练后的每个专家的权重都是不同的,代表它们所掌握的“知识”是不同的。 - self.top_k:每个输入token激活的专家数量。 - self.expert_capacity:代表计算每组token时,每个专家能被选择的最多次数。 - self.gate:路由网络,一般是一个线性层,用来计算每个专家被选择的概率。 - self.experts:实
2025-04-30 23:43:21
1532
原创 【Agent】MCP协议 | 用高德MCP Server制作旅游攻略
MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。MCP 的本质:它是一个统一的协议标准,使 AI 模型能够以一致的方式连接各种数据源和工具,类似于 AI 世界的"USB-C"接口。 - 它能够在 LLM/AI Agent 与外部资源之间实现无缝、安全且可扩展的数据交换。MCP 采用客户端-服务器架构,其中 ==MCP 主机(AI 应用)与 MCP 服务器(数据/工具提供方)进行通信==。开发者可以使用 MCP 构建可复用、模块化的连接器,并利用针对主
2025-04-30 21:43:36
1886
原创 【LLM】Qwen3模型训练和推理
在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 预训练了 18 万亿个 token,而 Qwen3 使用的 token 数量几乎是 Qwen2.5 的两倍,约有 36 万亿个 token,涵盖 119 种语言和方言。为了构建这个庞大的数据集,我们不仅从网络收集数据,还从类似 PDF 的文档中收集数据。我们使用 Qwen2.5-VL 从这些文档中提取文本,并使用 Qwen2.5 来提升提取内容的质量。为了增加数学和代码数据量,我们使用 Qwen2.5-Math 和 Qwe
2025-04-29 20:57:38
1853
原创 【Agent】AI智能体评测基座AgentCLUE-General
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:- 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。- 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。- 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够
2025-04-20 22:09:45
537
原创 【LLM训练框架】deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但是训练速度特别慢,于是deepseed就把autoTP+zero1这个方案提出来了,TP的优势是拆模型
2025-04-15 11:52:14
364
原创 【LLM】DeepResearch系列(Search-R1、Search-o1、R1-Searcher)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。核心创新:允许LLM在推理过程中自主决定何时以及如何进行搜索。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理
2025-04-06 18:25:20
1677
原创 【LLM】SuperCLUE-Project项目级代码生成评测
评测指标- 功能完整性 (60%):确保代码完全实现用户指令中描述的所有功能。- 代码质量 (28%):评估代码在效率、可读性和安全性方面的表现。具体包括: - a.效率 (12%):代码在资源占用、DOM操作、数据库/大数据集处理、计算或API调用等方面是否足够优化。 - b.可读性 (8%):代码是否实现了 (1) 采用清晰的命名和一致的格式;(2) 合理地将代码库划分为模块;(3) 保持清晰的项目结构。 c.安全性 (8%):代码是否 (1) 无明显的安全漏洞;(2) 能够有效处理基本
2025-04-05 21:59:36
575
原创 【图解Agent】A Visual Guide to LLM Agents
推理Reasoning增强推理能力:(1)通过提示工程,可以创建LLM应该遵循的推理过程示例。提供示例(也称为少量样本提示)是引导LLM行为的好方法。Chain-of-thought也可以通过零样本提示启用,而无需任何示例,只需简单地说“让一步一步思考”。(2)在训练LLM时,可以给它足够数量包含类似思维示例的数据集,或者LLM可以发现自己的思维过程。一个很好的例子是DeepSeek-R1,其中使用奖励来引导思维过程的使用。体系:从偶然到必然的基石华为通过引入IBM的IPD体系,构建起可复制的高质量研发管理模式。其核心逻辑在于:- 客户需求导向:将“技术导向”转变为“客户需求导向”,通过市场洞察定义产品方向。- 跨部门协同:组建跨职能团队(如PDT),打破部门墙,实现研发、市场、销售等环节的协同。- 结构化流程:定义清晰的开发阶段(如概念、计划、开发、验证、发布),确保“做正确的事”与“正确地做事”。- 比喻厨师团队:市场人员(买菜)、研发人员(切菜)、销售人员(端菜)组队合作。# 二、
2025-03-23 19:53:59
1224
原创 【LLM】Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
Long CoT 的出现现象:研究表明,上下文示例能够引导模型生成推理链,标准化推理链的生成过程。通过实验发现,仅保留逻辑结构的上下文示例也能实现与完整示例相似的性能,强调了 Long CoT 在推理中对逻辑结构的模仿能力。• 推理边界的限制:研究指出,RLMs 在推理任务中存在性能上限,当任务复杂度超过模型的推理边界时,性能会下降。例如,在代码生成任务中,模型在处理复杂逻辑时会遇到困难。此外,模型的输入长度也会影响其推理能力。• 过度思考现象(Overthinking Phenomenon):研
2025-03-23 13:45:24
815
原创 解决报错RuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at “../c10/cuda/driv
# 一、问题描述报错如下,大部分报错解决贴都是说torch和cuda版本不一致会出现这个错误:```pythonRuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at "../c10/cuda/driver_api.cpp":27, please report a bug to PyTorch. Can't find nvmlDeviceGetNvLinkRemoteDeviceType: /home
2025-03-22 16:34:53
728
原创 【LLM】文心大模型4.5、文心大模型X1、文心4.5 Turbo模型
# 一、文心大模型4.5模型链接:https://yiyan.baidu.com- 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。技术亮点:◎ FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;◎ 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合
2025-03-16 12:02:47
746
原创 【RS】OneRec快手-生成式推荐模型
本文提出了一种名为 OneRec 的统一生成式推荐框架,旨在替代传统的多阶段排序策略,通过一个端到端的生成模型直接生成推荐结果。OneRec 的主要贡献包括:编码器-解码器结构:采用稀疏混合专家(MoE)架构扩展模型容量,提升对用户兴趣的建模能力。会话式生成方法:与传统的逐点预测不同,OneRec 提出会话式生成方法,生成整个推荐列表,更好地捕捉上下文信息。迭代偏好对齐模块:结合直接偏好优化(DPO),通过奖励模型(RM)生成偏好数据,优化生成结果。实验表明,OneRec 在大规模工业数据集
2025-03-15 22:05:58
4558
原创 ICLR2025 | SLMRec: 重新思考大语言模型在推荐系统中的价值
问题背景:序列推荐(SR)任务旨在预测用户可能的下一个交互项目。近年来,大型语言模型(LLMs)在SR系统中表现出色,但它们巨大的规模使得在实际平台中应用变得低效和不切实际。研究动机:论文探讨了在SR领域中LLMs的必要性,以及是否存在模型规模和性能之间的不一致性。研究发现LLMs的许多中间层是冗余的。方法提出:基于上述发现,论文提出了一种名为SLMRec的方法,该方法采用简单的知识蒸馏技术来增强小型语言模型(SLMs)在SR任务上的性能。实验设计:论文在大规模行业数据集上进行了广泛的实验,以评
2025-03-15 20:59:39
1427
原创 【LLM】kimi 1.5模型架构和训练流程
语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。## SFT训练100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。- 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用
2025-03-09 15:35:22
1015
原创 【LLM】阿里QwQ推理模型
QwQ-32B模型:https://huggingface.co/Qwen/QwQ-32B使用RL训练,没使用传统的奖励模型,使用数学答案检查器、代码执行器等规则奖励。指标和ds基本持平:# Reference[1] https://huggingface.co/Qwen/QwQ-32B[2] https://qwenlm.
2025-03-09 14:57:52
304
原创 【Agent】Coze个人智能体助手搭建(agent | workflow)
工作流是全局的,智能体是局部的。- 适合workflow的场景的特点: - (1)重复性工作多 :业务中的任务或流程高度重复。 - (2)业务流程固定 :步骤相对固定,且具有标准化的操作流程。- coze工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能模块进行组合,从而实现复杂、稳定的业务流程编排。当目标任务场景包含较多的步骤,且对输出结果的准确性、格式有严格要求时,适合配置工作流来实现。@[toc]# 一、Agent和工作流的区别智能体(AI Agent)
2025-03-09 14:46:30
1911
原创 【LLM】From System 1 to System 2 推理LLM综述
(1)结构搜索:- 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。- 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状
2025-03-02 15:29:05
837
原创 【LLM】DeepSeek开源技术汇总
一、FlashMLA:MLA解码内核二、DeepEP:针对MoE和EP的通信库三、DeepGEMM:FP8 通用矩阵乘法(GEMM)库四、DualPipe、EPLB:双向管道并行算法五、3FS:一种高性能分布式文件系统
2025-02-28 22:50:36
1549
原创 【LLM】增强大模型推理能力的四种范式
增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实还是依赖于基座模型本身。小模型直接进行RL未必奏效,将DeepSeek-R1-Zero中相同的纯RL方法
2025-02-23 16:48:09
1379
原创 【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确给出正确的推理结果。任何业务中的「潜规则」都需要显式地定义在 prompt 中,并尽可能避免与
2025-02-23 02:02:52
3832
Python思维导图.rar
2020-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人