- 博客(1261)
- 资源 (4)
- 收藏
- 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In
2024-06-02 13:05:46
3841
8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)
- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习
2021-10-06 21:11:58
2121
13
原创 【LLM】deepseek R1之GRPO训练笔记(持续更新)
相关框架对比: - 需微调模型且资源有限 → Unsloth; - 本地隐私优先的小规模推理 → Ollama; - 复杂逻辑或多模态任务 → SGLang; - 高并发生产环境 → vLLM- 微调SFT和GRPO是确实能学到新知识的- 四种格式(``messages``、`sharegpt`、`alpaca`、`query-response`)在AutoPreprocessor处理下都会转换成ms-swift标准格式中的`messages`字段,即都可以直接使用`--dataset <dat
2025-05-04 22:50:34
1098
原创 【MLLM】Qwen2.5-Omni-7B/3B模型
Qwen2.5-Omni-7B模型是全模态LLM:输入可以是文本、图片、语音、视频,输出可以是流式的文本/语音提出Thinker-Talker模型架构提出了一种名为 TMRoPE(时间对齐多模态 RoPE)的新颖位置嵌入,用于同步视频输入和音频的时间戳实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出和单模态模型作对比,更强:Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio,并达到了与 Qwen2.5-VL-7B 相当的性能
2025-05-03 15:27:19
710
原创 【LLM】MOE混合专家大模型综述(重要模块&原理)
定义expert类:由线性层和激活函数构成- 定义MOE类: - self.num_experts:专家的数量,也就是上面提到的“并列线性层”的个数,训练后的每个专家的权重都是不同的,代表它们所掌握的“知识”是不同的。 - self.top_k:每个输入token激活的专家数量。 - self.expert_capacity:代表计算每组token时,每个专家能被选择的最多次数。 - self.gate:路由网络,一般是一个线性层,用来计算每个专家被选择的概率。 - self.experts:实
2025-04-30 23:43:21
1222
原创 【Agent】MCP协议 | 用高德MCP Server制作旅游攻略
MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。MCP 的本质:它是一个统一的协议标准,使 AI 模型能够以一致的方式连接各种数据源和工具,类似于 AI 世界的"USB-C"接口。 - 它能够在 LLM/AI Agent 与外部资源之间实现无缝、安全且可扩展的数据交换。MCP 采用客户端-服务器架构,其中 ==MCP 主机(AI 应用)与 MCP 服务器(数据/工具提供方)进行通信==。开发者可以使用 MCP 构建可复用、模块化的连接器,并利用针对主
2025-04-30 21:43:36
948
原创 【LLM】Qwen3模型训练和推理
在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 预训练了 18 万亿个 token,而 Qwen3 使用的 token 数量几乎是 Qwen2.5 的两倍,约有 36 万亿个 token,涵盖 119 种语言和方言。为了构建这个庞大的数据集,我们不仅从网络收集数据,还从类似 PDF 的文档中收集数据。我们使用 Qwen2.5-VL 从这些文档中提取文本,并使用 Qwen2.5 来提升提取内容的质量。为了增加数学和代码数据量,我们使用 Qwen2.5-Math 和 Qwe
2025-04-29 20:57:38
1103
原创 【Agent】AI智能体评测基座AgentCLUE-General
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:- 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。- 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。- 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够
2025-04-20 22:09:45
330
原创 【LLM训练框架】deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但是训练速度特别慢,于是deepseed就把autoTP+zero1这个方案提出来了,TP的优势是拆模型
2025-04-15 11:52:14
213
原创 【LLM】DeepResearch系列(Search-R1、Search-o1、R1-Searcher)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。核心创新:允许LLM在推理过程中自主决定何时以及如何进行搜索。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理
2025-04-06 18:25:20
1069
原创 【LLM】SuperCLUE-Project项目级代码生成评测
评测指标- 功能完整性 (60%):确保代码完全实现用户指令中描述的所有功能。- 代码质量 (28%):评估代码在效率、可读性和安全性方面的表现。具体包括: - a.效率 (12%):代码在资源占用、DOM操作、数据库/大数据集处理、计算或API调用等方面是否足够优化。 - b.可读性 (8%):代码是否实现了 (1) 采用清晰的命名和一致的格式;(2) 合理地将代码库划分为模块;(3) 保持清晰的项目结构。 c.安全性 (8%):代码是否 (1) 无明显的安全漏洞;(2) 能够有效处理基本
2025-04-05 21:59:36
492
原创 【图解Agent】A Visual Guide to LLM Agents
推理Reasoning增强推理能力:(1)通过提示工程,可以创建LLM应该遵循的推理过程示例。提供示例(也称为少量样本提示)是引导LLM行为的好方法。Chain-of-thought也可以通过零样本提示启用,而无需任何示例,只需简单地说“让一步一步思考”。(2)在训练LLM时,可以给它足够数量包含类似思维示例的数据集,或者LLM可以发现自己的思维过程。一个很好的例子是DeepSeek-R1,其中使用奖励来引导思维过程的使用。体系:从偶然到必然的基石华为通过引入IBM的IPD体系,构建起可复制的高质量研发管理模式。其核心逻辑在于:- 客户需求导向:将“技术导向”转变为“客户需求导向”,通过市场洞察定义产品方向。- 跨部门协同:组建跨职能团队(如PDT),打破部门墙,实现研发、市场、销售等环节的协同。- 结构化流程:定义清晰的开发阶段(如概念、计划、开发、验证、发布),确保“做正确的事”与“正确地做事”。- 比喻厨师团队:市场人员(买菜)、研发人员(切菜)、销售人员(端菜)组队合作。# 二、
2025-03-23 19:53:59
1082
原创 【LLM】Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
Long CoT 的出现现象:研究表明,上下文示例能够引导模型生成推理链,标准化推理链的生成过程。通过实验发现,仅保留逻辑结构的上下文示例也能实现与完整示例相似的性能,强调了 Long CoT 在推理中对逻辑结构的模仿能力。• 推理边界的限制:研究指出,RLMs 在推理任务中存在性能上限,当任务复杂度超过模型的推理边界时,性能会下降。例如,在代码生成任务中,模型在处理复杂逻辑时会遇到困难。此外,模型的输入长度也会影响其推理能力。• 过度思考现象(Overthinking Phenomenon):研
2025-03-23 13:45:24
691
原创 解决报错RuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at “../c10/cuda/driv
# 一、问题描述报错如下,大部分报错解决贴都是说torch和cuda版本不一致会出现这个错误:```pythonRuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at "../c10/cuda/driver_api.cpp":27, please report a bug to PyTorch. Can't find nvmlDeviceGetNvLinkRemoteDeviceType: /home
2025-03-22 16:34:53
455
原创 【LLM】文心大模型4.5、文心大模型X1、文心4.5 Turbo模型
# 一、文心大模型4.5模型链接:https://yiyan.baidu.com- 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。技术亮点:◎ FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;◎ 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合
2025-03-16 12:02:47
685
原创 【RS】OneRec快手-生成式推荐模型
本文提出了一种名为 OneRec 的统一生成式推荐框架,旨在替代传统的多阶段排序策略,通过一个端到端的生成模型直接生成推荐结果。OneRec 的主要贡献包括:编码器-解码器结构:采用稀疏混合专家(MoE)架构扩展模型容量,提升对用户兴趣的建模能力。会话式生成方法:与传统的逐点预测不同,OneRec 提出会话式生成方法,生成整个推荐列表,更好地捕捉上下文信息。迭代偏好对齐模块:结合直接偏好优化(DPO),通过奖励模型(RM)生成偏好数据,优化生成结果。实验表明,OneRec 在大规模工业数据集
2025-03-15 22:05:58
2072
原创 ICLR2025 | SLMRec: 重新思考大语言模型在推荐系统中的价值
问题背景:序列推荐(SR)任务旨在预测用户可能的下一个交互项目。近年来,大型语言模型(LLMs)在SR系统中表现出色,但它们巨大的规模使得在实际平台中应用变得低效和不切实际。研究动机:论文探讨了在SR领域中LLMs的必要性,以及是否存在模型规模和性能之间的不一致性。研究发现LLMs的许多中间层是冗余的。方法提出:基于上述发现,论文提出了一种名为SLMRec的方法,该方法采用简单的知识蒸馏技术来增强小型语言模型(SLMs)在SR任务上的性能。实验设计:论文在大规模行业数据集上进行了广泛的实验,以评
2025-03-15 20:59:39
1169
原创 【LLM】kimi 1.5模型架构和训练流程
语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。## SFT训练100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。- 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用
2025-03-09 15:35:22
869
原创 【LLM】阿里QwQ推理模型
QwQ-32B模型:https://huggingface.co/Qwen/QwQ-32B使用RL训练,没使用传统的奖励模型,使用数学答案检查器、代码执行器等规则奖励。指标和ds基本持平:# Reference[1] https://huggingface.co/Qwen/QwQ-32B[2] https://qwenlm.
2025-03-09 14:57:52
267
原创 【Agent】Coze个人智能体助手搭建(agent | workflow)
工作流是全局的,智能体是局部的。- 适合workflow的场景的特点: - (1)重复性工作多 :业务中的任务或流程高度重复。 - (2)业务流程固定 :步骤相对固定,且具有标准化的操作流程。- coze工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能模块进行组合,从而实现复杂、稳定的业务流程编排。当目标任务场景包含较多的步骤,且对输出结果的准确性、格式有严格要求时,适合配置工作流来实现。@[toc]# 一、Agent和工作流的区别智能体(AI Agent)
2025-03-09 14:46:30
1352
原创 【LLM】From System 1 to System 2 推理LLM综述
(1)结构搜索:- 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。- 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状
2025-03-02 15:29:05
743
原创 【LLM】DeepSeek开源技术汇总
一、FlashMLA:MLA解码内核二、DeepEP:针对MoE和EP的通信库三、DeepGEMM:FP8 通用矩阵乘法(GEMM)库四、DualPipe、EPLB:双向管道并行算法五、3FS:一种高性能分布式文件系统
2025-02-28 22:50:36
1376
原创 【LLM】增强大模型推理能力的四种范式
增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实还是依赖于基座模型本身。小模型直接进行RL未必奏效,将DeepSeek-R1-Zero中相同的纯RL方法
2025-02-23 16:48:09
1116
原创 【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确给出正确的推理结果。任何业务中的「潜规则」都需要显式地定义在 prompt 中,并尽可能避免与
2025-02-23 02:02:52
3186
原创 字节LLM未来五大研究方向
Seed Edge 5 大长期研究方向,不会像迭代模型那样追求快速出成果: 1、 下一代推理:探索更高效且更通用、提升模型推理能力的方法。 2、 下一代感知:找到统一生成和理解表示的方法,表示和压缩真实世界,构建 “世界模型”。 3、 软硬一体的模型设计:从软硬一体出发,探索 Transformer+GPU 之外的模型设计,发挥下一代硬件的能力。 4、 下一代范式:在反向传播、Transformer 架构、预训练 + 对齐的模式之外,探索更高效的模型结构和学习方法。 5、 下一代 Sca
2025-02-23 01:09:18
232
原创 【MLLM】GRPO在多模态LLM的应用
# note- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力@[toc]# 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model
2025-02-23 01:04:35
1135
原创 【LLM】O1/R1系列LLM数据篇
关于思维链推理的10开源数据集:目前开源的数据主要有如下:1、Magpie-Reasoning-V2数据集,其中包含DeepSeek-R1生成的250K思路链推理样本,这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B2、Dolphin-R1,包含80万个样本的数据集,其中的数据来自DeepSeek-R1和
2025-02-09 23:07:18
1067
1
原创 【LLM】DeepSeek R1训练成本降低分析篇
DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性能@[toc]# 一、DeepSeek R1训练流程回顾- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性
2025-02-09 17:09:27
771
原创 【LLM】为何DeepSeek 弃用MST却采用Rejection采样
在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。 # 拒绝采样 Rejection sampling🎯1. 概念模型生成多个候选答案,然后过滤掉不符合条件的,只保留“好”的结果。2. 原理- LLM 生成一堆候选答案(比如推理路径或解决方案)- 通过评分函数(比如正确性、逻辑性)评估每个候选答案。- 不符合条件的答案被拒绝,最终选出最好的一个。3. 优点- 简单实现起来超
2025-02-05 23:12:53
1700
原创 【LLM-agent】(task6)构建教程编写智能体
# 一、功能需求功能:输入教程主题,然后自动生成完整的教程内容思路:先通过 LLM 大模型生成教程的目录,再对目录按照二级标题进行分块,对于每块目录按照标题生成详细内容,最后再将标题和内容进行拼接。分块的设计解决了 LLM 大模型长文本的限制问题。# 二、相关代码## (1)定义生成教程的目录 Action 类定义 `WriteDirectoryAction` 类,继承自 `BaseAction`。该类的主要功能是生成一个教程的目录结构。具体来说,它通过调用大语言模型(LLM)来根据给定的主题
2025-02-02 12:24:43
865
原创 【LLM-agent】(task5)构建哲学家多智能体
通过编排动作设置哲学家智能体的"示例任务",目的是让 Agent 更好地理解如何回答问题。主要包括==设置示例问题、定义思考过程、应用到所有哲学家==。建立了一个"先思考,后总结"的回答模式,这种方式相当于给AI提供了一个"样板",告诉它:"这就是我们期望你回答问题的方式"@[toc]# 一、构建智能搜索代理- Zigent 是一个基于 Agentlite 框架改进的智能代理开发框架。Agentlite 最初由 Salesforce AI Research 团队开发。Zigent的参考地址:htt
2025-02-01 17:13:58
1019
原创 【LLM-agent】(task4)搜索引擎Agent
# note - @[toc]# 一、搜索引擎Agent```pythonimport osfrom dotenv import load_dotenv# 加载环境变量load_dotenv()# 初始化变量base_url = Nonechat_model = Noneapi_key = None# 使用with语句打开文件,确保文件使用完毕后自动关闭env_path = "/Users/guomiansheng/Desktop/LLM/llm_app/wow-age
2025-02-01 12:05:30
1046
原创 【LLM-agent】(task3)数据库对话Agent和RAG接入Agent
# note - 数据库对话Agent- RAG接入Agent@[toc]# 一、数据库对话Agent```pythonimport osfrom dotenv import load_dotenv# 加载环境变量load_dotenv()# 初始化变量base_url = Nonechat_model = Noneapi_key = None# 使用with语句打开文件,确保文件使用完毕后自动关闭env_path = ".env.txt"with open(env
2025-02-01 11:36:36
478
原创 【LLM-agent】(task2)用llama-index搭建AI Agent
# note - LlamaIndex 实现 Agent 需要导入 `ReActAgent` 和 `Function Tool`,循环执行:推理、行动、观察、优化推理、重复进行。可以在 `arize_phoenix` 中看到 agent 的具体提示词,工具被装换成了提示词- ReActAgent 使得业务自动向代码转换成为可能,只要有 API 模型就可以调用,很多业务场景都适用,LlamaIndex 提供了一些开源的工具实现,可以到官网查看。- 虽然 Agent 可以实现业务功能, 但是一个 Agen
2025-02-01 10:11:07
1711
1
原创 【LLM】Ollama框架入门指北
# note- Ollama是一个开源框架,专门设计用于在本地运行大型语言模型。它的主要特点是将模型权重、配置和数据捆绑到一个包中,从而优化了设置和配置细节,包括GPU使用情况,简化了在本地运行大型模型的过程。- Ollama提供了对模型量化的支持,这可以显著降低显存要求。例如,4-bit量化可以将FP16精度的权重参数压缩为4位整数精度,从而大幅减小模型权重体积和推理所需显存。这使得在普通家用计算机上运行大型模型成为可能。- Ollama框架还支持多种不同的硬件加速选项,包括纯CPU推理和各类底层计
2025-01-31 19:59:23
1641
原创 【LLM-agent】(task1)简单客服和阅卷智能体
# note - 一个完整的agent有模型 (Model)、工具 (Tools)、编排层 (Orchestration Layer)- 一个好的结构化 Prompt 模板,某种意义上是构建了一个好的全局思维链。 如 LangGPT 中展示的模板设计时就考虑了如下思维链:Role (角色) -> Profile(角色简介)—> Profile 下的 skill (角色技能) -> Rules (角色要遵守的规则) -> Workflow (满足上述条件的角色的工作流程) -> Initializatio
2025-01-31 19:16:36
949
原创 【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui
# note- DeepSeek-R1-Distill-Qwen-7B 的测试效果很惊艳,CoT 过程可圈可点,25 年应该值得探索更多端侧的硬件机会。@[toc]# 一、下载 Ollama访问 Ollama 的官方网站 https://ollama.com/library/deepseek-r1, 根据系统提示下载适合自己电脑的版本。自主激发模型的推理能力,并结合蒸馏技术实现高效迁移- R1模型 - DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性; - DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练,进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。- 蒸馏模型贡献:开源DeepSeek-R1-Zero、Dee
2025-01-28 00:19:59
6398
2
Python思维导图.rar
2020-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人