自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1197)
  • 收藏
  • 关注

原创 一文读懂多模态大模型微调,武大发布最全综述!

模态大语言模型(MLLMs)展现出卓越的通用能力,在视觉与语言推理任务中表现出色,并具备一定的跨任务泛化能力。但是,其在某些下游领域的应用能力有限。通过在下游数据上进行微调,MLLM能够灵活适配多种任务,从视觉问答到医学诊断等领域,展现出惊人的潜力。这是否意味着MLLM的下游微调已发展到足以应对不同领域的复杂挑战,并有效解决模型迁移与泛化问题的程度?不同类型的微调方法在应对这些挑战时各有哪些优势和不足?

2025-05-07 15:38:07 578

原创 DeepSeek-R1-7b全量微调(SFT)技术教程

微调(Fine-tuning)是一种典型的大模型(LLM)后训练技术,通过特定领域的数据对预训练模型的参数进行调整,使其适应新任务或领域。模型本身的权重被修改,从而内化新知识。特别适用于医疗、法律、教育等垂直领域的大模型应用。大模型微调包括有监督微调(SFT)和参数高效微调(PEFT)两种方式。SFT一般需要对预训练模型所有参数进行更新,所以也叫全参数微调、全量微调。

2025-05-07 15:37:10 651

原创 从零开始构建AI智能体

Agent是一种能够代表用户自主完成任务的系统。传统软件是工具,用户操作它完成任务;而 Agent 是助手,它代表用户完成任务。它不仅能执行指令,还能理解上下文、做出判断、调用工具、处理异常,甚至在失败时主动交还控制权。使用大语言模型(LLM)驱动决策与执行动态调用工具(API、MCP、函数等),与外部系统交互拥有明确的行为指令与安全边界简单的聊天机器人或单轮对话系统不属于 Agent 范畴。

2025-05-06 19:53:08 553

原创 Agent架构解析及分布式Agent协作方案

AI Agent(智能体)系统发展迅猛,且关注点已经不再局限在Agent的规划推理等基本能力,智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视,比如最近的MCP和A2A。上一篇我们介绍了A2A,今天接着再聊聊分布式Agent系统的话题。Agent 有效减少人类工作总量,人与 AI 协作才是最终形态。人类与 AI 交互可大致 分为三种模式。Embedding 模式中大模型可以填补一些信息缺失,完成少量子任务,例 如总结信息等等。用户最终会整合挑选 AI 提供的信息,并自主完成任务。

2025-05-06 19:52:04 324

原创 AI Agent为何突然爆火?一文讲透它的原理与未来

想象你的冰箱不仅能自动补货,还会根据你的浏览记录建议改用杏仁奶——这就是AI Agent的魔力!简单来说,AI Agent是具备自主决策能力的智能系统,它能:✅ 感知环境✅ 处理信息✅ 做出行动就像一名全能型数字助理,它不再局限于简单的互动响应。

2025-05-06 19:50:52 604

原创 大厂大模型必知的5种agent模式

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。天道酬勤,你越努力,就会成为越优秀的自己。

2025-05-05 20:24:18 863

原创 多模态数据融合方法介绍

医疗保健领域的机器学习方法传统上专注于使用单一模态数据,这限制了它们有效复制整合多种信息源以改进决策的临床实践的能力。临床医生通常依赖各种数据源,包括患者的人口统计信息、实验室数据、生命体征和各种影像数据模态,来做出明智的决策并将他们的发现与实际情况联系起来。机器学习的最新进展促进了多模态数据的更高效整合,从而产生了能够更好地代表临床医生诊疗方法的应用程序。

2025-05-05 20:10:16 649

原创 CHIL | Health-LLM: 在健康预测任务上的大模型能力探索

作者最终采用自然语言字符串形式,因为它简单有效且广泛接受,,通过采用特殊符号(如NaN)处理缺失值。还受到生物传感数据按特定时间窗口(每日、每周、每月)组织的进一步影响,组织不同时间窗口的时序字符串提供给大模型。

2025-05-05 20:09:30 685

原创 体验了最新的Qwen3之后,端侧之王果然没有让我失望!

一觉醒来,Qwen3 果然如期而至!并且从来不像某CloseAI,雷声大雨点小!Qwen3这次推出了两大系列模型,让我眼前一亮:Dense模型(常见的GPT风格)和MoE模型(混合专家模型,效率更高)。旗舰型号Qwen3-235B-A22B(2350亿总参数,220亿激活参数)表现惊艳!在代码、数学、通用能力等测试中,它能与DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Pro这些顶尖模型平起平坐,不得不佩服国产大模型的进步速度。

2025-05-04 10:45:00 839

原创 突破人工智能大模型的“数据瓶颈” ——构建国家级语料库运营平台的思考

当前,全球人工智能大模型行业竞争日趋激烈,语料库成为提升人工智能大模型技术性能和应用效果的关键。但是,我国语料库在数量和质量上均存在不足,难以满足快速发展的人工智能大模型训练需求。从全球来看,各国都在加快语料库发展,特别是推动高质量语料库的建设和应用。因此,文章基于国外对标和国内环境分析,从平台定位、总体架构、运营主体、核心内容等维度提出建设国家级语料库运营平台的建议。人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。

2025-05-03 10:45:00 850

原创 解决Dify与Milvus集成难题:从零到一的实战避坑指南

Attu 里面可以看到 相应的collection 生成,说明 部署集成Milvus+Dify 已经成功.envNGINX_PORT。

2025-05-02 10:45:00 743

原创 Qwen3 终于来了!全面超越 DeepSeek R1,原生支持 MCP

综合来看,Qwen3 的发布不仅是一次榜单突破,我觉得更是国产 AI 大模型从“对话”走向“执行”的一次关键跃迁。无论是全面超越 DeepSeek R1 的硬核性能,还是原生支持 MCP 协议的 Agent 能力,亦或是混合推理机制和超低部署成本,Qwen3 都展现了一次恰到好处的升级迭代。未来,随着 Agent 时代的加速到来,Qwen3 或许将成为推动 AI 应用落地的核心引擎。

2025-05-01 10:45:00 1693

原创 星标41K,面向大模型友好的开源网页爬虫和数据抓取工具

Crawl4AI 是当前 GitHub 上最热门的开源项目之一,由一群充满活力的开发者社区持续维护。它为大语言模型(LLMs)、AI代理和数据管道量身打造,提供了极速、AI就绪的网页抓取体验。开源、灵活、专为实时性能设计,Crawl4AI 让开发者在速度、精准度与部署效率上都拥有绝对优势。Crawl4AI 的创始人是一位对技术和数据提取充满热情的计算机科学家。从童年接触 Amstrad 电脑,到研究生期间专注于自然语言处理(NLP),创始人一直致力于探索网络数据的潜力。

2025-04-30 20:30:30 917

原创 AI时代的企业架构-对传统企业架构中的4A架构能力的增强

我们常说的4A架构就是业务架构、数据架构、应用架构和技术架构,其实去理解4A架构的集成核心,你仍然要去参考企业架构这本书里面谈到的企业架构元模型。大家看我今天这张图的时候也能够感觉到我其实这张图也是依托在企业架构元模型的基础上,只是做了一些调整和优化。但是我今天重点不是谈这个。而是想简单谈下在AI和大模型时代,对我们传统的企业架构和4A架构规划,究竟带来了哪些变化?所以为了更好的描述这个问题,我仍然准备从信息化,数字化到智能化三个关键的阶段来描述企业架构的描述和定义重点究竟在哪里。

2025-04-29 20:21:05 569

原创 Ollama vs vLLM 私有化部署终极对比:选型、实战与避坑指南

•◦ 轻量化容器化部署,支持Windows/macOS/Linux跨平台◦ 内置模型量化技术(如DeepSeek-R1的q4版本),显存占用降低50%•◦:将KV Cache分块存储,支持4K以上长文本推理◦:动态合并请求,吞吐量达5000+ tokens/s(是Ollama的5倍)✅:支持离线部署,数据全程加密;Docker容器化隔离,避免环境冲突✅:支持动态批处理+多GPU负载均衡;内置Prometheus监控,故障自动恢复•。

2025-04-29 20:19:52 933

原创 一文彻底搞懂智能体Agent基于ReAct的工具调用

AI智能体是指具备一定自主性、能感知环境并通过智能决策执行特定任务的软件或硬件实体。它结合了人工智能技术(如机器学习、自然语言处理、计算机视觉等),能够独立或协作完成目标。基于大语言模型(LLM)的Function Calling可以令智能体实现有效的工具使用和与外部API的交互。支持Function Calling的模型(如gpt-4,qwen-plus等)能够检测何时需要调用函数,并输出调用函数的函数名和所需参数的JSON格式结构化数据。

2025-04-28 20:19:14 1029

原创 生成流模型赋能药物可合成设计——RXNFLOW 创新 AI 药物发现合成壁垒

在 AI 药物发现领域,大多数生成模型犹如在理想国中构建分子,往往忽视化合物可合成性这一现实瓶颈。有研究团队最新提出的 RXNFLOW 框架,通过构建基于预定义化学砌块和反应模板的合成路径生成范式,为这一难题带来破局之道。研究团队创新性地采用生成流网络(GFlowNets),在 120 万化学砌块和 71 个反应模板构成的浩瀚化学空间中,实现了合成可行性与分子效力的双重优化。通过创新的动作空间子采样策略,巧妙平衡了海量化学空间探索与计算成本之间的矛盾,这在既往受限于动作空间压缩的传统方法中难以实现。

2025-04-28 20:15:35 887

原创 如何在Agent中设置Memory

LLM代理可以被定义为能够对环境采取行动的大型语言模型。代理的主要组成部分包括:记忆、规划、提示、知识和工具。大型语言模型可以被视为这个架构的大脑,而其他所有组件则是代理正常工作的基础模块。提示是向LLM提供其目标、行为和计划信息的指令。复杂问题通常需要链式思考的方法。因此,代理必须通过其推理能力制定计划。可执行的函数、API或其他服务,让代理能够完成任务并与环境交互。没有领域知识,代理就无法解决甚至理解任务。所以要么对LLM进行微调以获取知识,要么创建工具从数据库中提取知识。众所周知,代理通过先将复杂任务

2025-04-28 20:14:51 745

原创 264页 Agent 综述!MetaGPT、Mila、斯坦福、耶鲁、谷歌半年共同撰写

2025 年,Agent 的热度持续升高,无论是 MCP 协议的普及让整个 Agent 的生态被打开,还是 A2A 协议的发布,让我们对未来多 Agents 的生态充满了期待。但目前大部分 Agent 仅是基于 LLM 的简单延伸,距离真正的通用的智能尚有距离,在目前的设计下,面对复杂的真实世界,Agent 面临着推理规划、长期记忆、自主学习以及安全对齐等核心能力不足的问题。为了明确定义我们距离通用智能的差距,以此来构建下一代 Agent,研究来自。

2025-04-27 11:12:31 773

原创 初探分布式Agent系统架构,及全新AutoGen框架下的分布式Agent Demo体验

*以上三种方案各有侧重:AutoGen 框架提供*一体化的解决方案*,适合于快速构建同构环境下的多Agent协作;A2A 协议致力于成为*异构Agent间的通用语言*,为跨平台、多供应商的Agent互操作提供标准,强调开放生态下的协作;经典RPC/MCP方法则是**沿用微服务思想**的直观做法,依赖成熟技术栈,但对开发者要求较高,需要自行处理大量协作细节。实际应用中,这三种方法并非互斥:例如我们可以在一个AutoGen系统内部实现多Agent对话协作,同时通过RPC调用外部的专业服务Agent。

2025-04-27 11:11:23 583

原创 DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1

DianJin-R1是一个针对金融领域的推理增强框架,旨在解决大语言模型在该领域的推理挑战。该框架使用DianJin-R1Data数据集,结合CFLUE、FinQA和中国合规检查(CCC)数据,涵盖多样的金融推理场景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5进行微调,采用结构化格式生成推理步骤和最终答案。通过应用群体相对策略优化(GRPO)强化学习,模型获得了结构化输出和答案正确性的双重奖励信号。

2025-04-27 11:09:37 819

原创 图解AI三大核心技术:RAG、大模型、智能体

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

2025-04-26 10:45:00 1049

原创 RAG超图革命!graphRAG进入群聊时代!

为了让大家更直观地感受"超图如何表示多元关系"以及"如何用这种结构来检索知识",我们先设计一个生活化的比喻场景。

2025-04-25 20:40:40 954

原创 Dify 与 MCP:开启智能体应用开发新征程

本文更偏向于实战,我会讲解如何通过 Dify 调用 1Panel 的 MCP Server,至于 MCP 的具体组成、MCP 各部分的含义本文将不会涉及或只在必要的地方予以说明。本文选择 1Panel MCP Server 作为示例单纯是因为其操作简单、易于使用,同时我个人管理服务器使用的也是 1Panel。

2025-04-25 20:36:55 846

原创 DeepSeek基础:MoE概念详解

在有关DeepSeek的介绍中我们经常会看到MoE的概念,**混合专家(Mixture of Experts, MoE)是一种通过分工协作提升模型性能的技术,其核心思想类似于“专业团队合作”“分而治之”的思想。**那为什么需要MoE呢?MoE的核心思想、技术原理、创新优势及应用场景有哪些?本文将从以下方面介绍:MoE产生背景MoE核心思想MoE核心技术细节MoE创新优势与挑战MoE应用场景与价值**:**传统神经网络(如Transformer)通过堆叠层数提升性能,但参数量与计算成本呈指数级增长。

2025-04-24 10:20:31 837

原创 Alibaba首创:多模态混合检索+多智能体RAG

为了将视觉检索与纯文本检索结合起来,Alibaba提出了ViDoRAG,一个针对视觉文档复杂推理的新型多智能体RAG框架。检索能力不足推理能力不足训练数据的不足收集数据集查询创建质量审查多模态精炼最终构建的数据集样式自适应召回与高斯混合模型(Gaussian Mixture Model, GMM)视觉与文本混合检索从粗到细的推理过程,包括三个智能体:搜索智能体(Seeker Agent)检查智能体(Inspector Agent)回答智能体(Answer Agent)

2025-04-24 10:19:02 375

原创 那么多接入DeepSeek的,终于有一家与众不同了!

这篇文章提到的方法只是涉及到标题生成和图片生成,实际上扣子平台的智能体覆盖的范围非常广泛,它可以写作文案、生成故事、执行代码、语音播报… 还可以联网查询天气、股市、时事新闻、汇率… 你不需要有任何编程基础,就可以轻松创建一个符合自己需要的智能体。如今扣子又独家支持 Deepseek Functiocall 能力,相当于让DeepSeek可以调用海量的插件,极大地拓展了智能体的能力边界,现在能限制你的,只有你的想象力了。

2025-04-24 10:17:32 967

原创 DeepSeek-V3-0324 本地部署,vLLM和SGLang的方法

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。天道酬勤,你越努力,就会成为越优秀的自己。

2025-04-23 20:21:29 752

原创 AAAI 25|LightPROF:基于知识图谱的大语言模型轻量级推理框架

随着更多大语言模型(LLM)的出现,其持续提升的性能为自然语言处理(NLP)领域带来了重大创新。在庞大数据量和海量参数下展现的"突现能力",使LLM在复杂零样本任务中表现卓越。尽管效果显著,LLM在知识密集型任务中仍面临挑战:由于缺乏任务特定的先验知识和理解能力,以及模型训练的高成本耗时性,导致知识库持续更新困难。为解决这些问题,研究者提出通过知识图谱(KG)为LLM提供可靠且持续更新的知识库,以支持更精准可解释的推理。KGQA作为典型的知识密集型任务,现有工作探索了多种LLM与KG协同推理方法。

2025-04-23 20:20:05 290 1

原创 为什么 AI Agent 需要自己的浏览器?

• 可预见的未来,Scraping 依然会是长期存在的需求。• 互联网本质上是不确定的,但我们目前仍在用确定性的工具来应对它。• 浏览器自动化这个基础组件长期以来缺乏足够的投资,而 AI 应用在未来很多年都将高度依赖这一能力。• 市场上存在大量 AI 和非 AI 的使用场景,这为新兴创业公司提供了难得的颠覆机会。• 能够把握住这个机会的创始人,通常具有深厚的 headless browser 技术背景、开发者工具经验,以及对 AI 领域的热情与洞察力。

2025-04-22 11:21:45 648

原创 GitHub开源最强MCP客户端指南!手把手教你玩转AI交互!

这几天被MCP刷屏了,人都刷麻了,虽然之前说Manus 的核心底层是MCP ,但是我并没有去研究MCP,因为MCP 的服务好像用不到,这几天看到一个GitHub 的MCP-Server,是不是我后面可以一键找GitHub项目?今天找了一个MCP 客户端项目什么是MCP客户端?Model Context Protocol (MCP)客户端是能够与MCP服务器交互的应用程序或工具,它们使AI模型能够安全地访问和操作各种外部资源和服务。MCP客户端作为AI模型与外部世界之间的桥梁,极大地扩展了AI的能力边界。

2025-04-22 11:19:30 891

原创 VLLM+ray多节点部署大模型

A机器上有4张卡,B机器上有4张卡,我只用A机器上的1张卡和B机器上的1张卡。(官方的样例是使用节点的所有卡,这里两个节点各选一张是为了能够学习和验证分布式部署,其他的卡主要是已经部署了服务,不方便让其他人把服务下了。。)这里的步骤将官方的脚本进行拆解,按步骤分步执行。环境:显卡型号:v100cuda版本:12.2vllm镜像:0.7.3大模型:qwen-coder-32b-gptq因为涉及多个节点,这里需要指定网卡来通信。一般网卡众多,本方案是没有高速互联使用pcie的方案。

2025-04-22 10:53:23 998

原创 Agentic AI:8个开源框架对比-2025更新

我们都听说过和,但你知道吗,除此之外还有几十个开源的代理框架 - 其中很多都是在去年发布的。简单测试了一些比较流行的框架,以便了解它们的工作方式以及开始使用的难易程度。下文就来进行详细的对比我们将重点关注和。我们还会把它们和以及做个比较。我们将看看一个框架实际上是做什么的,不同的设计选择,它们之间有何不同,以及一些关于它们背后的思想流派的信息。

2025-04-21 20:12:50 922

原创 RagFlow文档解析过程分析

RagFlow在文档切片过程中提供了丰富的配置项供用户进行选择,几乎涵盖了目前RAG领域的各种最新的研究成果,特别是利用一系列的深度学习模型在文档解析时引入布局识别,表格结构解析等专有技术,有效提供了文档内容获取的质量,无愧于开源RAG领域的SOTA。不过也因为配置项太多,大家在使用时也需要根据文档的内容和形式仔细进行选择,盲目配置不但导致解析过程极其漫长,实际效果可能也并不会,希望本文能帮助大家更好的进行配置和使用。

2025-04-21 20:11:50 783

原创 HiRAG:基于层级知识索引和检索的高精度RAG

(如“DATA MINING”概括“BIG DATA”和“RECOMMENDATION SYSTEM”),摘要实体集合是所有聚类生成实体的并集。使用。

2025-04-21 20:09:07 1051

原创 开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG

OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。

2025-04-20 10:45:00 964

原创 56个核心术语+高清架构图:一文看透人工智能全貌!

规范多模型间上下文传递(如任务状态、数据格式),解决工具碎片化问题。支持分布式协作。

2025-04-19 10:45:00 1815

原创 我对多Agent平台的进一步升级和落地范式

此只为针对 AIP 开源多Agent平台,且为临时手稿,带有口语化,仅以参考为主。在本地化的沟通过程中,我们遇到了一系列实际问题,并在此基础上进行了总结与产品能力的提升。鉴于当前在相关领域缺乏明确的范式可供参考,本文旨在提出适用于下一步的落地范式。整个升级过程紧紧围绕 “聚焦” 二字展开,在于实现 ToB 业务的拓展以及向 ToG 场景化的延伸。

2025-04-18 19:53:31 829

原创 讨论|谁能统一Agent 接口?MCP 对比 A2A 、Function Calling

去年底MCP的热度还没消散,新的Agent接口标准A2A又出来了。就在上周,Google在Cloud Next大会上推出了Agent2Agent(A2A)开放协议。通俗来说,A2A就是帮助Agent之间进行通信的开放标准。一个背后站着Anthropic,一个背后站着谷歌,再加上一个2023年Open AI推出来的Function Calling ,可以说,是个巨头,都想在Agent生态里分一杯羹。

2025-04-17 20:21:15 753

原创 LLM Reasoning能力最近大跃进?不,都是「水分」!

近几年,ChatGPT、Claude等大模型的「数学解题」「逻辑推理」能力突飞猛进,各大实验室争相发布「突破性成果」。!论文:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility链接:https://arxiv.org/pdf/2504.07086更夸张的是,许多论文评测时只用(如AIME’24)。这种情况下,多答对1题就能让正确率提升3%,导致结果毫无说服力。

2025-04-17 20:19:11 554

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除