小天才学习机打游戏-CSDN博客

原创 IF40.5！北大团队深度学习模型MuMo：人工智能+多模态数据精准预测治疗反应！医疗的AI 时代真的来了~

MuMo模型在HER2阳性胃癌治疗反应预测中的完整研究流程，从数据收集到模型分析，再到关键结果的展示。研究方法包括整合影像学、病理学和临床信息，通过MuMo模型的多模态融合模块提取特征并进行风险预测，同时验证了模型在不同治疗队列中的准确性和稳定性。结论表明，

2025-05-06 19:48:39 449

原创文献综述 | 深度学习是基因组学的新计算建模技术

作为一门数据驱动的科学——基因组学，主要利用机器学习来捕获数据中的依赖性并得出新颖的生物学假设。然而，从呈现指数级增长的基因组数据中提取新见解的能力需要更具表现力的机器学习模型。通过有效利用大数据集，深度学习已经改变了计算机视觉和自然语言处理等领域。现在，它正在成为许多基因组学建模任务的首选方法，包括预测遗传变异对 DNA 可及性和剪接等基因调控机制的影响。

2025-05-06 19:47:24 504

最近读了王昊奋教授团队的《》，这篇综述真是让我对大模型的未来发展有了新的思考。回顾RAG（Retrieval-Augmented Generation）技术的演进历程，会发现它不仅仅是AI知识时效性难题的“权宜之计”，而是逐步成长为AI认知能力跃迁的核心引擎。2020年Lewis团队提出RAG概念后，这项技术经历了从“检索-生成”到“检索-推理-生成”的深度变革。最初的基础RAG，仅仅解决了“我知道什么”的问题——通过简单的向量检索，把外部知识注入大模型，提升了事实准确性和知识覆盖面。

2025-05-06 19:46:22 619

原创实现高效AI应用开发：LangChain、LLamaIndex 、HuggingFace

在大数据时代，如何快速、准确地从海量的原始数据中提取出有价值的信息，并进行总结与分析，是企业在运营决策中面临的一个重要问题。在这种情况下，

2025-05-05 20:23:30 734

原创从workflow到ReAct提升Agent智能化水平

AI Agent（智能体）是一种‌具备自主决策与执行能力‌的智能实体，能够通过感知环境、动态调整行为以实现预设目标。其本质是通过融合大语言模型（LLM）的推理能力和工具调用机制，将传统AI的被动响应升级为主动任务执行能力。Agent这个标准定义，是包含了感知环境-思考决策-行动执行的闭环逻辑，也就是要符合ReAct框架（Reasoning+Action），以下说明workflow模式与ReAct框架Agent实现逻辑的不同。

2025-05-05 20:07:50 587

原创 Agentic RAG-R1：让大模型从「检索助手」跃升为「思考+搜索王者」！

Agentic RAG-R1 是由北京大学研发的一项开源研究项目，旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略（GRPO），构建了一个可自我规划、检索、推理与总结的智能体式 RAG 系统。核心亮点Github项目地址： https://github.com/jiangxinke/Agentic-RAG-R1。

2025-05-05 20:05:30 396

原创猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火

今天凌晨，从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了！Qwen3 模型依旧采用，全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。具体来讲，下表展示了这些模型的详细参数：Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型目前，Qwen3 系列中较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。

2025-05-04 10:45:00 848

原创本周大模型新动向：可解释性压缩、视频推理链、启发式奖励

后训练量化（PTQ）通过将全精度权重映射到低比特权重来减少模型的内存占用，而无需昂贵的重新训练，但在低比特（2到3比特）设置中可能会降低下游性能。本文开发了一种新的混合精度PTQ方法，任务电路量化（TACQ），它借鉴了自动化电路发现的方法，直接根据特定权重电路对量化过程进行条件约束，这些权重电路被定义为与下游任务性能相关的权重集合。这些权重被保留为16比特权重，而其他权重则被量化，从而在仅增加边际内存成本的情况下保持性能。

2025-05-03 10:45:00 1321

原创别只关注Qwen3参数量，这些Agents细节才是最大亮点！

相比于2年前，框架刚开源的时候，Qwen-Agent的代码设计确实成熟了很多，也在积极拥抱新变化（MCP）。junyang Lin是Qwen技术团队负责人。今天发帖展望了一下，下个阶段的Qwen可能是能够扩展到长期推理的智能体（类O3？

2025-05-02 10:45:00 838

原创 DeepSeek+HTML，一键生成可视化图表！

数据可视化在各领域至关重要，凭借DeepSeek技术与HTML图表，可以一键生成可视化图表，这一组合大幅降低技术门槛，无论专业人士还是新手都能从中获益。DeepSeek+HTML是如何协同创造出精美的可视化图表？下面一起学习。接下来我使用一组超市零售数据，借助DeepSeek来生成HTML图表，以往我们要做一个可视化图表需要先进行数据分析，然后选择合适的图表类型进行可视化，现在通通不要，只需要将案例数据发送给DeepSeek，然后输入提示词即可。

2025-05-01 10:45:00 788

原创下一代医疗AI Agent：从基础到先锋——在临床环境中影响与整合的全面综述及实施路线图

人工智能代理通过推进临床决策支持、自动化工作流程和个性化患者护理，正在改变医疗保健。本综述将人工智能代理分为四种进步模型：基础型、助手型、合作伙伴型和先锋型，每种模型代表逐渐增强的自主性和临床整合。我们贡献的核心是一份全面的实施路线图，该路线图利用模块化架构，包括感知、推理、互动和记忆组件，以实现这些多样化人工智能代理的无缝整合。本文通过提供可操作的指南和部署每种代理类型的示例性架构，解决了数据隐私、互操作性和监管合规等关键挑战，使医疗保健组织能够有效整合提升患者结果和运营效率的人工智能驱动解决方案。

2025-04-30 20:21:11 786

原创 AgentAI | LLM智能体可以模拟人类行为吗？

随着人们越来越多地采用大语言模型（LLM）作为在经济学、政治学、社会学和生态学等各种应用中模拟人类的 Agent 工具，这些模型因其类似人类的认知能力而显示出巨大的潜力，以理解和分析复杂的人类互动和社会动态。然而，大多数先前的研究都是基于一个未经证实的假设，即 LLM Agent 在模拟中的行为像人类一样。因此，一个基本的问题仍然存在：LLM Agents 真的能模拟人类行为吗？

2025-04-29 20:18:48 658

原创 BioMiner：AI 驱动的生物活性数据文献挖掘

研究者提出了一个名为 EquiDTB 的新框架，巧妙地融合了密度泛函紧束缚 (DFTB) 方法与机器学习技术。这个混合方法的核心在于，它不再使用 DFTB 中标准的成对排斥势，而是引入了基于机器学习的 ∆TB 势。这种改变使得预测能量和原子间作用力更加可靠，尤其对于包含非共价相互作用或结构灵活的大型有机分子效果显著。该方法采用了先进的 SE(3) 等变神经网络。

2025-04-29 20:17:50 1182

原创当推荐系统遇见大模型

推荐系统的本质是在用户需求不明确的情况下，通过拟合历史用户行为数据，来预测未来用户的感兴趣信息的技术手段。

2025-04-28 20:13:26 939

原创万字长文！从AI Agent到Agent工作流，一文详细了解代理工作流(Agentic Workflows)

AI 代理是一种结合了。

2025-04-28 20:11:31 857

原创 Graphiti-构建适用于 AI 智能体的实时知识图谱

Graphiti 是一个用于构建和查询时间感知知识图谱的框架，专为在动态环境中运行的 AI 智能体设计。与传统的检索增强生成（RAG）方法不同，Graphiti 能够持续整合用户交互、结构化与非结构化企业数据，以及外部信息，构建成一个连贯且可查询的图谱。该框架支持增量数据更新、高效检索与精准的历史查询，且无需整体重新计算图谱，非常适合开发交互式、上下文感知型 AI 应用。使用 Graphiti 可以：•整合并维护动态的用户交互和业务数据。•支持智能体基于状态的推理和任务自动化。

2025-04-28 20:10:22 711

原创又一开源项目：用 LLM 将非结构化文本转为知识图谱

知识图谱是一种由相互连接的实体和关系构成的网络，它以结构化的方式表示知识，并支持知识的推理和发现。这些是“事物”——比如‘玛丽·居里’、‘物理学’、‘巴黎’、‘诺贝尔奖’。在我们的项目中，我们提取的每个唯一的主语或宾语都将成为一个节点。这些是事物之间的连接，展示了它们如何关联。关键在于，这些连接具有意义，并且通常有方向。例如：‘玛丽·居里’ — 赢得 → ‘诺贝尔奖’。“赢得”这部分就是关系，定义了这条边。一个简单的知识图谱示例。

2025-04-27 11:06:37 865

原创 DeepSeek实现办公自动化，从PDF数据提取到HTML图表生成

在日常办公中，数据处理与分析是工作中的重要环节。然而，面对 PDF 表格提取、Excel 公式编写、图表自动生成等复杂任务时，传统方法往往耗时费力。如今，借助 AI 技术，我们可以轻松实现办公自动化，大幅提升工作效率。本文将演示如何通过 DeepSeek 完成 PDF 数据抓取、Excel 公式生成、VBA 图表制作以及 HTML 交互页面设计，让数据处理变得更智能、更高效。

2025-04-27 10:58:59 696

原创 Nature Communications|临床可用的胸部X光的多模态放射学模型

2025年4月1日，在在线发表题为**“”**的研究论文。证明了开源的小型多模态模型可以通过生成胸部X光图像的自由文本检查结果来弥合放射学领域的这些差距。。。由于生物医学数据标注成本高昂，基础模型有望成为生物医学领域的新范式，并在许多应用中取得了最先进的成果，例如医学问答和医学图像分类。最近，多模态生成式人工智能（AI）在生物医学领域崭露头角，将应用范围从单一模态扩展到多模态（例如文本和图像），例如视觉问答和放射学报告生成。

2025-04-27 10:57:26 582

原创 AI“黑盒子”被打开了！Anthropic连发两篇论文：用AI“显微镜”追踪大模型思维

了解大语言模型（LLM）是如何思考的，将有助于我们更好地理解它们的能力，同时也有助于我们。例如，AI 可以一步一步地写出它的推理过程。这是否代表它得到答案的实际步骤，还是它有时是在为既定的结论编造一个合理的论据？今天，大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面迈出了重要一步——他们提出了一种新的可解释性方法，让我们能够追踪 AI 模型（复杂且令人惊讶的）思维。**他们从神经科学领域汲取灵感，并试图构建一种 AI「显微镜」，让我们能够识别 AI 的活动模式和信息的流动。

2025-04-26 10:45:00 758

原创 Nature medicine |DeepSeek太给国人争气了，这么快就冲上医学顶刊了

而开源大语言模型如 DeepSeek 系列，不仅参数规模大，能与专有模型竞争，还具备透明度高、可在机构内部运行且成本低的优势。该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

2025-04-25 20:28:25 823

原创 LLama4震撼发布：288B、原生多模态、超越 GPT-4.5、Claude 3.7 、Gemini 2.0 Pro

随着越来越多的人使用人工智能来提升日常生活，我们认为领先的模型和系统应该是公开可用的，以便每个人都能构建个性化的未来体验。今天，我们很高兴宣布支持整个 Llama 生态系统的最先进模型套件。我们推出了 Llama 4 Scout 和 Llama 4 Maverick，这是首批使用专家混合（MoE）架构的开源多模态模型。我们还预览了 Llama 4 Behemoth，这是世界上最智能的大型语言模型之一，也是我们迄今为止最强大的模型，它将作为新模型的“教师”。

2025-04-25 20:25:26 594

原创月薪已炒到6W？强烈建议大家冲一冲这个新兴领域

2025开年，AI技术打得火热，正在改变程序员的职业命运：阿里云核心业务全部接入Agent体系；字节跳动30%后端岗位要求大模型开发能力；腾讯、京东、百度开放招聘技术岗，80%与AI相关……大模型正在重构技术开发范式，最残忍的是，业务面临转型，领导要求用RAG优化知识库检索，你不会；带AI团队，微调大模型要准备多少数据，你不懂；想转型大模型应用开发工程师等相关岗，没项目实操经验……曾经热门的开发框架、大数据工具等，已不再是就业的金钥匙。如果认为如今技术圈降薪裁员频频爆发，传统岗位大批缩水，相反。

2025-04-24 09:59:29 705

原创一文读懂 ChatGPT 的原理：它是如何“聪明”起来的？

最近，AI 对话助手 ChatGPT 几乎成了“显眼包”级别的存在。不少朋友惊叹于它能写文章、写代码、答题、写诗，甚至还能聊天“谈人生”！那么，ChatGPT 究竟是如何实现这些能力的？它背后的原理是什么？今天，我们就来一探究竟！

2025-04-24 09:58:44 433

原创如何用DeepSeek搭建局域网知识库

在当今信息爆炸的时代，企业、团队甚至个人都面临着知识管理的巨大挑战——资料分散在多个平台、文件格式杂乱、检索效率低下，而涉及敏感数据时，公有云服务又存在安全隐患。如何构建一个的内部知识库，是许多组织亟待解决的问题。本文将手把手教你如何利用AnythingLLM快速搭建一个的局域网知识库，让你的内部知识管理变得轻松高效！。**步骤一：**1、本地部署DeepSeek；2、下载并安装Docker，官网：https://www.docker.com/

2025-04-24 09:57:54 833

原创大模型检索革命！百川团队新作：用强化学习训练LLM动态开搜

1）将"搜索 (search)"集成到推理过程之中传统的语言模型在回答复杂问题时，如果需要外部知识，往往只能在回答前先检索资料，然后一次性地结合检索结果作答。论文提出的ReSearch框架，则把"搜索"视为推理链（chain of thought）的一部分，让模型可以在思考的任意阶段通过搜索获取新信息，再将得到的搜索结果纳入到下一步的思考中。2）使用强化学习 (RL) 来训练模型进行多步搜索与推理与现有很多需要人工标注推理步骤的数据集不同，ReSearch 并不需要对"推理链"或"搜索环节"进行显式监督

2025-04-23 20:18:49 804

原创 RAG-Challenge金融年报问答竞赛冠军方案思路：从文档解析、提示词到路由逻辑设计

我们来看看一个比赛，RAG-Challenge-2(https://abdullin.com/erc/，https://kkgithub.com/trustbit/enterprise-rag-challenge/tree/main)。数据上，包括年度报告（7496个文件，约46GB）的列表，以及公司名称和文件sha1哈希值，这些年度报告属于公开信息。任务是。

2025-04-23 20:17:31 816

原创 LLM实现text2SQL实战总结

LLM在组织内部应用的一类重要场景就是利用LLM的NL2SQL能力，简化用户对数据库的访问。本文主要介绍如何使用LLM生成SQL语句，不涉及到如何训练提升LLM的SQL生成能力。开启正文之前，我们先明确一下这类功能在组织内服务的目标群体。我们将服务目标定位为没有太多IT技术背景的业务及运营人员。这些人访问数据库的需求，伴随着业务的发展，会超过特定服务软件提供的功能边界。服务软件的开发周期很难适配应用需求的迫切性。另外，熟练的使用服务软件获取使用者期望的信息也需要一定的学习成本。

2025-04-22 10:52:02 1000

原创如何用Spring AI构建MCP Client-Server架构

关于MCP的架构，这里可以看看ByteByteGo的这张架构图：MCP Host：用户使用的应用程序，比如：Claude客户端、Cursor这样的AI应用程序，它与大语言模型集成，提供 AI 交互环境以访问不同工具和数据源。MCP Client：与MCP Server建立并维护一对一连接的组件。它属于AI应用程序的内部组件，使其能够与 MCP Server通信。例如，若需要 PostgreSQL 数据，MCP 客户端会将请求格式化为结构化消息发送给 MCP 服务器。MCP Server。

2025-04-22 10:48:41 744

原创王炸！Spring AI+MCP 三步实现智能体开发

模型上下文协议是一种标准化协议，它让大模型能够更容易地和外部的数据、工具连接起来。你可以把MCP想象成一个通用的插头或者接口，就像USB-C一样，不管是什么设备，只要插上这个接口，就能和电脑、充电器等连接起来。注意，它连接的不是物理设备，而是AI模型和外部的数据源、工具等。有了MCP，AI模型就能更方便地获取外部的信息，完成更多的任务。比如，通过MCP，AI模型可以操作电脑读写文件，或者模拟浏览器操作等。

2025-04-22 10:46:55 980

原创小红书×华东师大开源Vision-R1 | 自进化CoT数据集+渐进抑制训练+GRPO，实现零样本SOTA

在作者上述的探索中，作者观察到仅采用强化学习（RL）的方法难以引导多模态语言大模型（MLLM）生成类似人类的复杂共通主题（CoT）。因此，作者探索了一种替代策略，并引入了推理型MLLM，即Vision-R1。该方法从使用多模态CoT数据集进行冷启动开始，最初教导基础模型以“类似人类”的方式进行推理。随后，作者将强化学习应用于冷启动初始化的模型Vision-R1-CI，以引导其采用正确的推理过程，从而激励最终模型Vision-R1的推理能力。

2025-04-21 20:07:53 1034

原创 RAKG:文档级检索增强知识图谱构建 - 上海人工智能实验室等

随着基于知识图谱的检索增强生成（RAG）技术如GraphRAG和Pike-RAG的兴起，知识图谱在提升大型语言模型（LLMs）推理能力方面的作用日益凸显。然而，传统的知识图谱构建（KGC）方法面临复杂实体消歧、严格模式定义和跨文档知识整合不足等挑战。本文聚焦于自动文档级知识图谱构建任务。提出了一种文档级检索增强知识图谱构建（RAKG）框架。RAKG从文本块中提取预实体，并利用这些预实体作为RAG的查询，有效解决了LLMs中的长上下文遗忘问题，并降低了共指消解的复杂性。

2025-04-21 20:06:03 639

原创产品经理的 5 个 AI 知识点：LLM、Agent、RAG、向量数据库、知识图谱

你是否经常被科技新闻里的术语绕晕？今天用“人话”拆解AI领域的五大核心技术概念，带你看懂未来世界的底层逻辑！是什么：LLM（Large Language Model）即大语言模型，像ChatGPT、文心一言这类能写诗、编程、聊天的AI，核心都是LLM。原理：通过“吞下”海量文本数据（如全网文章、书籍），学习人类语言的规律，像超级学霸一样预测下一句话该说什么。局限：知识可能过时（比如不知道2023年后的新闻），且容易“一本正经地胡说八道”（幻觉问题）。场景举例：帮你写周报、生成广告文案、解答常见问题。

2025-04-21 20:05:09 911

原创 Nature子刊发表医学AI多模态融合亚型框架，能够融合处理放射组学、病理组学以及基因组学数据

这篇发表于的论文****聚焦于IDH野生型成人胶质瘤****，通过整合多模态数据，为该疾病的研究带来了新突破。

2025-04-20 10:45:00 1616

原创医疗VLMs强化学习首秀！Med-R1跨8模态推理准确率跃升30%，参数效率逆袭36倍基线

视觉-语言模型（VLMs）在自然场景推理方面取得了显著进展，但其在医学影像领域的潜力仍被大量未探索。医学推理任务由于医学图像固有的复杂性，需要强大的图像分析和生成有充分依据的答案，因此面临独特的挑战。透明度和可信度不仅对于获得临床医生的信心至关重要，而且对于满足严格的监管要求也至关重要。为了应对这些挑战，作者提出了Med-R1，这是一个新颖的框架，旨在研究强化学习（RL）是否可以增强VLMs在医学推理中的泛化能力和可信度。基于最近引入的DeepSeek策略，作者采用组相对策略优化（GRPO）进行RL，鼓励模

2025-04-19 10:45:00 1811

原创 SegEarth-R1实现地理推理「类人思考」

本文将为大家介绍“SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model”（SegEarth-R1：通过大型语言模型进行地理像素推理）。

2025-04-18 19:48:48 705

原创你的RAG检索太“笨”？用K-Means聚类来“调教”

检索增强生成（RAG）是一种强大的技术，但其检索模块往往受限于传统相似度排序的单调性，导致结果缺乏多样性或无法精准匹配用户意图。本文提出了一种基于 K-means 聚类的解决方案，通过对文本数据进行无监督分组，优化 RAG 的检索过程。我们将首先介绍 K-means 算法的基本原理及其数学目标，然后展示如何结合 BGE-M3 嵌入模型对文本进行向量化与聚类分析，最后通过两个 RAG 实战案例（多样性增强检索和聚类感知查询路由）演示其应用效果。

2025-04-17 20:15:45 986

原创 vLLM：高性能大语言模型推理引擎全面解析

vLLM（Vectorized Large Language Model Serving System）是由加州大学伯克利分校团队开发的高性能、易扩展的大语言模型推理引擎。它专注于通过创新的内存管理和计算优化技术，实现高吞吐、低延迟、低成本的模型服务。

2025-04-17 20:13:40 1044

原创大模型中的参数Temperature的作用是什么？

Temperature是自然语言处理模型中使用的一个参数，用于增加或减少模型对其最可能给出的响应的"置信度"。在我看来，理解该参数如何影响模型输出最直观的方法就是亲自尝试调整。如果你对数学细节感兴趣，我会在下方进行相关说明。

2025-04-17 20:11:38 938

原创 Gemma3+Mistral-OCR+RAG：实现多模态文档问答系统

我在这个项目中使用 Gemma3 + Mistral OCR + RAG 创建了一个能够支持包含表格、发票、文本和图表的多模态 PDF 文档问答系统。等你看完这篇文章后，你会明白是什么让 Mistral OCR 和 Gemma 3 与众不同，Gemma 3 是如何训练的，以及我们如何利用 Gemma 3、Mistral-OCR 和 RAG 创建一个强大的多模态文档问答系统。首先看一下我们最终的问答系统演示：我打开了 Streamlit 应用，通过侧边栏输入了 Mistral 和谷歌 API 的密钥。

2025-04-17 20:10:03 680

空空如也

空空如也