- 博客(271)
- 收藏
- 关注
原创 【RAG文档解析】PaddleOCR ppstructure模块深度解析
PaddleOCR是百度开源的超强中文 OCR 工具箱,支持多语言、多场景文本检测与识别。是 PaddleOCR 针对文档结构化场景推出的子模块,致力于实现文档版面分析、表格识别、关键信息抽取、文档重建等一站式结构化能力。版面分析(Layout Analysis):自动检测文档中的文本块、表格、图片、标题等区域表格结构识别(Table Structure Recognition):检测表格边界、单元格结构、表格内容关键信息抽取(KIE):如发票、简历、合同等场景下的字段抽取。
2025-07-18 15:45:51
10
原创 【RAG实战】用户反馈如何关联算法优化
传统的RAG系统一旦构建完成并部署,其知识库和检索算法通常是静态的。除非开发者手动更新数据或调整模型,否则它会一直以同样的方式回答同样的问题,无法从与用户的交互中学习。而基于用户反馈的动态Chunk权重优化,则打破了这一僵局。它将每一次用户交互都视为一次宝贵的“微型训练”。当用户为一个答案点赞时,他们实际上在告诉系统:“生成这个答案所依赖的上下文(即那些被召回的Chunks)是高质量、有用的。”反之,点踩则意味着这些上下文可能是错误的、不相关的或不完整的。通过建立一个闭环系统,将这些反馈信号量化并作用于每个
2025-07-18 14:49:17
8
原创 【读论文】AgentOrchestra 解读:LLM 智能体学会「团队协作」去解决复杂任务
分层多智能体架构:首次将指挥家-乐团 (Planner-Sub-agents)的分层协作模式系统性地应用于通用任务解决,有效分解复杂问题。模块化与可扩展性:智能体、工具、模型的解耦设计,使得系统可以像“搭乐高”一样灵活地组合和扩展,轻松加入新的能力(如新的子智能体或工具)。动态角色分配与协调:Planning Agent 能够根据任务进展动态地规划和分配子任务,实现了智能体间的闭环协调。统一的多模态工具接口。
2025-07-17 22:51:06
255
原创 【agent实战】基于 LangGraph 实现 Agentic RAG:原理、实战与创新全解
LangGraph是 LangChain 团队推出的开源框架,专注于用“有向图”方式构建复杂的 LLM 应用流程。它支持节点(Node)、边(Edge)、条件分支、循环等流程控制,极大提升了 LLM 应用的可组合性、可扩展性和可维护性。是当前 LLM 应用的主流范式,通过“检索+生成”结合,显著提升了大模型的事实性和可控性。传统 RAG 仅支持单轮检索和生成,难以处理复杂推理、多步决策等需求。
2025-07-17 22:45:09
161
原创 【RAG优化】利用线上日志构建RAG评测闭环的终极指南
将这些原始、杂乱的日志,通过一套系统性的方法,转化为结构化的、高质量的评测数据集,就如同在为我们的RAG系统编写一本“成长日记”。通过定期“阅读”这本日记,我们能清晰地看到它的优点与不足,从而指导其未来的发展方向。一个静态的、离线构建的评测集,虽然能提供一个稳定的基线,但它无法完全反映真实世界中用户查询的多样性、模糊性以及不断变化的需求。作为输入,即可对RAG系统的各个组件进行全面的、基于真实用户数据的诊断。有了海量的日志后,我们需要从中筛选出有价值的样本进行标注。这是利用日志构建的评测集进行诊断的核心。
2025-07-17 18:27:35
135
原创 FunASR Paraformer-zh:高效中文端到端语音识别方案全解
FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱,集成了多种语音识别、语音活动检测(VAD)、说话人识别等模块。其中和是针对中文语音识别任务优化的端到端模型,分别适用于离线和流式场景。Paraformer 采用并行 Transformer 架构,兼具高精度和低延迟,广泛应用于智能客服、会议转写、语音助手等场景。主要特点端到端中文语音识别,支持离线和流式推理高精度、低延迟,适合工业级部署预训练模型开箱即用,支持 ModelScope 云推理支持多种硬件平台和部署方式流程。
2025-07-16 21:40:04
1282
原创 RAG的“诊断艺术”:从测试集结果倒追根源,精准优化检索、排序与生成
当RAG应用给出一个糟糕的答案时,开发者的第一反应可能是:“我的Prompt写得不够好?”这种基于“感觉”的猜测往往是低效的。通过构建一个包含黄金上下文信息的测试集,我们可以像一位经验丰富的医生一样,对RAG系统的各个“器官”进行独立的“健康检查”。一个用于RAG诊断的测试集,除了问题和答案,还需要包含中间环节的“黄金标准”。如果你的RAG流程包含Re-ranker,那么在评估完初期的召回后,需要单独评估Re-ranker的效果。RAG的优化是一个持续的过程,应该形成一个闭环。的文档块尽可能多地召回。
2025-07-15 23:13:34
11
原创 开源工具DeepFilterNet:实时语音降噪
是一款专为实时语音降噪设计的轻量级深度学习模型,由 Rikorose 等开发并开源。该项目以低延迟、高音质、低资源消耗为目标,适用于嵌入式设备、桌面应用、流媒体等多种场景。DeepFilterNet 支持多种平台(如 Linux、Windows、Mac、Raspberry Pi),并提供了 C/C++、Python、Rust 等多语言接口,便于集成到各类语音通信系统中。主要特点端到端实时语音降噪极低延迟(<10ms),适合通话、会议、直播等场景轻量级,适配嵌入式与移动设备。
2025-07-13 21:28:15
68
原创 RAG升级:Re-rank模型微调,实现极致检索精度
微调的本质是监督学习。我们需要向模型展示大量的样本,告诉它在我们的场景下,对于一个给定的查询,哪些文档是相关的(正样本),哪些是不相关的(负样本)。模型通过学习这些样本,调整其内部参数,使其输出的相关性分数能够准确地反映我们定义的“相关性”。
2025-07-13 21:18:56
110
原创 RAG进阶之术:用“父子Chunk”策略破解复杂查询的“上下文迷局”
父Chunk分割器: 可以是,设置一个较大的chunk_size(如1000-2000),或者是一个按文档逻辑结构(如Markdown标题)分割的分割器。子Chunk分割器: 也是一个,但chunk_size要小得多(如100-400),并且可以设置一定的。思路:对于一个大的文档块(如几页PDF),可以不直接将其作为“父”,而是先用LLM为其生成一个高质量的摘要。流程子Chunk:原始文档的细粒度文本块。父文档:对应子Chunk所在大章节的LLM生成摘要。检索。
2025-07-12 18:27:06
129
原创 FunASR fsmn-vad 模块深度解析:高效端到端语音活动检测方案
FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱,集成了多种语音识别、语音活动检测(VAD)、说话人识别等模块。其中fsmn-vad是 FunASR 提供的高效、轻量级、工业级语音活动检测(Voice Activity Detection, VAD)方案,基于 FSMN(Feedforward Sequential Memory Network)结构,兼具高精度与低延迟,广泛应用于语音前端、流式 ASR、智能硬件等场景。主要特点端到端、轻量级、低延迟支持流式/离线推理。
2025-07-12 14:33:05
371
原创 【读代码】开源音乐分离工具Spleeter
Spleeter是由 Deezer Research 开发并开源的音乐源分离工具,基于 TensorFlow 实现,内置多种预训练模型,支持将混合音频一键分离为人声、伴奏、鼓、贝斯、钢琴等多个音轨(stem)。Spleeter 以其高效、易用、分离效果优异等特点,成为音乐信息检索(MIR)领域的事实标准工具之一。支持分离类型2 stems:人声/伴奏4 stems:人声/鼓/贝斯/其他5 stems:人声/钢琴/鼓/贝斯/其他应用场景。
2025-07-11 16:50:06
142
原创 OneFileLLM:一键聚合多源信息流
OneFileLLM 是一个功能强大的命令行工具,其核心使命是内容聚合。它能将来自不同地方、不同格式的数据源(如代码文件、PDF、URL、YouTube字幕等)整合到一个单一的、格式清晰的文本文件中。这个输出文件默认采用XML格式,这种结构化的方式极大地提升了LLM对上下文的理解能力,让模型能够更准确地“看”懂你给它的资料。多源输入: 支持本地文件/目录、GitHub仓库/PR/Issue、任意网页URL、ArXiv/DOI/PMID学术论文、YouTube视频字幕等。
2025-07-10 22:51:07
260
原创 LLaMA-Omni 深度解析:打开通往无缝人机语音交互的大门
与传统的 ASR 数据(语音->文本)或 TTS 数据(文本->语音)不同,这种 Speech-to-Speech (S2S) 的数据格式是训练端到端语音对话模型的关键。让我们深入其内部,探寻其工作原理。由于 LLM 的自回归(Auto-regressive)生成特性,文本和声学 Token 是一个接一个被预测出来的,这就天然地实现了文本显示和语音播放的流式同步,带来了极佳的实时交互体验。LLaMA-Omni 的运行依赖三个核心的预训练模型:作为大脑的 LLM,作为耳朵的语音编码器,以及作为嘴巴的声码器。
2025-07-09 20:05:29
98
原创 【读论文】GLM-4.1V-Thinking 解读:用强化学习解锁 VLM 的通用推理能力
GLM-4.1V-Thinking 不仅仅是一个强大的开源 VLM,更重要的是,它为我们展示了一套以推理为中心、以可扩展 RL 为核心驱动力的 VLM 训练框架。通过知识密集型的预训练对齐思维模式的 SFT,以及创新的带课程采样的强化学习 (RLCS),GLM-4.1V-Thinking 成功地将其强大的基础能力,系统性地、高效地转化为了在多个复杂领域的卓越推理能力。
2025-07-08 23:01:40
158
原创 【读代码】GLM-4.1V-Thinking:开源多模态推理模型的创新实践
GLM-4.1V-Thinking是清华大学KEG实验室推出的新一代开源视觉语言模型,基于GLM-4-9B-0414基础模型构建。该项目通过引入"思维范式"和强化学习课程采样(RLCS)技术,显著提升了模型在复杂任务中的推理能力。64k超长上下文支持:可处理长达64k token的输入序列4K分辨率处理:支持任意纵横比的图像输入多模态推理强化:在数学推理、长文本理解等18项基准测试中超越72B参数模型中英双语支持:原生支持中文和英文的混合输入。
2025-07-08 22:33:50
102
原创 【读代码】深度解析TEN VAD:实时语音活动检测的高性能开源解决方案
TEN VAD是TEN生态系统中的核心组件,专为企业级实时语音交互场景设计。作为轻量级、低延迟的语音活动检测系统,其在检测精度(F1=0.91)和计算效率(RTF=0.0086)上均超越行业标杆WebRTC VAD和Silero VAD,特别适合需要快速响应的人机对话系统。
2025-07-07 21:23:26
67
原创 【实战】如何训练一个客服语音对话场景VAD模型
VAD本质上是一个二分类任务(语音/非语音),因此需要对音频进行逐帧(或逐时间段)的标注。标注工具:使用Audacity, Praat, Label-Studio等音频标注工具。标注粒度:通常以毫秒为单位,标注出每个语音片段的起始和结束时间。明确标注规则核心问题:什么是“语音”?严格定义:只标注包含明确词义的人类说话声。宽松定义:除了说话声,还包括笑声、哭声、叹息、咳嗽等人类发出的声音。选择哪种定义取决于下游任务的需求。例如,如果下游需要分析客户情绪,那么哭声和笑声也应该被标注为“语音”。
2025-07-06 22:48:57
44
原创 【读代码】深度解析Kyutai Labs Delayed Streams Modeling项目
在实时语音交互需求爆炸式增长的今天,Kyutai Labs推出的**Delayed Streams Modeling(延迟流建模)**框架以其创新的流式处理能力和多模态支持,为语音技术领域注入了全新活力。项目地址:https://github.com/kyutai-labs/delayed-streams-modeling。项目为核心,深度解析其技术架构、应用场景及创新价值,带您领略这项突破性技术如何重塑语音交互的未来。其中 (\Delta) 为可控延迟窗口,(h) 为隐藏状态。导出Markdown笔记。
2025-07-05 14:01:57
878
原创 【RAG文档解析优化】复杂Excel表格处理
—从识别表格边界,到恢复内部结构,再到生成RAG友好的表示——我们可以系统性地将这些“带刺的玫瑰”驯服。虽然代码实现可能充满细节和挑战,但其带来的回报是巨大的:一个更干净、更可靠的知识库,以及一个能真正理解和利用表格数据、从而提供精准答案的RAG系统。为了人类阅读的便利性,制作者常常会使用合并单元格来创建标题、使用多层表头来组织复杂的列、在同一个Sheet页中放置多个相关的表格,并添加大量的注释说明。它们就像一朵朵“带刺的玫瑰”,虽然蕴含着宝贵的数据,但如果直接用传统的方法(如。
2025-07-04 23:59:51
84
原创 【agent实战】用Agentic方案构建智能附件处理聊天服务
用户上传和。用户提问: “请根据总结第一季度的市场趋势,并结合的数据,找出销售额最高的三个城市。tools.py。
2025-07-03 22:45:28
576
原创 【读代码】PDF-Extract-Kit深度解析:最好用的RAG开源PDF解析工具
PDF-Extract-Kit是由OpenDataLab推出的开源工具包,专注于解决复杂PDF文档的内容解析难题。该项目集成了当前最先进的文档解析模型,通过模块化设计实现灵活的功能组合,支持布局检测、公式识别、表格解析等多项核心功能。多模态解析能力:支持文字、公式、表格、图像等元素的联合解析工业级鲁棒性:在模糊扫描件、水印文档等复杂场景下仍保持高准确率开箱即用体验:提供预训练模型权重和完整配置系统可扩展架构:通过配置文件即可实现新模型的快速集成。
2025-07-02 21:57:44
353
原创 【Agent实战】用“前置编码器+LLM”复刻ChatGPT附件功能
基于“前置编码器 + LLM”的朴素方案,虽然在技术实现上不如原生多模态模型那样“浑然一体”,但它为广大开发者提供了一条高度实用、灵活且成本可控的路径来构建强大的多模态聊天应用。这个方案的精髓在于专业分工:让专业的工具做专业的事,最后让强大的文本LLM在高质量的文本上下文上进行它最擅长的推理和生成。通过不断优化每一个前置编码器模块和与LLM的交互方式,我们完全可以打造出在许多场景下与巨头们的产品相媲美的服务。
2025-07-02 21:39:36
202
原创 【读代码】百度开源大模型:ERNIE项目解析
ERNIE(Enhanced Representation through kNowledge IntEgration)是百度基于PaddlePaddle深度学习框架开发的多模态预训练模型体系。最新发布的ERNIE 4.5系列包含10个不同变体,涵盖从300B参数的巨型MoE模型到0.3B的轻量级模型,形成完整的多模态处理能力矩阵。
2025-07-01 21:32:24
852
原创 【读代码】TradingAgents:基于多智能体LLM的金融交易框架深度解析
TradingAgents是由Tauric Research团队开源的创新型金融交易框架,其核心思想是通过多智能体协作系统模拟专业交易机构的决策流程。项目采用模块化设计,整合了LLM、实时数据分析、风险控制等组件,实现了从市场分析到交易执行的完整闭环。
2025-06-30 21:15:56
441
原创 RAG的“排毒”指南:告别非知识内容的干扰,实现精准问答
用户的查询自然会和知识库中已有的相似问题在语义上非常接近,导致检索引擎被“误导”,优先召回了这些“问题”块,而忽略了真正包含答案的“知识”块。,我们可以有效地为RAG系统“排毒”,确保送入LLM的是经过提纯的、高质量的知识上下文。,因为它接收到的上下文本身就是一个问题,而非包含答案的知识。(图示:在检索器返回Top-K文档块后,后置判断模块逐个评估这些块,过滤掉非知识性内容,再将纯净的上下文送给LLM)要解决这个问题,我们需要让RAG系统具备甄别“知识性内容”和“非知识性内容”的能力。
2025-06-29 23:00:24
74
原创 大模型Chat与Agent产品上线后满意度评估方案
它需要我们结合定量与定性、自动与人工、显性与隐性的多种方法,从用户交互的每一个环节捕捉信号,洞察用户真实的需求和痛点。可以将上述多种显性和隐性指标,以及人工标注结果,通过加权平均或更复杂的机器学习模型(如训练一个回归模型来预测用户满意度分数),构建一个综合的用户满意度指数。然而,LLM输出的非确定性、多样性以及用户需求的复杂性,使得量化和理解用户满意度并非易事。这些指标不直接来自用户,而是通过分析LLM自身的输出特性来间接推断可能的用户感受。最直接了解用户满意度的方式,就是倾听他们主动提供的反馈。
2025-06-26 21:51:21
98
原创 Text-to-SQL LLM Agent如何处理多表关联查询
在真实世界的数据库中,数据往往被规范化地存储在多个相互关联的表中,以减少冗余并保持数据一致性。例如,一个电商数据库可能包含、、、等。当用户提出这样的问题时,就必然涉及到多表关联:这些查询需要Agent不仅理解每个表的内容,还要理解它们之间是如何通过主键(Primary Key, PK)和外键(Foreign Key, FK)联系起来的,并能生成正确的子句。这无疑是Text-to-SQL任务中最具挑战性的部分之一,堪称该领域的“珠穆朗玛峰”。用户提问时,通常不会明确指出需要关联哪些表,或者使用哪些列进行关联。
2025-06-24 21:40:22
161
原创 【llm实战】Python打造BGE模型微调服务实战指南
对于BGE这类主要用于检索和语义匹配的模型,是非常常用且有效的损失函数。它利用批内负采样。
2025-06-23 20:46:07
209
原创 【读代码】谷歌Agent-to-Agent (A2A) 协作框架深度解析
1.1 核心组件拓扑典型的三层通信架构,包含Agent节点、消息路由层、持久化存储层。
2025-06-22 22:32:22
41
原创 LangChain赋能RAG:从构建到评估优化的一体化实战指南
使用LangChain构建RAG应用只是第一步。更重要的是建立一套科学的评估体系,通过数据驱动的方式,不断发现问题、分析原因并迭代优化。这个过程可能涉及对数据处理、嵌入模型、检索策略、Prompt工程、LLM选型等多个环节的调整。核心 takeaway从简单开始:先用LangChain搭建一个基础RAG流程。构建高质量评估集:这是所有评估和优化的基础。分层评估:分别评估检索器和端到端效果,有助于定位瓶颈。关注关键指标:如上下文相关性/召回率、答案忠实度、答案相关性。善用工具。
2025-06-22 19:24:20
133
原创 【RAG优化】深度解析开源项目MinerU:从PDF解析到多模态理解的工业级解决方案
(GitHub: opendatalab/MinerU)是由OpenDataLab团队开发的开源文档解析工具,其核心价值在于将复杂的PDF文档转化为结构化数据。项目始于大模型预训练数据清洗需求,现已成为支持多模态文档理解的工业级解决方案。MinerU通过持续的技术迭代,正在重新定义文档智能处理的行业标准。其开箱即用的特性(支持Docker/K8s部署)和灵活的可扩展接口(插件式开发),使其成为构建文档理解Pipeline的理想基座。通过对比学习对齐文本/公式/图像的嵌入空间。
2025-06-21 16:03:16
589
原创 【读代码】深入解析Ragas:RAG应用效果评估最好的工具
Ragas是由Exploding Gradients团队开发的专业LLM应用评估框架,通过自动化测试和量化指标帮助开发者构建可靠的AI系统。# 典型架构模块 ├── metrics # 50+评估指标实现 ├── testset # 测试集生成系统 ├── embeddings # 多模态嵌入支持 ├── integrations # 主流框架集成 ├── optimizers # 遗传算法优化器 └── experimental # 前沿功能实验区。
2025-06-21 15:43:35
208
原创 RAG应用效果评估框架与优化指南
例如,追求极致的评估质量可能需要大量人工标注和昂贵的LLM调用,耗时且成本高。因此,选择合适的评估策略和指标,需要在这些因素间找到平衡点。通过采用分层评估框架,结合自动化与人工评估手段,并关注一套覆盖检索和生成质量的多维度指标,我们可以有效地量化RAG系统的表现,识别瓶颈,指导优化。:将自动化评估与周期性的人工评估相结合。为了更清晰地定位问题,可以将RAG评估分为两个层面:组件级评估和端到端评估。RAG系统的优化不是一次性的任务,而是一个持续的过程。高质量的评估数据集是进行有效RAG评估的前提。
2025-06-20 17:15:57
446
原创 【读代码】DeepEyes:基于强化学习的“视觉思考”智能体训练框架深度解析
DeepEyes是由Visual-Agent团队开源的创新型AI项目,其核心目标是通过端到端的强化学习(RL)训练,赋予大语言模型"用图像思考"的能力。项目基于VeRL框架构建,支持Qwen-VL系列视觉语言模型(7B/32B),在视觉定位、幻觉抑制和复杂数学问题解决等场景表现出色。核心突破无需监督微调,直接通过RL信号学习多模态推理能力训练过程中涌现出图像缩放、区域对比等自主思考模式在4096x4096高分辨率基准测试中准确率提升32%支持多工具动态调用,实现视觉搜索与验证的闭环。
2025-06-20 08:50:09
281
原创 【读代码】RAG文档解析工具Unstructured
Unstructured-IO/unstructured是一个开源的Python库,致力于将非结构化文档(PDF、HTML、Word等)转换为可用于机器学习的结构化数据。项目由Unstructured Technologies团队维护,截至2023年已获得GitHub 5.8K星标,成为文档预处理领域的热门工具。
2025-06-19 16:08:06
332
原创 【读论文】最新推理模型MiniMax-M1超越DeepSeek R1?
大型语言模型(LLM)在处理复杂推理任务方面取得了令人瞩目的成就。通过扩展推理长度 (Chain-of-Thought, CoT),模型能够进行更深入、更细致的思考,从而在奥林匹克数学竞赛、复杂代码生成等高难度任务上不断突破。这一趋势的核心在于测试时计算 (Test-Time Compute)的新维度:投入更多的计算资源(即生成更长的思考链),模型的性能就能持续提升。然而,传统的 Transformer 架构,其核心的Softmax 注意力机制具有二次方计算复杂度,这使得扩展推理长度面临着巨大的计算瓶颈。
2025-06-19 16:02:21
157
原创 【读论文】DeepEyes 复刻openai o3的看图思考能力
状态 (State,s_t: 包含了到当前步骤t为止的所有文本 Token 序列X_<t和所有图像观察序列I_<t(包括原始图像和所有裁剪图像)。动作 (Action,a_t: 模型在状态s_t下生成的下一个 Token。这个 Token 可以是普通文本 Token,也可以是工具调用指令 Token。策略 (Policy,π_θ: 即 VLM 自身,根据当前状态s_t输出下一个动作(Token)的概率分布。奖励 (Reward,R(τ): 在一个完整的 iMCoT 轨迹τ。
2025-06-17 20:42:31
125
专栏附带练习题与参考答案-零基础上手Python数据分析
2025-05-12
谷歌大模型prompt编写指南
2025-05-07
基于python从0到1实现一个plan-execute方案的Agent(快速学习原理和实现)
2025-04-25
算法面试2025中国移动算法面试编程题目及参考答案:1)服务器集群通信统计,2)整数1出现次数计算
2025-04-16
python脚本:利用openai接口模拟相声对话,AI郭老师和于老师已上线(DeepSeek接口也通用)
2025-02-20
本资源是学生成绩统计案例,涵盖了C语言入门阶段的核心知识点 通过代码实现、详细分析和教学扩展,可以帮助初学者逐步掌握C语言编程的基础
2025-02-17
DeepSeek模型本地部署指南:Windows与macOS环境下DeepSeek R1模型的快速安装与使用
2025-02-11
包含DeepSeekR1的论文以及清华版的入门进阶文档
2025-02-11
python脚本利用deepseek一键创作抖音文案(结合实时更新的百度热搜)
2025-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人