- 博客(206)
- 收藏
- 关注
原创 LVLM-AFAH论文精读
referonly threesufficientinnately, as theyimplicitly视觉定位(Visual Grounding)旨在根据自由形式的文本描述定位对应的图像区域。近年来,大型视觉语言模型(Large Vision-Language Models, LVLMs)的强大多模态能力显著提升了视觉定位的性能,但通常需要通过微调和额外的模型组件来显式生成边界框或分割掩膜。
2025-05-21 21:11:27
541
原创 MRVG-Net论文精读
视觉定位(Visual grounding)专注于根据语言表达从图像中检测物体。近期的视觉-语言大模型(LVLMs)通过在大型数据集上训练大模型,显著提升了视觉定位的性能。然而,当输入图像中出现相似物体时,这个问题仍然具有挑战性。例如,一个视觉-语言大模型可能无法区分图像中的健怡可乐(Diet Coke)和普通可乐(regular Coke)。在这种情况下,如果能提供健怡可乐和普通可乐的额外参考图像,将有助于相似物体的视觉定位。在这项工作中,我们引入了一项名为多模态参考视觉定位。
2025-05-20 18:16:12
804
原创 现阶段十个Agent协议概览
Agent 协议和相关技术栈正在快速成熟,朝着更强大、更安全、更易于集成和更智能化的方向发展。LLM 的深度融合是当前最显著的特征之一,同时,对互操作性、安全性和开发者友好性的追求也在持续驱动创新。下表基于各协议的官方文档与最新发布信息,对版本、核心技术与新增特性等进行了对比整理,帮助快速了解各协议在多Agent生态中的定位与演进。
2025-05-19 13:11:08
881
原创 深入浅出RISC-V架构
理解 RISC-V 不仅仅是理解一个技术规范,更是理解一种新的、开放的芯片设计和协作模式。表示该处理器支持64位基础整数指令集、整数乘除法、原子操作、单精度浮点、双精度浮点和压缩指令。RISC-V 是一个近年来备受瞩目、发展迅速的开放指令集架构 (ISA)。这些是可选的、标准化的指令集扩展,用单个字母表示。RISC-V 定义了不同的特权级别,以支持操作系统和系统安全。一个典型的 RISC-V 处理器命名会反映它所支持的指令集,例如。这是 RISC-V 处理器必须实现的核心部分。
2025-05-18 23:54:48
515
原创 赋予AI更强的“思考”能力
这篇文章探讨的是如何让AI模型(尤其是大型语言模型,LLM)在回答问题或解决任务前,能有更多的“思考时间”,从而变得更“聪明”,能处理更复杂的问题。这对我们程序员来说,就像我们写代码解决复杂逻辑时,需要时间去构思、打草稿、调试,而不是一蹴而就。这篇文章描绘了AI领域一个非常令人兴奋的研究方向:如何让AI不仅仅是“知道”答案,更能“理解”问题并推导出答案。通过赋予AI更强的“思考”能力,未来的AI系统有望在更多复杂和关键的领域发挥更大的作用。
2025-05-18 22:52:40
854
原创 Milvus向量数据库
在人工智能(AI)领域,文本、图片、音频、视频等各种复杂的数据,都可以通过特定的AI模型转换成一串数字,也就是“向量”。这个向量可以理解为这些数据的“数字指纹”或者“特征表示”。比如,两张相似的图片,它们转换成的向量在数学意义上也会比较接近。
2025-05-18 22:28:10
1075
原创 MLLM常见概念通俗解析(四)
视觉指令微调(Visual Instruction Tuning)也叫多模态指令微调,是一种训练或调整人工智能模型(特别是大型多模态模型LMMs)的方法,目的是让这些模型能够更好地理解和执行那些同时涉及到视觉信息(如图像)和文本指令的任务。凭借单个SigLIP视觉编码器就能提供具有竞争力的性能,展示了我们这种为视觉输出量身定制的、以视觉为中心的监督方法的有效性。这句话的意思是,在传统的视觉指令微调方法中,衡量模型学得好不好的标准,以及用来指导模型学习的“正确答案”,仅仅是针对模型生成的。
2025-05-18 18:48:17
784
原创 MLLM常见概念通俗解析(三)
针对询问皮划艇数量的指令(Q2),图中标示了水面上的皮划艇区域,依此类推。在诸如视觉问答(VQA)和具身机器人控制等通用多模态任务上的实验结果证明了IVM的多功能性,它作为一个即插即用的工具,显著提升了各种多模态模型的性能,在具有挑战性的新多模态基准测试中取得了最先进的结果。这张图的主要目的是通过具体示例,展示即便是先进的大型多模态模型(LMMs),如GPT-4V,在处理复杂的、需要精确理解指令并定位图像内容的任务时也可能表现不佳,而通过指令引导视觉遮蔽(IVM)的辅助,这些模型的性能可以得到显著提升。
2025-05-18 18:26:01
505
原创 MLLM常见概念通俗解析(二)
这句话的意思是,即使研究人员尝试为某个特定类别或任务专门设计或微调(即“定制”)提示,但如果模型学习提示的底层机制本身就是“粗粒度的”(不够精细)并且这些提示是“在所有类别间共享的”,那么这种定制的效果可能不佳。这句话指的是,利用视觉语言模型(VLM)在之前大规模预训练过程中已经学习并存储在其内部的关于图像和文本的丰富知识(比如物体特征、场景理解、语义关联等),来改进和增强现有的、用于指导模型执行任务的文本提示。“粗粒度的方式学习提示”指的是学习到的“提示”所包含的信息比较概括和笼统,不够精细。
2025-05-18 17:56:09
979
原创 MLLM常见概念通俗解析(一)
这样做的好处是能够让模型对图像有一个更全面、更细致的理解——既能把握“全貌”,也能看清“细节”,避免“只见树木不见森林”或“只见森林不见树木”。”就是说,在以前的一些MLLM模型里,负责连接图像和文字的那个“翻译官”(投影器),主要就是靠这种“全局扫描”的方式来理解图像的。就像是一个“翻译官”,它的工作是把模型从图像里“看”到的视觉信息(视觉特征),转换成文字模型能够理解和处理的“语言”。传统的、只依赖全局注意力的方法往往会给这些显著区域非常高的权重,导致模型对它们“过度强调”。这个概念是前一个的改进。
2025-05-18 17:11:38
263
原创 知识图谱(KG)与大语言模型(LLM)
知识图谱(KG)以其结构化的知识表示和推理能力,为大语言模型(LLM)的“幻觉”、知识更新滞后和可解释性不足等问题提供了有力的解决方案。反过来,LLM的强大文本理解和生成能力也为KG的构建、补全、查询和应用带来了革命性的进步。二者的融合旨在结合符号主义AI(以KG为代表)和连接主义AI(以LLM为代表)的优势,推动人工智能向更智能、更可信、更易用的方向发展。尽管目前仍面临诸多挑战,但随着技术的不断进步和创新,KG-LLM的融合将在科研和产业界催生出更多突破性的成果。
2025-05-18 16:56:16
932
原创 用Colab启动Streamlit应用
在 Google Colab 中运行 Streamlit 应用的方法与本地不同。Colab 本身是一个 Jupyter Notebook 环境,直接在单元格里运行 Streamlit 代码不会像在本地那样自动弹出浏览器窗口。) 的工具,它可以在 Colab 服务器和你本地的浏览器之间建立一个安全的连接通道,让你能访问到在 Colab 上运行的 Streamlit 应用。这样操作后,应该就能在 Colab 中成功运行并访问您的 Streamlit 应用了。的一个 Python 封装库,使用起来更方便。
2025-05-18 15:21:51
878
原创 深入浅出知识图谱
我们人类的大脑是如何存储和理解世界的?我们不是记住一堆孤立的事实,而是将各种事物、概念以及它们之间的联系编织成一张巨大的网络。比如,你知道“姚明”是一个“篮球运动员”,他也“出生于”“上海”,他“曾效力于”“休斯顿火箭队”。
2025-05-18 13:43:22
555
原创 Neo4j数据库
(比如张三、李四、王五),而他们之间的“朋友”、“同事”、“家人”等联系就是**“连线”**。”,或者“找到张三和李四之间的最短关系路径是什么?与我们常见的,像 Excel 那样用表格(行和列)来存储数据的传统数据库不同,Neo4j 采用了一种更接近人类思维对现实世界理解的方式——它使用“节点”来代表实体,用“连线”来表示实体之间的关系。Neo4j 就像一张智能的关系网,它能以极高的效率快速解决那些需要深度挖掘数据之间“牵一发而动全身”关联的查询问题,特别适合应用于那些数据的关系本身就具有重要价值的场景。
2025-05-18 13:30:19
464
原创 Devin 编程智能体
尽管在自动化生成的代码质量和目前的定价策略上仍有改进的空间,但它在自动化处理开发中“体力劳动”方面的能力已经非常显著,尤其在提升团队协作效率和进行 legacy 项目维护方面潜力巨大。从理解用户的需求指令,到解读现有代码库,再到执行修改、运行测试并最终提交 PR,Devin 都能独立完成,无需人工的频繁干预。例如,用户只需给出“将项目从 JS 迁移到 TS”的简单指令,Devin 就能自动处理文件重命名、代码语法调整、构建配置修改、运行类型检查和测试,并最终提交一个包含所有变更的 PR。
2025-05-17 17:43:49
921
原创 KL散度 (Kullback-Leibler Divergence)
在AI和机器学习中,它不仅是理论分析的基础,也是许多算法设计(如变分自编码器VAE、策略优化RL算法如TRPO、PPO等)中的关键组成部分,用于度量信息损失、约束模型行为或指导模型学习。在RLHF中,它扮演了稳定器和安全阀的角色,确保在通过强化学习优化模型以符合人类偏好时,模型不会偏离其已学到的有用知识太远。KL散度,也称为相对熵 (Relative Entropy),是信息论中一个核心概念,用于衡量两个概率分布之间的差异。,则KL散度为无穷大,意味着如果。的一部分(或者更准确地说,是。
2025-05-17 16:27:05
758
原创 深入浅出图神经网络和图联邦学习
深入浅出解析图神经网络(Graph Neural Networks, GNNs)和图联邦学习(Federated Graph Learning, FGL)
2025-05-16 17:58:23
924
原创 深入浅出拆分学习,图神经网络拆分学习,混合联邦学习
深入浅出解析拆分学习(Split Learning)、图神经网络拆分学习(Split Learning for Graph Neural Networks)以及混合联邦学习(Hybrid Federated Learning),这三者都体现了在分布式数据环境下进行机器学习协作的思想,但各有侧重和适用场景。理解它们的区别和联系,有助于在实际应用中选择或设计更合适的解决方案。
2025-05-16 17:31:35
732
原创 深入浅出横向联邦学习、纵向联邦学习、联邦迁移学习
深入浅出解析横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(Vertical Federated Learning)和联邦迁移学习(Federated Transfer Learning)有多个机构(比如几家不同的银行,或者几家医院)都拥有一些数据,他们希望联合起来训练一个更强大的机器学习模型,但出于隐私保护或法规要求,他们不能直接把数据共享出来。联邦学习就是为了解决这个问题而提出的。它的核心思想是“数据不动模型动”,即数据保留在本地,参与方共同训练模型。
2025-05-16 16:51:24
678
原创 当下流行的智能体通信协议:MCP、A2A、ANP 分别是什么?
MCP 是一种协议,专注于让AI智能体(尤其是由大型语言模型驱动的智能体)能够以一种标准化的方式与外部工具(如API服务)或数据源(如数据库)进行交互。可以将其理解为智能体使用外部工具的“通用语言”。确保数据交换的安全性和规范性(类型化)。提供可扩展的工具调用方法。从而增强单个智能体的功能,并让工具更容易被复用和集成。A2A 协议专注于实现不同AI智能体之间的直接沟通和协作,即使这些智能体由不同开发者创建、在不同系统上运行。可以看作是智能体之间互相“对话和分配工作”的规范。让智能体能够。
2025-05-15 22:01:58
842
原创 什么是模态内异质性,什么是模态间异质性?
模态(Modality)指不同种类或形式的信息,如文字、图片、声音等。异质性(Heterogeneity)则表示信息之间的差异。模态内异质性(Intramodal heterogeneity)指同一种类信息内部的差异,如文字中的新闻报道与网络聊天记录,或图片中的高清彩照与模糊黑白照片。模态间异质性(Inter-modal heterogeneity)则指不同种类信息之间的差异,特别是数据样本中信息种类不全或组合不同的情况,如描述产品时有的只有图片,有的则有图片、文字和音频。总结来说,模态内异质性关注同类型信
2025-05-15 19:34:47
396
原创 为什么当前的大型语言模型(LLMs)普遍采用“仅解码器”(Decoder-only)架构?
仅解码器架构在大型语言模型(LLM)领域占据主导地位,主要因其与文本生成任务的高度契合。该架构通过单向注意力机制(Causal Self-Attention)逐个生成词元,确保生成过程符合文本的自然顺序。KV缓存技术进一步优化了推理效率,减少了重复计算。仅解码器架构的简洁性和统一性使其在训练效率和可扩展性上表现优异,能够通过“下一个词元预测”任务有效利用海量数据进行自监督学习。此外,单向注意力机制不仅隐式地学习到位置信息,还通过满秩的注意力矩阵增强了模型的表达能力。GPT系列的成功进一步验证了该架构的有效性
2025-05-13 21:44:02
351
原创 大白话解释联邦学习
企业或组织内部,数据因存储分散、标准不一、系统或部门壁垒,导致数据像一座座孤立的岛屿,无法自由流通与整合,其潜在价值难以被充分挖掘。例如,财务部和销售部各自使用独立数据库,数据无法自动交互,需手动导出导入(
2025-05-13 20:40:55
1502
原创 特征偏移、标签偏移、数量偏移、概念漂移分别是什么?
特征偏移、标签偏移、数量偏移和概念漂移是描述数据统计特性变化的四个关键概念,对机器学习模型的性能和泛化能力有重要影响。特征偏移指输入特征分布变化但标签条件概率不变;标签偏移指标签分布变化但特征条件概率不变;数量偏移指不同数据源样本数量差异显著;概念漂移指特征与标签之间的映射关系发生变化。理解这些偏移类型有助于选择合适应对策略,如数据重加权、模型调整、在线学习和漂移检测。这些技术帮助模型在动态环境中持续有效,确保其适应性和演化能力。
2025-05-13 20:06:32
927
原创 大白话解释「量化」是什么
量化就是用数学建模+编程,把投资变成可计算、可复制的科学实验,适合那些看到K线图就想写个公式算概率的理工科怪人。这就是量化——用数学+代码代替人脑做投资决策。就像用自动驾驶取代人类司机开车。买涨和做空是什么意思?
2025-05-13 19:09:00
1095
原创 PyTorch 中如何针对 GPU 和 TPU 使用不同的处理方式
原生 PyTorch 直接通过 CUDA API 与 GPU 交互,而对 TPU 的支持则需要借助。一个简单的矩阵乘法例子来演示在 PyTorch 中如何针对 GPU 和 TPU 使用不同的处理方式。这个例子会展示核心的区别在于如何获取和指定计算设备,以及(对于 TPU)可能需要额外的库和同步操作。库作为中介,通过 XLA 编译器来生成和管理 TPU 上的执行。
2025-05-07 13:30:37
644
原创 GroundVLP论文精读
视觉定位是一项关键的视觉-语言任务,要求模型根据查询捕捉视觉上下文中的对象及其空间和属性信息。然而,由于视觉接地任务的标注数据受限于耗时且劳动密集的标注过程,导致训练模型的泛化能力受限,难以应对更广泛的领域。为解决这一挑战,我们提出了 GroundVLP,一种简单但有效的零样本方法,利用从图像-文本对和纯对象检测数据中获取的视觉接地能力,这两者相比视觉接地标注数据更易获取且覆盖更广的领域。GroundVLP 提出了一种融合机制,结合 GradCAM 的热图和开放词汇检测器的对象提议。
2025-04-27 17:11:50
813
原创 RefFormer论文精读
Visual Grounding(视觉定位)旨在根据给定的自然语言表达,在图像中定位所提及的对象。近年来,基于DETR的视觉定位方法因其无需依赖额外的努力(例如预先生成的候选区域或预定义的锚框)即可直接预测目标对象的坐标而受到了广泛关注。然而,现有研究主要集中于设计更强大的多模态解码器,这些解码器通常通过随机初始化或使用语言嵌入来生成可学习的查询(queries)。这种原始的查询生成方法不可避免地增加了模型的学习难度,因为它在解码开始时没有包含任何与目标相关的信息。
2025-04-25 15:42:29
1137
原创 CV和NLP领域常见模型列表
模型特点任务类型PEGASUS预训练专为摘要设计编码解码 + 噪声建模多语言支持强任务统一建模任意格式摘要长文摘要能力优秀长文+结构保持。
2025-04-24 16:59:20
585
原创 SimVG论文精读
在RefCOCO和RefCOCO +遵循train / validation / test A / test B的拆分,RefCOCOg只拆分了train / validation集合。The blue and red bounding boxes are correct and incorrect comprehension respectively, while the green boxes indicate the ground-truth regions.蓝色和红色的边框分别表示正确和错误的
2025-04-23 22:36:51
1033
原创 让 AI 在“睡觉”时也能学习(Sleep-time Compute: Beyond Inference Scaling at Test-time)
传统的人工智能(AI)系统通常只在用户提出问题时才进行推理计算,这种方式称为“测试时计算”(Test-time Compute)。AI平时没事干,空闲时间没利用起来,计算能力白白闲置。如果问题复杂(比如需要处理一大堆信息),AI得花好几分钟才能给出答案,你得干等着,而且这过程还特别费电(计算成本高)。论文提出了一种新方法,称为“睡眠时间计算”。
2025-04-23 12:11:06
315
原创 大模型微调(通俗版)
以前培训(微调)很笨重,需要把大学生所有知识都重新梳理一遍(全参数微调),耗费大量资源(比如几百 GB 显存)。做好微调,既需要科学的方法,也需要一点艺术性的直觉和经验。一个非常聪明但知识“通用”的大模型(比如 GPT),就像一个刚毕业的大学生,什么都懂一点,但不够专业。培训效果好不好,不能只看模型在练习题(训练集)上表现多棒,必须进行严格的“模拟考”和“实践检验”。微调的核心就是用“特定教材”(数据)来塑造模型的能力。:根据 2025 年的行业报告,那些采用高技术含量微调策略的公司,模型上线后。
2025-04-23 11:45:56
760
原创 微服务架构基础知识
微服务架构就像把一个大公司拆成若干个独立的小部门,每个部门职责明确、自主运营,彼此之间只通过标准接口和标准流程协作,灵活、高效、易扩展。
2025-04-18 12:50:36
945
原创 GPT,Bert类模型对比
以下是对 GPT-2、GPT-3、LLaMA 2-7B、LLaMA 3.1-8B、Alpaca 和 Vicuna 六个语言模型在参数量、训练数据、GPU 内存占用、性能表现以及优缺点方面的详细对比:
2025-04-17 22:41:56
833
原创 压缩感知Compressive Sensing
在传统信号采样中(比如奈奎斯特定理),你需要以一个足够高的频率去采样信号。但压缩感知发现,对于。你想临摹一幅画,通常会一步步照着原图细细描出来,对吧?“你其实不用画全部的细节,只画一小部分关键的点,就可以。,之后再用数学优化或深度学习方法还原原始信号。→ 让机器自己把轮廓“脑补”成完整的图像。,可以通过少量“随机投影”(即测量)来。→ 就像你用少量笔触画出一个轮廓。,就像学术世界里的“身份证”一样。(用数学或深度学习恢复完整图)直接跳转到论文的官方页面。(只采集一部分数据)
2025-04-17 13:45:26
336
原创 分布偏移 (Distribution Shift)
模型学习的是一个特定的数据模式,但当它遇到与训练数据不同模式的新数据时,其性能可能会显著下降。输入特征与输出标签之间的关系发生了变化,即使输入特征和输出标签的边缘分布可能保持不变。这是最一般的情况,即输入特征的分布和输入特征与输出标签之间的条件概率分布都发生了变化。输入特征的分布发生了变化,但输入特征与输出标签之间的条件概率分布保持不变。输出标签的分布发生了变化,但给定输出标签的输入特征的条件概率分布保持不变。我们期望训练好的模型在新的、未见过的数据。来训练一个模型,这个数据集是从一个概率分布。
2025-04-16 12:45:32
681
原创 Reasoning in LLM is different from the model inference stage(模型推理和推理阶段不一样)
训练 (Training):构建和学习模型的过程。推理/推断 (Inference)使用训练好的模型进行预测或生成内容的过程。推理 (Reasoning):模型本身具备的逻辑思考和解决问题的能力。
2025-04-16 12:28:46
188
原创 多模态大模型MLLM基础训练范式 Pre-train + Instruction FineTuning
为了在图文嵌入空间中更好地对齐视觉和文本信息。为此,使用图像-文本对(image-caption style data),表示为 (X,Ya)(\mathbf{X}, Y_a)(X,Ya),其中:下面两个公式是图文对齐预训练中核心的 语言建模概率函数 和 损失函数定义。它们共同描述了:如何让模型学会根据一张图像生成对应的文字描述,以实现图文信息在嵌入空间的对齐。p(Ya∣X)=∏i=1NaFθ(yi∣Pϕ∘Vφ(X))(1)p(Y_a|\mathbf{X}) = \prod_{i=1}^{N_a} F_
2025-04-15 20:52:54
1709
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人