- 博客(279)
- 资源 (4)
- 收藏
- 关注
原创 多模态大语言模型arxiv论文略读(七十七)
➡️ 研究动机:现有的研究主要集中在单模态大语言模型(LLMs)的PEFT方法上,而对于多模态模型(MLLMs)的PEFT方法研究较少。➡️ 研究动机:为了解决上述限制,研究团队构建了CVQA,这是一个新的、大规模的、多语言的、文化多样性的VQA基准,旨在覆盖丰富的语言和文化,通过与本地语言使用者和文化专家合作收集数据。实验设计了不同因素的变化,如PEFT模块的位置(注意力层、MLP层或两者)、微调数据的规模(低资源、中资源、高资源),以及不同类型的PEFT方法,以全面评估模型在不同条件下的表现。
2025-05-15 08:52:04
438
原创 多模态大语言模型arxiv论文略读(七十六)
为了评估REAMO的性能,研究团队构建了一个包含3,000个实例的高质量测试集,涵盖了9种常见模态组合下的NER、RE和EE任务,进一步标注了模态共享和特定内容,以模拟对齐和不对齐的模态场景。为了填补这一空白,本文首次引入了基于多模态的通用信息抽取(Multimodal Universal Information Extraction, MUIE)的概念,提供了一个统一的任务框架,用于分析各种模态上的IE任务,以及它们的细粒度定位。最后,通过在生成的合成数据上微调源模型,使其适应合成域。
2025-05-15 08:50:08
517
原创 多模态大语言模型arxiv论文略读(七十五)
实验评估了AD-H在不同环境和指令下的表现,特别是在长时规划和新环境中的泛化能力。➡️ 方法简介:研究团队提出了一种系统的方法,通过将布局信息表示为结构化的自然语言(JSON格式),并利用预训练的视觉头部将输入图像转换为适应文本标记空间的表示,然后对大语言模型(LLM)进行微调,以解释和生成布局数据。➡️ 研究动机:为了充分利用预训练的MLLMs在高层次感知、推理和规划中的潜在能力,研究团队提出了一种分层多代理驾驶系统(AD-H),通过引入中间层次的命令来桥接高层次指令和低层次控制信号之间的差距。
2025-05-14 08:48:19
829
原创 多模态大语言模型arxiv论文略读(七十四)
研究团队提出了一种新的方法,通过利用多模态大语言模型(MLLMs)生成高质量的文本描述,并利用这些生成的文本作为元数据来净化IAA数据集中的噪声,从而构建一个统一的质量和美学图像-文本数据集。为了解决这些问题,研究团队开发了xLLaMA-100和xBLOOM-100(统称为xLLMs-100),旨在扩展LLMs的多语言能力至100种语言,并通过多语言指令调优和跨语言人类反馈对齐,提升模型的理解和生成能力。因此,扩展LLMs的多语言能力,特别是支持低资源语言,成为当前研究的重要方向。
2025-05-14 08:46:15
386
原创 多模态大语言模型arxiv论文略读(七十三)
尽管近年来的研究在图像外扩方面取得了显著进展,但这些方法通常假设给定的子图像是唯一的输入,这限制了它们在实际场景中的应用和可扩展性。➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但在移动设备操作任务中,由于训练数据的限制,这些模型作为操作助手的能力有限。➡️ 研究动机:为了弥补现有MLLMs在视频理解上的不足,特别是针对复杂视频中的目标指代理解,研究团队提出了Artemis,这是一个能够对视频中的特定目标进行细粒度描述的MLLM。
2025-05-13 08:42:21
563
原创 多模态大语言模型arxiv论文略读(七十二)
➡️ 论文标题:DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models➡️ 论文作者:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou➡️ 研究机构: 北京大学、香港大学、华为诺亚方舟实验室。
2025-05-13 08:39:33
806
原创 多模态大语言模型arxiv论文略读(七十一)
➡️ 实验设计:实验在两个流行的MLLMs(InstructBLIP和LLaVA-v1.5)上生成对抗性样本,并在多个受害模型(包括不同版本的BLIP2、InstructBLIP、MiniGPT-4、LLaVA-v1.5和LLaVA-v1.6)上测试这些样本的可转移性。然而,目前缺乏对MLLMs生成的对抗性样本的跨模型可转移性的系统研究。尽管在单模态生成方面已经取得了显著进展,但如何有效地利用LLMs来增强多模态生成的质量和功能,特别是在图像、视频、3D和音频等领域的生成和编辑,仍然是一个重要的研究方向。
2025-05-12 10:43:47
986
原创 多模态大语言模型arxiv论文略读(七十)
实验设计了不同的指令类型(如部件定位、材料定位和组合定位),以及不同类型的点云数据,以全面评估模型在部件级别上的理解和定位能力。➡️ 研究动机:为了解决现有视频编辑模型的局限性,研究团队提出了RACCooN,一个多功能且用户友好的视频编辑框架,该框架通过自动生成的叙述支持多种视频编辑能力,如移除、添加和修改视频内容。➡️ 问题背景:尽管多模态大语言模型(MLLMs)在结合视觉和语言的任务中取得了显著进展,但在详细多模态理解、复杂任务的处理和多模态信息的推理方面仍存在挑战。
2025-05-12 10:42:01
905
原创 多模态大语言模型arxiv论文略读(六十九)
本文从数据驱动的角度全面回顾了MLLMs的文献,探讨了预训练和适应阶段的多模态数据准备方法,分析了数据集的评估方法,并回顾了评估MLLMs的基准。具体包括数据收集的来源、数据处理的方法(如过滤、去重和增强)、数据选择的方法(如主动学习、分布无关和分布相关选择),以及数据评估的方法和评估基准。➡️ 实验设计:本文没有具体描述实验设计,而是通过文献回顾的方式,总结了不同阶段的数据处理方法和评估标准,包括数据收集的来源、数据处理的方法、数据选择的方法,以及数据评估的方法和评估基准。
2025-05-11 21:03:11
970
原创 多模态大语言模型arxiv论文略读(六十八)
➡️ 方法简介:研究团队构建了一个联合开放世界定位(OWL)和多模态大型语言模型(MLLM)的架构(J),通过将OWL-ViT的视觉编码器与LLaVa的语言模型结合,并训练一个对齐的多层感知机(MLP)W,使得模型能够从同一视觉嵌入中同时生成文本和边界框输出。➡️ 研究动机:为了提高MLLMs的可解释性,研究团队提出了一种新的方法,通过结合开放世界定位模型(OWL-ViT)和多模态大型语言模型(MLLMs),创建了一个新的架构,能够同时从同一视觉嵌入中生成文本和对象定位输出。
2025-05-11 21:00:09
1003
原创 多模态大语言模型arxiv论文略读(六十七)
本文摘要涵盖了五篇关于多模态大语言模型(MLLMs)的研究论文,分别探讨了不同方面的创新和改进。首先,Uni-MoE提出了一种基于Mixture of Experts(MoE)架构的统一MLLM,能够处理视频、图像、文本、音频和语音等多种模态,通过三阶段训练策略提高模型效率和性能。其次,MTVQA构建了一个多语言文本中心视觉问答基准,旨在解决多语言场景中的视觉-文本错位问题,并展示了现有MLLMs在多语言任务中的改进空间。第三,Single Image Unlearning提出了一种单图像遗忘方法,通过微调
2025-05-09 08:41:41
1441
原创 多模态大语言模型arxiv论文略读(六十六)
➡️ 研究动机:为了缓解MLLMs中的幻觉问题,现有的方法主要采用基于人类反馈的强化学习(RLHF)方法,通过收集人类/AI的偏好并将其整合到MLLMs的优化过程中。实验设计了不同的攻击方法和条件,如图像嵌入攻击和文本边界框攻击,以及不同的目标类型(如独占目标和置换目标),以全面评估模型在对抗性攻击下的表现。➡️ 研究动机:为了更深入地研究动态、开放世界和结构化情境中的常识推理,研究团队构建了一个新的基准(SOK-Bench),旨在评估模型在视频中利用情境知识和一般知识进行推理的能力。
2025-05-09 08:39:05
1086
原创 多模态大语言模型arxiv论文略读(六十五)
本文旨在通过回顾LLMs和MLLMs的发展背景、结构特点、训练和评估方法,以及总结其在临床实践中的应用、挑战和潜在解决方案,为医疗领域的研究人员和从业人员提供全面的指导。➡️ 实验设计:本文并未进行具体的实验设计,而是通过文献综述和案例分析,系统地总结了医疗LLMs和MLLMs的构建和评估方法,包括数据集的选择、微调方法和评估策略。➡️ 研究动机:为了提高PI-RADS评分模型的准确性,研究团队提出了一种新的方法,通过适应多模态大型语言模型(MLLM)来整合PICG,无需额外的注释和网络参数。
2025-05-08 08:48:09
690
原创 多模态大语言模型arxiv论文略读(六十四)
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种多模态任务中表现出色,但当前的评估研究主要集中在模型在单一模态(视觉)任务中的理解和推理能力,忽略了在复杂多模态推理任务中(结合视觉和文本上下文)的关键性能评估。➡️ 方法简介:研究团队提出了一个系统的方法,通过构建MM-INSTRUCTEVAL框架,评估31个模型(包括23个MLLMs)在16个数据集上的表现,涵盖了6种不同的多模态推理任务。实验设计了10种不同的指令,以评估模型在不同指令下的表现,从而揭示模型架构、指令格式和任务性能之间的关系。
2025-05-08 08:46:30
671
原创 Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
针对多模态大语言模型(MLLM)扩展过程中计算成本高、模态支持有限的问题,本文提出基于混合专家(MoE)架构的统一多模态大语言模型Uni-MoE。通过引入特定模态编码器与连接器,模型实现了文本、图像、音频、视频等多种模态的统一表征,并在密集型语言模型中嵌入稀疏MoE架构,仅需激活部分参数即可完成高效训练与推理。跨模态对齐(通过多模态数据训练连接器)、模态专家训练(利用交叉模态数据优化专家网络)和联合调优(基于混合多模态指令数据微调整体模型)。
2025-05-07 10:00:40
1050
原创 多模态大语言模型arxiv论文略读(六十三)
为了改进这一点,研究团队构建了一个包含人类对英语-印地语(en-hi)混合编码文本可接受性判断的数据集Cline,旨在区分自然的混合编码文本,并实现质量控制的混合编码文本生成。➡️ 方法简介:研究团队提出了一种系统的方法,通过利用MLLMs生成大规模的图像-文本对,来训练一个可迁移的模型。2)减少合成文本描述中的噪声影响。为了提升模型在3D场景中的理解和推理能力,研究团队开发了一个大规模的2D和3D预训练数据集LV3D,并提出了一个新的MLLM模型Cube-LLM,通过纯数据扩展来实现强大的3D感知能力。
2025-05-07 08:37:23
1137
原创 多模态大语言模型arxiv论文略读(六十二)
➡️ 研究动机:为了解决上述挑战,研究团队提出了OmniDrive,这是一个全面的框架,旨在实现3D感知、推理和规划的强对齐。OmniDrive不仅提出了一个新颖的3D MLLM架构,还引入了一个新的基准测试OmniDrive-nuScenes,该基准测试涵盖了全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D定位、反事实推理、决策和规划。为了深入理解幻觉的成因,并探索有效的检测和缓解方法,研究团队对MLLMs中的幻觉现象进行了全面的分析和综述,旨在为未来的研究和应用提供有价值的见解和指导。
2025-05-07 08:35:28
1093
原创 多模态大语言模型arxiv论文略读(六十一)
评估涵盖了不同类型的图表、地图和网页,通过计算模型生成每个选项内容的似然性来选择模型的预测答案。➡️ 方法简介:SERPENT-VLM采用了一种独特的自监督损失函数,该函数利用图像表示和生成的放射学文本的上下文表示之间的相似性,结合标准的因果语言建模目标,来精炼图像-文本表示。➡️ 研究动机:为了克服现有3D生成模型在材料生成上的局限性,研究团队提出了一种新的方法——Make-it-Real,利用多模态大型语言模型(MLLMs),特别是GPT-4V,来识别和应用真实世界的材料到广泛的3D对象上。
2025-05-06 08:37:34
808
原创 多模态大语言模型arxiv论文略读(六十)
➡️ 方法简介:研究团队提出了两种模态非特定损失目标,包括延迟EOS损失和不确定性损失,以及两种模态特定损失目标,即冗长图像的令牌多样性损失和冗长视频的帧特征多样性损失。为了进一步探索这一问题,研究团队提出了一种系统的方法,通过设计延迟EOS损失、增加输出不确定性、提高多样性等手段,来诱导MLLMs生成更长的序列,从而增加能量-延迟成本。➡️ 问题背景:现有的视频生成技术虽然取得了显著进展,但生成的视频通常缺乏音效(SFX)和背景音乐(BGM),这限制了观众的沉浸式体验。
2025-05-06 08:35:22
862
原创 多模态大语言模型arxiv论文略读(五十九)
此外,理解设计同样具有挑战性,因为这些模型可能首次遇到设计任务,而没有设计知识,如颜色的对比和和谐、不同字体的清晰度和象征意义,以及布局中的有意安排。本研究旨在评估MLLMs在VDL测试中的适用性,包括变异图像的整体语义有效性、变异图像与文本指令的一致性,以及不同变异在保持应保持不变的语义方面的忠实度。➡️ 研究动机:为了克服现有评估方法的局限性,并提供一个全面评估3D-LLMs性能的平台,研究团队开发了一个可扩展的3D基准测试(3DBench)和一个大规模的指令调优数据集。
2025-05-04 15:50:51
1232
原创 多模态大语言模型arxiv论文略读(五十八)
➡️ 论文标题:MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning➡️ 论文作者:Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara。
2025-05-04 15:47:07
1134
原创 多模态大语言模型arxiv论文略读(五十七)
具体来说,Square方法首先利用MLLMs的文本-图像分析能力生成与图像文本内容相关的问题,然后通过多种提示技术生成答案,接着要求模型提供详细的推理过程,最后通过自评估和多提示一致性检查来过滤生成的数据,确保数据的质量。实验设计了不同的任务,如计数、空间推理和复杂的视觉问答任务,以全面评估Fact生成的推理在提高模型性能和减少幻觉方面的效果。为了进一步提升开源模型的性能,研究团队提出了一种系统的方法,通过闭源MLLMs生成大规模、高质量的文本中心VQA数据集,以提高模型的性能和减少幻觉现象。
2025-05-03 11:39:53
1011
原创 多模态大语言模型arxiv论文略读(五十六)
为了评估这些模型在工程设计任务中的表现,研究团队开发了DesignQA,这是一个新的多模态基准,旨在评估MLLMs在理解和应用工程设计要求方面的能力。➡️ 问题背景:尽管大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自然语言处理任务中展现了卓越的能力,但越南语多模态资源的缺乏限制了越南语MLLMs的发展。➡️ 研究动机:为了解决越南语多模态资源的缺乏问题,并促进越南语多模态语言理解的研究,研究团队介绍了LaVy,这是首个越南语MLLM,并且在越南视觉语言任务中达到了最先进的性能。
2025-05-03 11:34:42
964
原创 多模态大语言模型arxiv论文略读(五十五)
➡️ 实验设计:研究团队在14个不同的移动UI任务上进行了实验,包括3个来自Spotlight的任务(screen2words、widget captions、taperception)和11个针对iPhone和Android屏幕的双版本任务。现有的基准测试要么设计用于通用多模态任务,无法捕捉网页的独特特性,要么专注于端到端的网页代理任务,无法衡量细粒度的能力,如OCR、理解和定位。此外,该方法还引入了跨受试者训练策略,以学习跨受试者的通用表示,从而减少对大量训练数据的依赖,并提高模型的适应性和泛化能力。
2025-05-02 11:47:58
768
原创 多模态大语言模型arxiv论文略读(五十四)
实验设计了不同的任务类型(如情感识别和AU识别),以及不同的评估指标(如REGE,即识别和生成性能的综合指标),以全面评估模型在FABA任务中的表现。➡️ 实验设计:研究团队在五个广泛使用的文档理解基准数据集上进行了零样本实验,实验设计了不同的任务类型,包括文档密集描述、文档布局分析、表格理解等,以全面评估LayoutLLM在不同任务中的表现。然而,现有的方法在处理未见过的任务或场景时,表现出有限的泛化能力,并且忽视了机器人决策中至关重要的多模态环境信息。
2025-05-02 11:41:59
993
原创 多模态大语言模型arxiv论文略读(五十三)
实验设计了多种越狱方法,包括文本越狱和视觉越狱,以全面评估模型对越狱攻击的鲁棒性。研究发现,GPT-4和GPT-4V在文本和视觉越狱方法上表现出更好的鲁棒性,而Llama2和Qwen-VL-Chat在开源模型中表现更为稳健。实验结果表明,VTPrompt显著提高了GPT-4V和Gemini Pro在这些任务中的性能,特别是在MME和MMB数据集上,分别取得了显著的分数提升。实验结果表明,VoT显著提高了模型在所有任务中的表现,尤其是在自然语言导航任务中,VoT比禁用可视化的设置提高了23.5%的性能。
2025-05-01 22:39:56
962
原创 多模态大语言模型arxiv论文略读(五十二)
➡️ 问题背景:大型语言模型(LLMs)及其多模态版本(MLLMs)的发展为游戏代理(game agents)的进化提供了前所未有的机会,使这些代理能够在复杂的计算机游戏环境中展现出类似人类的决策能力。➡️ 研究动机:为了弥合这一差距,研究团队对基于LLM的游戏代理(LLMGAs)进行了全面的综述,旨在提供一个统一的参考框架,涵盖LLMGAs的六个核心功能组件:感知、记忆、思考、角色扮演、行动和学习。➡️ 研究动机:为了填补3D医学图像分析的空白,研究团队致力于开发适用于3D医学图像的多模态大语言模型。
2025-05-01 22:36:36
923
原创 多模态大语言模型arxiv论文略读(五十一)
➡️ 研究动机:为了探究语言-图像预训练模型是否可以从长描述中受益,研究团队首先使用预训练的多模态大型语言模型(MLLM)为3000万张图像生成详细的描述,然后在对比学习框架下研究这些长描述的使用。通过评估模型在不同扰动下的表现,研究团队希望揭示词汇重叠、跨语言迁移能力和对抗性扰动之间的关系,为未来的NLP应用提供有价值的见解。➡️ 研究动机:为了克服这些限制,研究团队提出了一种新的框架P2G,通过利用外部代理(如OCR代理和视觉定位代理)来增强MLLMs在高分辨率和文本丰富的视觉场景中的推理能力。
2025-04-30 08:54:34
997
原创 多模态大语言模型arxiv论文略读(五十)
视觉采样器从原始图像中提取包含详细信息的局部图像,视觉编码器和投影器提取视觉标记,MLLMs则整合来自原始图像和局部图像的视觉标记,以提供更精确和全面的答案。➡️ 研究动机:为了提高MLLMs的解释性和准确性,研究团队开发了一个大规模的视觉链式思维(Visual CoT)数据集,包含438,000个问题-答案对,每个对都标注了关键区域的边界框。为了减少视觉幻觉,研究团队提出了一种新的方法Pensieve,该方法通过回顾相似图像作为参考,并通过比较这些参考图像与测试图像的置信度分数来识别准确的视觉线索。
2025-04-30 08:52:15
597
原创 多模态大语言模型arxiv论文略读(四十九)
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)近年来受到了广泛的关注,它们继承了大型语言模型(LLMs)强大的语言表达和逻辑推理能力,通过整合视觉和文本信息,不仅增强了对视觉内容的理解,还为语言理解和生成提供了更全面的上下文。➡️ 研究动机:为了克服静态调优策略的局限性,研究团队提出了HyperLLaVA,通过动态调优投影器和LLM参数,结合动态视觉专家和语言专家,以提高MLLMs在不同多模态任务中的灵活性和性能。
2025-04-29 09:51:02
848
原创 多模态大语言模型arxiv论文略读(四十八)
此外,研究团队采用了一种细调策略,通过统一的VQA格式和投影层,将机器人特定的知识与MLLMs的视觉推理能力相结合,同时保留了模型原有的视觉推理能力。➡️ 研究动机:为了提高MLLMs在文本丰富图像上的视觉文档理解能力,研究团队提出了统一结构学习(Unified Structure Learning)的概念,旨在通过结构感知解析任务和多粒度文本定位任务,增强模型对文本内容和布局信息的理解。实验设计了不同的任务,如物体检测、操作可能性检测、物理概念理解等,以全面评估ManipVQA在不同任务中的表现。
2025-04-29 09:48:35
841
原创 多模态大语言模型arxiv论文略读(四十七)
➡️ 方法简介:研究团队提出了一种名为ECSO(Eyes Closed, Safety On)的新型无训练保护方法,该方法利用MLLMs的内在安全意识,通过将不安全的图像转换为文本,激活预对齐LLMs的内在安全机制,从而生成更安全的响应。为进一步提高防御效果,团队引入了一个自适应自动优化框架(AdaShield-Adaptive, AdaShield-A),该框架通过目标MLLM和防御者模型(Defender)的对话交互,自动优化防御提示,生成多样化的防御提示池,以适应不同的攻击场景。
2025-04-28 09:18:04
915
原创 多模态大语言模型arxiv论文略读(四十六)
➡️ 研究动机:为了克服上述挑战,研究团队提出了一种新的框架——DialogGen,旨在通过整合多模态大型语言模型(MLLMs)和T2I模型,构建一个多模态交互对话系统(MIDS),以实现多轮文本到图像生成。➡️ 问题背景:近年来,大型语言模型(LLMs)的发展极大地推动了自然语言处理领域,而多模态大型语言模型(MLLMs)则进一步将视觉信息与文本信息结合,以实现更广泛的任务,如图像描述、视觉问答(VQA)等。然而,当前的多模态模型在处理图像中的嵌入文本时仍面临挑战,这限制了其在现实世界中的应用。
2025-04-28 09:16:03
719
原创 Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
🏡| 📄| 🤗| 🤗。
2025-04-28 09:07:57
1241
原创 【智能体帮你复现论文】Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
📄是一个多智能体 LLM 系统,可以将论文转化为代码仓库。它遵循三阶段流水线:规划、分析和代码生成,每个阶段都由专门的智能体处理。我们的方法在 Paper2Code 和 PaperBench 上均优于强大的基线,并生成忠实、高质量的实现。
2025-04-27 17:08:10
439
原创 多模态大语言模型arxiv论文略读(四十五)
实验设计了不同因素的变化,如不同的3D图像编码器和2D MLLMs的组合,以及不同的下游任务,以全面评估Med3DInsight在不同条件下的表现。➡️ 研究动机:为了增强3D医学图像的理解,研究团队提出了一种新的预训练框架Med3DInsight,该框架结合了现有的3D图像编码器和2D MLLMs,并通过设计的Plane-Slice-Aware Transformer (PSAT) 模块将它们连接起来,旨在提高3D图像的语义理解能力,并在多个下游任务中表现出色。
2025-04-27 08:59:34
686
原创 多模态大语言模型arxiv论文略读(四十四)
这种类型的虚假信息通过将真实的图像与错误的文本结合,误导观众,而现有的检测方法往往缺乏对这些判断的合理解释。➡️ 研究动机:为了克服现有MLLMs在细粒度视觉感知和多模态交互方面的限制,研究团队提出了一种新的多模态指令调优LLM——AnyRef,该模型能够生成像素级对象感知和区域感知的自然语言描述,支持文本、边界框、图像和音频等多种模态的参考。➡️ 方法简介:研究团队设计了一种统一的多模态参考表示方法,将不同模态的输入映射到LLM的词汇空间中,通过引入特殊的标记和重新聚焦机制,增强了模型的像素级感知能力。
2025-04-27 08:58:25
844
原创 多模态大语言模型arxiv论文略读(四十三)
实验包括了不同类型的推荐模型(如基于会话的推荐模型),并通过重新排序模型的预测结果,结合从截图中提取的用户行为上下文信息,提高了推荐的准确性和相关性。➡️ 研究动机:为了解决上述问题,研究团队提出了一种新的推荐框架InteraRec,该框架利用用户浏览网页时的截图,结合多模态大语言模型(MLLMs)和优化工具,生成更加个性化和实时的推荐。➡️ 研究动机:为了应对高分辨率图像处理的挑战,研究团队开发了InfiMM-HD,这是一种创新的MLLM架构,旨在以较低的计算成本处理不同分辨率的图像。
2025-04-26 11:10:01
642
原创 多模态大语言模型arxiv论文略读(四十二)
多模态大语言模型arxiv论文略读(四十一)➡️ 研究动机:为了提高模型在处理复杂布局文档和需要推理的问题时的性能,研究团队提出了一种基于数据增强和扩展的方法,通过多模态大语言模型(MLLMs)生成分步骤的问题-答案对,并使用高性能的语言模型作为错误检测器来过滤噪声数据。➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在多种视觉-语言任务中展现了卓越的能力,但这些模型主要关注于理解图像的整体视觉信息,而忽略了图像中对象之间的关系。
2025-04-26 11:07:26
1184
原创 多模态大语言模型(MLLM)- kimi-vl technical report论文阅读
kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。代码链接:https://github.com/MoonshotAI/Kimi-VL有钱真好,超大规模数据+卓越的AI Infra+算法,造就多模态的性能小钢炮。
2025-04-25 18:19:20
1643
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人