
AI_Agent
文章平均质量分 95
HERODING77
上海人工智能实验室Research Engineer,硕士就读于华东师范大学数据科学与工程专业,本科就读于大连理工大学软件工程专业,兴趣方向为GUI Agent,LLM,NLP。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文通读】Enhancing Language Multi-Agent Learning with Multi-Agent CR for Interactive Env Generalization
一篇基于强化学习的digital多智能体框架,与之前稀疏奖励的方法不同,作者基于LLMs设计了step-wise的奖励,并对多智能体通信框架进行优化,从而提升多智能体在mobile、Web场景的性能,同时具有良好的泛化能力。PaperCode当前,多智能体系统优于单智能体,但是受限于预定义的角色,以及语言智能体泛化策略不充分,阻碍了多智能体在浇花环境中的性能。原创 2025-04-16 20:00:17 · 839 阅读 · 0 评论 -
【论文通读】Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration
一篇来自COLM的多智能体协作研究,定义了三种解推理问题的模式(Discuss、Review 和 Retrieve),有效提升了推理的准确性、事实性(Factuality)和忠实性(Faithfulness)。该研究为多智能体协作在解决下游任务中的应用提供了一个全新的范式。原创 2025-01-14 16:24:58 · 910 阅读 · 0 评论 -
【论文通读】OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
高质量轨迹数据的缺乏是训练GUI智能体的瓶颈,而人工标注既费时又费力,合成的轨迹数据质量较低。为突破这一瓶颈,本提出了创新的‘交互驱动’方法,有效合成高质量的GUI轨迹数据,从而为GUI智能体的发展提供了有力支持。PaperHomePage当前,基于视觉语言模型(VLMs)的GUI代理面临缺乏高质量操作轨迹的瓶颈。常规的数据采集方法,如人工标注或根据预定义任务合成数据,往往需要大量的资源,且难以保证数据质量,同时还面临数据多样性不足和与真实场景差距较大的问题。原创 2025-01-06 09:56:42 · 1201 阅读 · 0 评论 -
【论文通读】OS-ATLAS: A FOUNDATION ACTION MODEL FOR GENERALIST GUI AGENTS
一篇ICLR 2025的高分工作,面向GUI场景的基座模型的研究。通过作者的观测以及相应的方法的应用,得到了领域内的SOTA模型,证实了作者的猜想。这是GUI Agent领域的一篇开拓性的工作,证明了action和grounding是可以统一的,这也为未来在grounding基础上收集大量轨迹数据做action和planning的工作打下了坚实的基础。PapergithubHomePage现有构建GUI智能体的工作严重依赖商业VLMs的能力,因为开源VLM性能明显滞后,特别在GUI场景。原创 2024-12-08 01:11:21 · 1376 阅读 · 0 评论 -
【论文通读】Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS
SeeAct团队的后续工作,旨在通过大规模Grounding数据对开源模型进行 continuous-training以提升MLLM的Grouding能力。文章思路清晰,方法简单,介绍了很多数据处理和训练的trick,实验结果也表明本文方法显著提升了MLLM的Grounding能力。UGround是一个大的突破,但是后续还是有很多值得改进并做下去的地方。PaperGithubHomepageMLLM正在改变GUI智能体的能力,使其从仿真场景过渡到跨平台现实的应用程序。原创 2024-10-09 13:35:56 · 1540 阅读 · 0 评论 -
【论文通读】GUICourse: From General Vision Language Model to Versatile GUI Agent
一篇关于构建提升GUI智能体能力的数据集的文章,文章提到的关于提升GUI能力的三个点听起来还是比较合理的,此外,数据集的数量非常丰富,比起一些benchmark只提供几百条数据显得很有诚意。总的来说是关于提升GUI智能体能力的一个比较有想法的工作。PaperGithubVLMs的进步得以帮助人类完成GUI任务,然而,现有的VLMs受到基础能力(OCR & grounding)以及GUI知识方面的挑战,这阻碍了它们成为实用的GUI智能体。原创 2024-07-05 00:22:06 · 1130 阅读 · 0 评论 -
【论文通读】GUI Action Narrator: Where and When Did That Action Take
一篇GUI操作benchmark的工作,作者提出了一个GUI benchmark以及一个提高MLLM GUI操作能力的框架,在一定程度了提高了开源和闭源MLLM的GUI的性能。文章出发点比较有趣,但是逻辑上有点不自洽,不过整个工作的方向确实是当前的主流,值得深入去思考。PaperHomePage多模态LLMs的出现为自动化GUI任务带来了可能。构建GUI自动化系统的一个基本方面是理解原始GUI操作,它可以让智能体学习人类的操作,因此至关重要。原创 2024-07-01 17:13:28 · 1038 阅读 · 0 评论 -
【论文通读】SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
一篇开创性的关于GUI智能体的工作,作者指出了当前GUI智能体面临的关键问题——GUI grounding能力不足,并基于此做了一系列工作,为提升GUI智能体性能指明了新的方向。Papergithub当前,GUI智能体与数字终端交互的方式通过提取的结构化信息,这些信息可能冗长或者无法访问。为此,本文提出SeeClick,只依赖于截图执行自动化任务。原创 2024-06-23 14:30:58 · 1668 阅读 · 0 评论 -
【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos
数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。Paperhomepage自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。原创 2024-06-20 16:29:32 · 863 阅读 · 0 评论 -
【论文通读】AgentStudio: A Toolkit for Building General Virtual Agents
来自昆仑万象的一篇智能体环境数据大一统框架工作,对未来计算机智能体的发展具有指导性意义,作者在环境上对计算机智能体的输入输出进行了统一,基于该环境又设计了智能体数据的收集评估框架,通过实验也验证了数据集收集的重要性。此外它还提供了丰富的文档,便于初学者学习。PaperDocumentFrom创造在任意数字设备上操作任意软件的自主虚拟智能体仍然是当前AI的主要挑战。关键的两点障碍在于:现实环境中构建虚拟智能体的基础设施不足,以及对基础智能体能力评估的需求。原创 2024-04-06 18:11:18 · 1438 阅读 · 0 评论 -
【论文通读】AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
微软在智能体方面的又一重大工作,通过对话式多智能体协作的方式构建智能体系统,以解决各种应用场景下的问题。相对于文章本身,我更希望读者关注其在github上项目的工作,毕竟智能体的工作本质上都是工程化的内容,只有实际参与了项目本身你才能真正理解AutoGen的意义并感受其实用性。PaperCodeFromAutoGen是允许开发者通过多智能体的形式构建LLM应用的开原框架,这些智能体通过对话完成任务。AutoGen可定制化、可对话,并且可以在各种LLMs、用户输入和工具组合的模式下运行。原创 2024-03-30 23:40:45 · 2351 阅读 · 0 评论 -
【论文通读】UFO:A UI-Focused Agent for Windows OS Interaction
Windows客户端第一个JARVIS,利用GPT4 Vision识别截图信息辅助智能体自动化执行操作,作为微软大肆宣传的一篇工作,其前瞻性还是值得学习的,只不过在实现上博主认为还有很大的改进空间,不过也算是Windows端AI助手的基石工作了。PaperCodeFrom本文提出UFO,一种新颖的以UI为中心的智能体,它利用GPT-Vision的功能满足针对Windows操作系统上的应用程序定制用户的请求。UFO采用双智能体框架来观察和分析Windows下应用的图像化界面和控制信息。原创 2024-03-29 17:19:12 · 1507 阅读 · 0 评论 -
【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
这是第一篇OS智能体框架工作,提出了操作系统上通用且能自我改进的AI助手FRIDAY,这与只能解决简单问题的AI助手Cortana相比有着本质的区别和显著的提升。其github仓库开放一周就收获了600+stars,受到了大量科研人员和科技企业的关注,在业界有着不俗的影响力。文章投稿于ICML 2024,为LLM智能体在OS领域的应用奠定了坚实的基础。PaperCodeFrom与计算机的自动交互一直是长期存在的挑战,最近LLM的发展加速了构建数字智能体的进展。原创 2024-02-23 18:20:38 · 2496 阅读 · 4 评论 -
【论文精读】A Survey on Large Language Model based Autonomous Agents
一篇来自人大高瓴的综述,详细介绍了基于LLM的智能体的发展和应用,以及对未来的预测。作为AI当前最火的领域,智能体上手容易,操作简单,本质上就是框架+prompt,但是其效果惊艳,能够完成很多LLM无法完成的简单任务,其在未来一定大有可为。PaperCodeFrom自主智能体一直都是学术界和工业界的重点研究焦点。先前的研究关注于具有有限知识的智能体在隔绝环境下的训练,这与人类学习方式大相径庭,因此很难像人类一样做决策。最近,LLMs通过获取的丰富web知识,在完成人类等级只能上展现出非凡的潜力。原创 2024-01-03 12:59:14 · 3380 阅读 · 0 评论 -
【论文精读】GAIA: A Benchmark for General AI Assistants
一篇来自Meta、HuggingFace、AutoGPT联合投稿的Agent Benchmark的工作,为当前百花齐放的Agent领域带来了评测的标准。这篇工作详细介绍了GAIA的设计理念,展望了GAIA的未来,讨论了当前GAIA的不足,细读下来可以看到这些大佬们对于这个当前火热领域的热切期待。PaperCodeFrom本文提出GAIA,一个通用AI助手的benchmark。GAIA提出真实世界的问题,需要一系列基本能力,如推理,多模态处理,网页浏览和一般工具使用等。原创 2023-12-11 19:18:14 · 5287 阅读 · 1 评论 -
【论文精读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
一篇来自ICLR 2023的文章,可以称得上是当今火爆全网的Agent的鼻祖工作了,它提出了基于LLM初始的Agent的范式,在问答任务和决策任务上都取得了不错的结果,但是受限于LLM的能力,导致与人类的SOTA相距甚远。PaperCodeFromICLR 2023LLMs在语言理解和交互决策上表现出令人印象深刻的性能,其推理能力也作为了一个单独研究的主题。本文探索使用交互的方式生成推理任务特定动作,使二者具有更大的协同性。原创 2023-12-09 16:43:40 · 4826 阅读 · 2 评论 -
【论文精读】CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society
一篇利用LLM通过多智能体对话的形式完成特定任务的工作,中稿于NeurIPS 2023,它最大的特色在于设计了丰富的规范约束prompt,只需要很少的人工干预,就可以让多智能体自动完成任务。PaperCodeFrom随着对话式语言模型的迅速发展,在复杂任务的解决上取得了显著的进展。然而,这些成功依赖于人类的输入来指引对话,这既具有挑战性又耗时。本文探讨了构建可扩展技术以促进沟通式智能体之间自主合作的潜力,并深入了解其认知的过程。为了解决自主合作的挑战,本文提出了一种名为角色扮演的新型沟通式智能体框架。原创 2023-12-01 18:12:25 · 2448 阅读 · 0 评论 -
【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
又是一篇利用LLM进行规划的工作,中稿于NeurIPS 2023,它充分结合了专家模型解决特定任务的能力和LLMs的理解推理能力,工作新颖但效果一般,可以说提供了一种新的利用LLM解决通用任务的范式,在思想上值得借鉴。解决具有不同领域和模态的复杂人工智能任务是迈向通用人工智能的关键,虽然现在有大量可以用的AI模型面向不同领域和模态,但是它们不能解决复杂的AI任务。LLM在自然语言任务上有出色的表现,因此作者主张LLMs充当控制者来管理当前现有的AI模型,用于处理AI任务,自然语言则成为实现该目标的通用接口。原创 2023-11-23 11:57:16 · 1829 阅读 · 0 评论 -
【论文精读】VOYAGER: An Open-Ended Embodied Agent with Large Language Models
一篇AI-Agent的文章,论文一出即火遍全网,用大语言模型玩Minecraft,在这之前想都不敢想。文章中所有的工作基本上都是基于prompt实现的,这也进一步说明了GPT-4丰富的知识储备和强大的理解能力。作者从人学习的角度出发,让LLM也遵循人学习的范式,一步步在未知的世界中进行探索,这样的工作思路对探索当前大语言模型的能力来说可谓至关重要。PaperCodeFromarXiv本文提出VOYAGER,这是在Minecraft中第一个由LLM驱动的终身学习智能体,用于持续探索这个世界。原创 2023-11-15 18:53:45 · 2395 阅读 · 0 评论