Agent是不是各种prompt的堆叠?

可以明确说不是。llm是大模型的核心,推理决策都是靠大模型,虽然agent用到很多prompt来处理规划的子任务,但agent的作用不单单是prompt,不是各种prompt的堆叠。

Agent与llm的一个主要能力区别在于agent可以制定多步计划并且对应执行迭代,而llm可以给出对于执行一个动作的描述(text-only),但不会直接去执行动作(o3之类的模型除外,o3通过强化学习训练了也具备了交错执行think-action迭代的能力)。

所以一般的agent框架实现的功能可以分解为主要几个步骤:理解任务->规划任务->执行任务->返回结果(不满足继续迭代)。举个例子,你和朋友计划周末聚会吃饭,两个人在城市的不同位置,需要找一个中间位置的地方。llm很难将很细粒度的地理位置知识进行学习,如果直接调用大模型来完成这个任务,可能会出现幻觉。而agent通过多步规划和使用工具,可以准确的完成这个任务。

我们可以来实际操作一下,这样会更直观。以deepseek作为大模型选手,cursor (agent模式,集成高德地图map)为agent选手,分别测试这个任务的完成情况。

输入
“我和朋友在上海,一个在周浦,一个在马陆,找一个中间的商场吃饭”

先来看对应的执行结果:

deepseek输出:

Cursor执行结果:

让我们来分析两个结果,首先可以通过高德api确定马陆和周浦的经纬度,计算中间位置的经纬度:

马陆-经纬度:121.289473,31.339399(嘉定区),

周浦经纬度:121.579386,31.110861(浦东新区),

计算中间经纬度:121.434430,31.225130,

通过高德api确定大概位置为:静安绿地柒彩里,从地图上直观来看也没问题。

那就可以初步锁定中间位置在静安区,然后我们来看大模型的结果,第1个给的上海环球港,可以直接通过高德地图来分别看上海环球港到两个位置的距离,到马陆镇大概21公里,到周浦镇大概30公里,可以看到这个位置不是很“中间”,从周浦出发的那个同学就要多一些路程了。

环球港到马陆镇

环球港到周浦镇

再来看第二个大模型的推荐地点,南翔印象城就在马陆镇旁边,如果是男朋友从周浦出发去找女朋友,这个推荐也算合理吧。

我们再来看cursor的推荐结果,三个位置都在静安区,而且距离都不超过2km,我们只需要验证其中一个就可以。看一下静安嘉里中心,距离周浦大概23公里,距离马陆大概24公里,可以看到这个推荐是很合理的。

静安嘉里中心到周浦

静安嘉里中心到马陆

通过这个例子,已经可以很直观的看到大模型和agent的区别,agent能得到比较好的结果在于正确的规划和地图工具的多步调用。在cursor执行这个任务的时候,首先规划执行这个任务需要先计算中间位置的坐标,再通过坐标找到对应的商场。而要计算中间位置坐标,又需要计算起点和终点位置的坐标,然后去调用高德的mcp工具,这样一步步来完成任务。

如上分析,agent不是各种prompt的堆叠,而是将llm的强大推理能力用来做规划,再通过调用合适工具完成子任务,迭代执行实现总体目标的一种技术方案。

本文为知乎讨论话题(https://www.zhihu.com/question/1894891236617332066),笔者从自身角度进行思考,整理分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值