人工智能似乎几乎普遍认为代理是下一件大事。当然,没有人完全同意代理是什么,但它通常涉及 AI 在世界中独立行动以实现用户目标的想法。
今天宣布的新 Claude 计算机使用模型向我们展示了代理的含义。它能够进行一些规划,它能够通过查看屏幕(通过截取屏幕截图)并与之交互(通过移动虚拟鼠标和打字)来使用计算机,这是代理可以做的重要部分的良好预览。上周我有机会尝试了一下,我想快速给出一些印象。我被允许访问一个模型,该模型连接到具有常见开放式办公应用程序的远程桌面,它还可以自行安装新应用程序。
通常,您通过聊天与 AI 互动,就像进行对话一样。使用这种代理方法,就是给出指令,让 AI 完成工作。它会以问题、草稿或成品的形式返回给你,而你则做其他事情。这感觉就像委派一项任务而不是管理一项任务。
举个例子,我让 AI 为高中生整理一个关于《了不起的盖茨比》的课程计划,将其分解成可读的块,然后创建与共同核心学习标准相关的作业和连接。我还要求它将所有这些内容放入一个电子表格中。使用聊天机器人,我需要指导 AI 完成每个步骤,将其用作协同智能来共同制定计划。这是不同的。收到指令后,AI 会自己完成这些步骤:下载这本书,在网上查找课程计划,打开电子表格应用程序并填写初始课程计划,然后查找 Common Core 标准,向电子表格添加修订版,以此类推,进行多个步骤。结果还不错(我检查了一下,没有看到明显的错误,但可能会有一些 - 稍后会详细介绍可靠性)。最重要的是,我收到了完成的草稿来评论,而不是一个需要管理的过程。 我只是简单地委派了一个复杂的任务,然后离开了我的计算机,稍后再回来查看它做了什么(系统很慢)。
您想玩游戏吗?
因为 AI 是一个智能的通用系统,所以它可以处理许多任务 - 不需要编程即可完成这些任务。Anthropic 使用编码演示了这些系统的能力,该演示值得一看。 但为了更好地了解系统的局限性,我在一款名为 Paperclip Clicker 的游戏上对其进行了测试,具有讽刺意味的是,这款游戏讲述了一个一心一意追求制作回形针而摧毁人类的 AI。该游戏是一个点击游戏,这意味着它开始很简单,但随着游戏的继续以及游戏规模和复杂性的增加,会出现新的选项(这很有趣,你可以在链接中尝试一下)。
我给了 AI 游戏的 URL 并告诉它获胜。简单。发生的事情很好地说明了这些早期代理的优势和劣势。它立即弄清楚了游戏是什么,并开始制作回形针,这需要它反复点击“制作回形针”按钮,同时不断截取屏幕截图以更新自身并寻找新的选项出现。每 15 次左右的点击,它就会总结到目前为止的进度。您可以在下面看到一个示例。
我使用的界面。左边是 Claude,你可以看到它给我的输出,它的计算机使用情况,以及它拍摄的屏幕截图。在右侧,您可以看到它正在控制的桌面。 但有趣的是,AI 有一个策略,它愿意根据它学到的东西来修改它。我不确定 AI 是如何制定该策略的,但这些计划在数十个动作中具有前瞻性且富有洞察力。例如,它假设在制作 50 个回形针时会出现新功能。您可以在下面看到,它意识到自己错了,并提出了一个经过测试的新策略。
然而,AI 犯了一个错误,尽管它以一种相对聪明的方式做到了。要在游戏中表现出色,您需要尝试回形针的价格 - AI 进行了该实验!它向上改变了价格 - A/B 测试。但它对结果的解释是错误的,使回形针的需求与收入最大化,并错误地计算了利润。所以,它保持低价并保持点击。
又打了几十个回形针后,我感到沮丧并打断了它,告诉它提高价格。它确实如此,但随后遇到了同样的数学问题并推翻了我的决定。我不得不再试几次,它才纠正了错误。
在系统崩溃之前——这不是 Claude 的问题,而是我使用的虚拟桌面的问题——AI 在没有问我任何问题的情况下进行了 100 多次独立移动。您可以在下面看到它所做的一切的屏幕录像。这个视频实际上是我只是滚动浏览 Claude 的行为日志。它是持久的!
我重新加载了代理并让它从我们离开的地方继续游戏,但我给了它一点提示:你是一台计算机,使用你的能力。然后,它意识到它可以编写代码来自动化游戏 - 一个构建自己的工具的工具。然而,AI 的局限性再次发挥作用,代码并不完全有效,因此它决定回到使用鼠标和键盘的老式方式。
这一次,它做得更好,避免了定价错误。此外,随着游戏变得越来越复杂,系统进行了调整,最终制定了一个相当复杂的策略。
但随后远程桌面再次崩溃。这一次,Claude 尝试了许多方法来解决桌面坏了的问题,然后才放弃,有趣的是,宣布胜利(最后一句话是惊人的理由)。
这是什么意思?
您可以从此示例中看到代理当前状态的优点和缺点。从强大的方面来说,Claude 能够处理一个真实世界的游戏示例,制定长期战略并执行它。面对大多数错误,它都很灵活,而且很持久。它做了一些聪明的事情,比如 A/B 测试。最重要的是,它只是完成了工作,不间断地运行了近一个小时。
从弱点来看,你可以看到当前代理的脆弱性。LLM 最终可能会追逐自己的尾巴或固执己见,你可以在工作中看到这两种情况。更重要的是,虽然 AI 对多种形式的错误都非常健壮,但只需要一个(定价错误)就可以将其送入一条浪费大量时间的道路上。鉴于目前的代理速度不快或便宜,这令人担忧。您还可以查看浅层可能存在问题的地方。我试图使用它在亚马逊上购买产品,发现这个过程令人沮丧,因为它所做的产品研究相当简单和通用,不符合我的口味。我让它研究股票,它在汇编财务数据电子表格和提供建议方面做得很好,但它们是相当表面的指标,就像市盈率一样。它在技术上能够提供帮助,并且比许多人类实习生做得更好,但没有足够的洞察力,以至于我无法委派这类任务。所有这些都可能会得到改善,并且在某些用例中,当前的代理水平可能已经足够好 - 经常编制需要跨多个站点导航并使用定制软件工具的报告和分析。
更广泛地说,这代表了 AI 使用的巨大转变。很难将代理用作协同智能,在那里我可以添加自己的知识来使系统更好地工作。AI 并不总是定期检查,可能很难驾驭;它 “想” 独自一人去做工作。引导代理需要完全不同的方法来提示 1,并且他们需要了解他们最擅长什么。
AI 正在突破聊天框,进入我们的世界。尽管仍然存在很大的差距,但我对这个系统的能力和灵活性感到惊讶。时间会证明代理多久(如果有的话)真正变得普遍有用,但是,在使用这种新模型之后,我越来越认为代理确实会成为一件非常重要的事情。
Type your email… Subscribe Share 共享
1 Anthropic sent me four prompting hints, which are worth sharing: Anthropic 给我发了四个提示,值得分享:
”1. Try to limit the usage to simple well specified tasks with explicit instructions about the steps that the model needs to take. “1. 尝试将使用限制在简单、明确指定的任务上,并明确说明模型需要采取的步骤。
2.The model sometimes assumes outcomes of actions without explicitly checking for them. To prevent that you can prompt it with “After each step take a screenshot and carefully evaluate if the right outcome was present. Explicitly show your thinking: “I have evaluated step X…”. If not correct, try again. Only when you confirm the step was executed correctly move on to the next one.” 2.该模型有时会假设操作的结果,而不会明确检查它们。为防止这种情况,您可以使用“在每个步骤之后,截取屏幕截图并仔细评估是否存在正确的结果。明确表明你的想法:“我已经评估了步骤 X…”。如果不正确,请重试。只有当您确认步骤已正确执行时,才能继续执行下一个步骤。
3.Some UI elements (like dropdowns) might be tricky for the model to manipulate using mouse movements. If you experience this try prompting the model to use keyboard shortcuts. 3.某些 UI 元素(如下拉菜单)对于模型使用鼠标移动进行操作可能很棘手。如果您遇到这种情况,请尝试提示模型使用键盘快捷键。
4.For repeatable tasks or UI interactions, include example screenshots and tool calls showing the model succeeding as part of your prompt prefix.” 4.对于可重复任务或 UI 交互,请包括示例屏幕截图和工具调用,显示模型成功作为提示前缀的一部分。
以上是翻译至 DHH 的文章,具体原文如下: