AI 玩手机越玩越 6,西湖大学发布会自我进化的智能体 AppAgentX
人工智能正处于高速发展之中,其中,大语言模型(LLM)的出现推动了智能系统从传统的信息处理转变为更自主的交互方式。
以 DeepSeek 为例的 LLM,凭借其卓越的语言理解和推理能力,在文本创作、编程协助及复杂任务规划等多个领域取得了显著成果。
而 LLM 的应用潜能远不止文本生成,它们正在开辟一种新的智能体形式 —— GUI 代理(GUI Agents)。这类智能体不仅能理解用户指令,还能直接操控计算机和手机,免去对预设规则或 API 的依赖,实现更为自然和高效的交互体验,使 AI 更加深入软件生态,融入智能操作系统中。
然而,目前的 LLM 代理虽然能力强大,但在实际任务执行效率上依然存在显著瓶颈。
为了解决这一问题,西湖大学 AGI 实验室的张驰团队推出了 AppAgentX—— 一种具有自我进化功能的 GUI 代理。该系统可以通过不断的任务执行学习和优化自身的行为,从而实现更高效的操作。
AppAgentX 的关键创新在于:
自动归纳高效操作模式:代理可在任务执行中识别重复操作,并将其自动总结为更高级的“一键”操作。
加速任务执行,减少重复计算:传统 LLM 代理每次处理任务时均需重新分析操作流程,而 AppAgentX 能记录并重用已验证的操作策略,从而消除重复推理,提升任务执行效率。
完全基于视觉的操作,兼容多种软件:传统的自动化方法往往依赖后端 API,而 AppAgentX 仅依赖屏幕视觉信息进行操作,无需后端接口,从而实现跨不同软件和设备的通用性,真正做到“即插即用”。
AppAgentX:赋能智能体“进化”
以往,计算机自动化更多依赖 RPA(机器人流程自动化),通过固定规则和 API 来完成特定任务。然而,这种方式缺乏灵活性,需进行大量手动设置。
而 GUI 代理的出现,彻底改变了这一领域,成为软件领域中的新型智能体现。
GUI 代理不再依靠后端 API,而是模仿人类的方式,通过屏幕视觉、鼠标和键盘直接与软件界面进行互动。这意味着,智能体可自主学习如何操作各种应用程序,甚至实现切换操作和复杂的跨应用任务。例如:
办公场合:自动整理文档、群发邮件
娱乐和创作:在 Photoshop 中处理图像、生成视频内容
自动化操作:批量录入数据、自动化处理订单
跨应用任务:从网页爬取信息并填充至 Excel,实现多个软件间的联动操作
因此,GUI 代理被认为是智能助手、数字化员工、自动化测试等领域的未来解决方案,但目前仍存在一个挑战:现有智能体虽然聪明却效率不高。
现有 LLM 代理大多基于逐步推理(Step-by-step Reasoning),每次执行操作前均需重新推理下一步动作。例如,在进行网页搜索时,可能会经历以下步骤:
识别需要搜索的信息;
点击搜索框;
输入关键词;
点击搜索按钮。
这种推理方式虽然赋予了智能体良好的适应性,但同时也引发了执行效率低下和重复计算的问题。AppAgentX 的核心创新则在于实现智能体的自我“进化”能力。
以下是 AppAgentX 执行播放音乐的示例,利用“一键”操作,智能体无需花费大量时间逐步推理,从而迅速完成任务。
可以看出,智能体通过优化高级操作“搜索”替代了一系列低效的基本动作。这一进化避免了繁琐的逐步推理,显著提升了代理的工作效率。
方法论简介
任务轨迹的拆解
在任务执行过程中,AppAgentX 将整个过程分解为多个重叠的三元组(由三部分组成)。这些三元组包含页面内容和用户界面的功能描述。具体来说,智能体将会:
生成功能描述:利用大语言模型(LLM)为每个页面及界面元素创建详细的功能描述,以帮助理解各部分的作用。
合并重复描述:若某些页面的描述重复生成,智能体将进行合并以去除冗余。
记录交互历史:整个互动过程将被记录为节点链,形成完整的操作历史以备后续调用。
进化机制及执行流程
在任务执行阶段,AppAgentX 还引入了一种进化机制,使得智能体可以更加高效地执行操作。此机制的核心是生成“捷径节点”,使得智能体在执行多个操作时能够避免逐步推理的步骤。具体步骤如下:
创建捷径节点:智能体识别到某些操作呈现出固定执行顺序时,会形成捷径节点,将多个基本操作整合成更高级形式。
高效执行:通过调用这些捷径节点,智能体可以迅速完成一系列操作,省略逐步推理的过程。这大幅提升了任务的执行效率。
根据实验结果显示,AppAgentX 在单次执行效率和整体的 API token 消耗方面,在多项 GUI 交互任务中均表明了显著的“降本增效”效果。
总体而言,作为一项创新的移动端交互技术,AppAgentX 通过构建链式知识存储架构与动态匹配执行机制,既保持了大型语言模型代理的灵活性,又在执行效率上实现了跨越式提升,打造了无需侧重后端访问的图形用户界面智能操作系统。
该技术在平衡智能体响应速度和认知能力上实现了重大突破,为移动端 AI 应用提供了全新的技术路径。这项研究不仅代表了智能体技术在效率和灵活性方面的重要进步,也为人机交互领域开辟了可扩展的技术模式。
Arxiv 地址:https://arxiv.org/abs/2503.02268
本文来源于微信公众号:量子位(ID:QbitAI),原文题目《AI 玩手机越玩越 6!西湖大学发布新智能体:会自我进化的 AppAgentX》
广告声明:文中包含的链接(如超链接、二维码、口令等形式),旨在传递更多信息、节省信息筛选时间,提供的结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。