清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制
IT之家 1 月 2 日报道,清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日推出了一项新的研究论文,介绍了 AutoDroid-V2 AI 模型,该模型在移动设备上应用小型语言模型,显著增强自然语言控制的自动化水平。
该系统通过基于脚本的方式,利用设备上的小型语言模型(SLM)编码功能,高效执行用户的指令。与传统的依赖云端的大型语言模型(LLM)的方法相比,AutoDroid-V2 在效率、隐私保护和安全性方面具有明显的优势。
项目背景
大型语言模型(LLMs)与视觉语言模型(VLM)的出现,彻底改变了通过自然语言指令控制移动设备的方式,为复杂的用户任务提供了全新解决方案。
目前,自动化控制设备通常采用“逐步 GUI 智能体”(Step-wise GUI agents)的方式,基于 LLM 在每个 GUI 状态之间进行动态决策和持续处理用户任务,直至完成。
然而,这种方法过于依赖云端模型,在处理个人 GUI 页面时存在隐私和安全隐患,同时还会导致用户端的数据流量消耗和昂贵的服务器集中服务成本,妨碍了 GUI 智能体的大规模应用。
项目简介
与传统的逐步操作模式不同,AutoDroid-V2 通过用户指令生成多步骤的脚本,能够一次性完成多个 GUI 操作,从而显著减少查询频率和资源消耗。
该系统使用设备内的小型语言模型进行脚本的生成与执行,减少对大型云端模型的依赖,有效保证了用户隐私和数据安全,同时降低了服务器端的费用。
在离线阶段,该模型构建应用文档,包括 AI 引导的 GUI 状态压缩、元素 XPath 自动生成及 GUI 依赖分析,为后续的脚本生成提供基础。
此外,在用户提交任务时,本地 LLM 会生成多步骤脚本,由专门的领域解释器执行,以确保高效可靠的运行。
性能评估
根据基准测试,在 23 款移动应用中测试了 226 项任务,AutoDroid-V2 的任务完成率比 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线提高了 10.5%至51.7%。
在资源消耗方面,输入和输出的 token 消耗分别降低到原来的 43.5 分之一和 5.8 分之一,LLM 推理的延迟减少至 5.7 至 13.4 分之一。
通过对 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 进行的跨 LLM 测试,成功率保持在 44.6%-54.4% 之间,反向冗余比则达到了 90.5%-93.0%。
IT之家提供以上参考链接
广告声明:文中提供的外部链接(包括超链接、二维码等形式)用于传递更多有价值的信息,帮助读者节省信息筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。