突破手机智能体瓶颈:复合长程任务的新基准与调度系统

新研究发布移动智能体复合长程任务测试基准UI-NEXUS与调度系统AGENT-NEXUS,有效提升AI助手处理复杂任务的能力,推动AI操作系统发展。

原文标题:手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布

原文作者:机器之心

冷月清谈:

当前的移动端GUI智能体(如手机AI助手)在处理单一、简短的“原子任务”时表现出色,但在应对那些涉及跨应用操作、信息收集传递和深度思维的“复合长程任务”时,却遭遇了明显的性能瓶颈。例如,让助手完成“比较价格并在便宜的平台下单”这类任务,它往往会出现注意力涣散、信息传递失败或进度管理混乱等问题,暴露出从原子任务到复合任务的泛化能力不足。

针对这一关键缺口,上海交通大学和澜舟科技的研究团队提出了两项重要创新:

1. **UI-Nexus 动态评测基准**:这是一个专门为移动端智能体复合任务设计的全面测试平台。它涵盖了50款中英文应用,设计了100个任务模板,平均最优完成步数达14.05步,远超现有基准的难度。UI-Nexus根据子任务的依赖关系,将复合任务细分为独立组合型、语境传递型和深度分析型三大类,为智能体在不同复杂程度下的表现提供了标准化的衡量方式。

2. **AGENT-NEXUS 多智能体任务调度系统**:这是一个轻量化的调度框架,它通过解耦高阶调度和低阶执行,有效地解决了智能体在复合任务中的一系列问题。该系统无需修改底层智能体模型,支持智能体可插拔接入,并通过调度模块、执行模块和进程记忆的协同工作,来管理指令分发、信息传递和任务进度,显著减轻了语境过载的风险。

实验结果表明,在UI-Nexus基准上,现有移动端智能体的任务完成率普遍低于50%。然而,接入AGENT-NEXUS调度系统后,智能体的任务完成率得到显著提升(高达24%~40%),同时仅带来约8%的推理开销增长,有效弥补了从原子任务到复合任务的泛化损失。研究还强调了健壮的记忆机制对处理复合长程任务的重要性,并指出基于工作流的智能体虽然性能更优,但成本较高;而基于微调的智能体在系统级框架的辅助下,潜力巨大。

这项工作不仅为移动端智能体在复杂任务下的发展提供了有力的测试和开发工具,也为构建能够高效协调、处理复合任务的新一代AI操作系统奠定了基础,展望了人机协作的广阔未来。

怜星夜思:

1、手机AGI助手要是真能处理文里说的那些“复合长程任务”,比方说“比较价格并在便宜的平台下单”,或者“查看今日热点新闻,概括并记录”,你觉得我们平时用手机的习惯会有啥特别大的变化吗?会不会出现什么意想不到的新玩法或者新问题?
2、文章提到现有智能体在处理复杂任务时容易出现“信息传递失败”或者“注意力涣散”的问题。如果未来的AI助手真的能处理很多个人信息,甚至跨应用操作,那在数据隐私和安全方面,你觉得大家最担心的是什么?AI公司应该怎么做才能打消这些顾虑呢?
3、论文里说,用GPT-4o这类闭源大模型做调度系统,虽然效果好,但是成本和延迟都很高。你觉得对于手机AGI助手这种面向大众的产品,性能和成本之间哪个更重要?在什么场景下,用户会愿意为更高的性能支付更高的成本呢?

原文内容


本文第一作者郭源是上海交通大学计算机系三年级本科生,研究方向为自主智能体和智能体安全。该工作由上海交通大学与澜舟科技共同完成。



  • 论文标题:Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System

  • 项目主页:https://ui-nexus.github.io/

  • 论文链接:https://arxiv.org/abs/2506.08972



从原子任务自动化

到系统级端侧智能


多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。


但是,真实世界的用户需求常常包含复合长程任务,例如 “比较价格并在便宜的平台下单” 任务,需要在多个应用程序中操作,收集和比较异源信息,并据此确定后续的操作步骤;“查看今日热点新闻,概括并记录” 的任务,需要在多个网页之间导航,将设备操作与文本概括的通用推理能力交错融合,并完成适时的信息传递。从简单有序任务到复杂有序和复杂无序任务的过渡是从单智能体基座增强到 AI 操作系统的必经之路。当前主流的环境感知、动作落实和短序列轨迹微调等训练方式显著地提高了前述原子任务上的表现,但是复合长程任务带来了长链条进度管理、信息收集和传递、操作与通用思考的结合等全新的挑战。


研究人员针对主流的移动端 GUI 智能体展开系统的研究。实验显示,现有的移动端 GUI 智能体在面对复合长程任务时都具有明显的能力缺陷,展现出显著的原子任务到复合任务的泛化困难。


针对这一缺口,研究人员提出:


1. 态评测基UI-Nexus:构建可控的动态测评平台,覆盖复合型、传递型、深度分析型等复杂长程任务,涵盖 50 类中英文应用(包括本地功能应用和第三方在线应用),共设计 100 个任务模板,平均最优完成步数为 14.05 步。

2. 多智能体任务调度系统 AGENT-NEXUS:提出轻量化调度框架,支持指令分发、信息传递与进程管理。该系统无需修改底层智能体模型,便于高效接入与多体协同。


该工作为复合长程任务下的移动端智能体提供了有挑战性的测试基准和开发平台,也为展望未来复杂、精细的 AI 原生操作系统建立了雏形。


移动端智能体

在复合长程任务中的能力瓶颈


随着基座模型的持续增强和环境感知、单屏动作落实、静态轨迹微调、强化学习等训练策略的优化,基于多模态大模型的设备操控 GUI 智能体在单屏动作落实(grounding)和短链操作任务上的测试表现持续提升,已经能够端到端地自动化执行网络搜索等原子任务。


但是,真实场景中的用户指令常常包含长程场景与复合依赖需求。本文依据子任务的依赖关系分类,给出了常见的三种任务复合类型:


  • 独立组合型(Simple Concatenation):若干无依赖关系的原子子任务的拼接。如图中的睡前设定指令 “Instagram 开启消息免打扰 8 小时,并设定明早 7:00 的闹钟”

  • 语境传递型(Context Transition):后续子任务需要继承并利用前序任务产生的中间结果或界面状态,需要把信息 / 上下文正确地带到下一个 App 或页面。如图中先上网搜索天气预报,并根据搜索结果发送微信消息的任务。

  • 深度分析型(Deep Dive):是语境传递型任务的一种特殊情况。在设备操控中不仅需要进行动作导向的推理以及信息的简单记忆,还需要融入通用推理能力对中间信息进行深度的处理和分析。如图中的今日 Hacker News 摘要任务,不仅需要在浏览器、Google Doc 中进行点击、滑动等导航操作,还需要利用通用推理能力对当前页面的新闻内容做摘要分析。


依据子任务依赖结构的复合任务分类


研究人员在常用手机应用上构造代表性的测试任务,针对主流的 OS-Atlas, UI-TARS, Mobile-Agent 系列,M3A 等移动端 GUI 智能体进行初步实验,发现主流智能体在复合长程任务上明显表现欠佳。


对错误案例的细致分析显示,主流移动端智能体由于缺乏有效的进度管理和信息管理机制等,展现出典型的失败类型,如:


  • 注意力涣散:直接给定复合任务指令时,容易造成语境过载(Context Overflow),导致智能体遗漏部分指令或子任务;

  • 信息传递失败:智能体缺乏信息管理和传递的能力,导致在传递型任务中胡乱执行需要前序信息的任务;

  • 进度管理混乱:在未完成的子任务之间反复跳转。


UI-NEXUS:

针对移动端智能体复合任务的

全面测试基准


为了对移动端智能体在复合长程任务上的表现提供科学全面的测试基准与开发平台,研究人员提出了 UI-NEXUS:一个针对移动端智能体复合任务的交互式测试基准。


UI-NEXUS 测试基准概览


如概览图所示,UI-NEXUS 基准有如下的特点:


  • 数据覆盖:50 款 App(20 本地功能应用 + 30 中英在线服务应用),5 大应用场景;100 条指令模板,最优路径 14.05 步,难度显著高于同类基准。 

  • 三类依赖结构:依据子任务的依赖关系,系统研究三种复合任务类型 —— 独立组合型(Simple Concatenation)、语境传递型(Context Transition)、深度分析型(Deep Dive)。 

  • ANCHOR 子集:为了提供可控、可扩展的测试开发环境,研究人员基于 AndroidWorld 的 20 个本地功能 App 构建了本地离线任务子集 UI-NEXUS-Anchor。该测试集中的任务环境可以通过数据库、文件系统、adb 工具精准设定,支持任务指令可扩展性和测试环境可控性。

  • 细粒度指:记录端到端任务成功率、终止原因、Token 成本与推理时延,对智能体的表现进行细粒度分析。 


研究人员选取了 5 种代表性的移动端智能体基线进行测试,这 5 种智能体都基于 GUI 操作进行移动端操作任务的自动化,具体实现模式包括:


1. 单模型微调(Agent-as-a-Model):OS-Atlas-7B-Pro 和 UI-TARS-7B-SFT 都是基于 Qwen2-VL-7B 进行大量 GUI 领域训练得到的智能体基座,可以通过单模型推理逐步执行手机操作任务。


2. 工作流搭建(Agentic Workflow):通常利用 GPT-4o 等闭源模型辅以模块化设计来构建智能体工作流。如 M3A 是 AndroidWorld 中提出的手机智能体,每步推理时利用 a11y tree 提取出元素列表作为辅助输入,并使用 React 和 Reflexion 来进行动作推理和结果反思。Mobile-Agent-V2 和 Mobile-Agent-E 采取多智能体协作的模式,并辅以 OCR 和元素标记等模块,进行手机任务自动化。


除了上述基线以外,本文还提出了 Agent-NEXUS:针对复合设备操作任务的调度系统。Agent-NEXUS 将高阶调度与低阶执行解耦,通过 Scheduling Module, Execution Module 和 Process Memory 的协同工作完成复合长程任务的调度。


在每个子任务完成后,调度模块根据历史进程信息和当前环境感知更新高阶任务规划,并将后续的第一个子目标传给执行模块的 Navigator/Analyst/Tool 进行具体落实。这样的层次化调度模式让低阶执行模块每次都收到意图明确的原子任务,减轻了语境过载的风险。


Agent-NEXU 架构示意图


Agent-NEXUS 支持智能体的可插拔接入。在本实验中,研究人员尝试了用 UI-TARS-7B-SFT 和 M3A 作为低阶执行模块的智能体。


实验分析:

从原子到复合任务的泛化之路


研究人员在本地功能应用(UI-NEXUS-Anchor)、中文在线服务应用、英文在线服务应用三个测试子集,共 100 个指令模板上进行了测试,主要结论有:


  • UI-NEXUS 测试基准对各个移动端 GUI 智能体 baseline 都造成很大挑战,各智能体的任务完成率均低于 50%;

  • 基于 Agentic Workflow 实现的智能体在复合长程任务上的鲁棒性显著优于基于 Agent-as-a-Model 的方法,但是基于 GPT-4o 的工作流带来很高的推理成本和时延,限制了实际场景的应用潜力;

  • AGENT-NEXUS 显著提升任务完成率(+24% ~ +40%),同时仅带来约 8% 的推理开销增长。


主要实验结果


为了深入分析原子到复合泛化的表现,研究人员选取部分独立组合型和语境传递型任务进行了进一步的分析实验。研究人员对比了三种任务成功率


1. 直接将复合指令给定智能体,测试智能体的任务完成率,作为原子 - 复合泛化中的 Weak Performance。


2. 人为将复合指令拆分成多个原子指令(如将 "In the Tasks app, create and save a new task named 'Exercise' repeating every day. Then open the Broccoli recipe app and delete the 'French Fries' recipe." 拆分成 "In the Tasks app, create and save a new task named 'Exercise' repeating every day." 和 "Open the Broccoli recipe app and delete the 'French Fries' recipe." 两个原子指令,分别交付智能体执行,均成功则视为该任务成功,测定任务完成率,作为原子 - 复合泛化中的理论上的 Strong Ceiling。


3. 将 UI-TARS-7B-SFT 和 M3A 接入 Agent-NEXUS 调度系统后的任务完成率。


结果如下图所示:



所有移动端智能体 baseline 在给定手动拆分后的原子指令时表现都显著更优,其中 UI-TARS 的差异尤其显著,从 11% 直接提升到了 60%。这是由于其在微调后已经训练了充分的 GUI 操作能力,而直接给定复合指令时的极低完成率主要受制于进度管理和信息管理功能的缺失。


Agent-NEXUS 调度框架有效地弥补了原子到复合任务的泛化损失,在成本提升可控的同时让任务完成率大幅提升,逼近了 strong ceiling 的表现。


此外,针对不同智能体构建方案的进一步讨论和分析显示:


1. 在线服务类 App 因信息动态性强、UI 结构复杂及环境干扰频繁,构成了更大的挑战;


2. 基于 GPT-4o 搭建的 Agentic Workflow 由于具有多智能体协作,复杂推理等机制,在复合任务上的表现显著更优。但是,GPT-4o 在 GUI 操作任务上的原生领域能力比较有限,需要借助元素列表、屏幕解析工具等辅助,加之本身调用成本较高,限制了实际应用的可行性。


相比之下,基于开源规模领域微调的 Agent-as-a-Model 在短链操作内部逻辑、动作落实、推理速度等方面有显著优势,但由于训练方式的限制,当面对选择等复合逻辑、动作和通用推理交错等任务需求时完全无法应对,容易出现盲目执行的现象,需要借助系统级的设计来增强。


3. Memory 机制的设计在处理复合长程任务中至关重要。当前移动端智能体的 Memory 机制主要包含无记忆(如 OS-Atlas-Pro,只根据动作历史和当前屏幕预测下一步动作,没有储存历史信息的机制)、部分记忆(如 UI-TARS,每次输入前 N 张屏幕观察,一定程度上可以利用前 N 张屏幕中的有利信息,但是在多源、跨越较大的信息传递和整合中收到较大限制)、主动记忆(如 Mobile-Agent-V2 和 Mobile-Agent-E 每一步都会主动判断当前是否有信息要存储到记忆模块)。


主动记忆在复杂信息依赖的复合长程任务中带来更优的表现,但是每一步都判断是否记忆带来较大的计算冗余。Agent-NEXUS 通过将界面导航。信息收集、信息处理都显式在高阶调度中分配好次序,在开销可控的同时实现了多源信息的管理和整合。


未来展望:

面向新一代 AI 操作系统


本文不仅全面、深入地探讨了当下移动端智能体研究中迫切需要深入发掘的一个方面:复合长程任务,也畅想了新一代 AI 操作系统的雏形。


在未来,我们不仅需要能依据一个指令为人类自动化完成简单操作的智能体模型,更希望构建能够高效协调、处理、调度复合任务需求的系统级端侧智能。我们相信,当这样的评测基准与调度框架被广泛采用并不断演进,移动设备将真正蜕变为具备类操作系统层次智能的个人助手,为人机协作打开新的想象空间。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

要是AI助手能跨应用处理个人信息,我最担心的就是它的“信息边界感”。比如说,它帮我订了外卖、看了新闻、还帮我写了日程,这些信息要是被整合起来,是不是很容易勾勒出我的完整画像?如果这些数据被滥用或泄露,那可太危险了。AI公司应该从技术上加强数据加密和访问权限管理,操作透明化,让用户清楚AI究竟读取了哪些信息,并且能随时撤销授权。同时,法律法规也得跟上,不能光靠公司自觉。

思考“性能和成本哪个更重要”这个问题,这是一个典型的“摩尔定律”与“用户体验”的权衡问题。初期,高性能、高成本的方案可以作为技术验证和高端市场切入点,吸引那些对效率有极高要求的专业人士或企业用户。随着技术成熟和规模效应,成本会逐步下降,性能门槛也会随之降低,最终才能实现大众普及。就像ChatGPT刚出来时大家惊叹,现在很多日常任务都会考虑用免费或低成本的开源模型。对于AGI助手,我认为未来的趋势是结合:核心调度和通用推理能力可能依然依赖高性能模型,但高频、低成本的原子操作会下放到端侧轻量级模型,实现“云边协同”,从而优化整体成本结构。

肯定会啊!我现在手机上很多重复性操作,比如对比商品、整理信息啥的,都是手动来。如果AGI能一键搞定,那省下的时间可老多了,我能更专注在创造性工作上。手机不再是工具集合,更像是一个超高效的私人秘书,甚至能帮我决策一些日常小事。不过,也可能让人变得更懒,甚至更依赖AI,一旦AI出错了,就不知道怎么手动解决了。

关于“数据隐私和安全”的顾虑,这确实是一个核心问题,涉及到“AI的信任度”和“权力下放”的考量。当AI拥有执行敏感操作和处理复杂信息的能力时,其决策的“可解释性”变得至关重要。我们担心的是,在“信息传递失败”或“注意力涣散”的情况下,不仅是任务中断,更可能是误操作,例如错误发送包含敏感信息的邮件,或在不合适的平台下单。解决方案需要多管齐下:一是强化模型在复杂语境下的鲁棒性和泛化能力;二是引入“人类在环”的验证机制,关键决策需用户确认;三是建立健全的审计日志系统,确保问题可追溯;最后,通过差分隐私等技术,最小化原始数据的暴露。

针对“手机AGI助手处理复合长程任务”这个话题,从宏观来看,我们与数字世界的交互模式会发生根本性转变。现在是“人适应应用”,未来可能是“应用适应人”,AI会根据你的习惯和需求主动提供服务。这就像从命令符界面到图形界面、再到语音控制的跃迁,AGI会进一步模糊应用边界。但同时,我们的“数字茧房”效应可能会更明显,AI可能只会推荐我们偏好的内容,导致信息获取的单一化。此外,对用户行为数据的深度挖掘和隐私保护的平衡也将是重大挑战。

变化?那可老大了!估计以后我连手机解锁都不用了,直接跟AI说“帮我把今天快递全部签收,再把那篇研究论文简化成梗图发给我老板”。最大的问题嘛,就是我妈可能会问我:“儿子,你那个手机里的‘小聪明’怎么老是帮我抢特价菜,结果抢的都是我不爱吃的?”到时候,人机关系可能比婆媳关系还复杂,哈哈。

哈哈哈,最担心的当然是它把我的沙雕购物记录和公司重要邮件给搞混了啊!或者在我半夜睡蒙了的时候,直接把我跟朋友的吐槽发到家族群里……想想都头皮发麻。AI公司嘛,最好是别搞什么“猜你喜欢”的默认隐私设置,直接来个“一键隐私保护,再也不怕AI乱跑”的按钮,最好还能有“后悔药”功能,一键撤销AI操作。万一真出事了,至少能找地儿哭去。

对于大众用户来说,成本肯定是最重要的考量之一。如果AGI助手每个操作都要收好几分钱,那光日常用用就够我肉疼的了,还不如自己动手。我觉得只在“高价值”或者“省时省力效果特别显著”的场景下,大家才愿意为性能多花钱。比如,帮你自动化处理报销流程,或者帮你监控股市动态并及时下单,这种能直接产生经济效益或极大提升效率的。日常的设闹钟、查天气,性能差点也没关系,但免费或极低成本才是王道。

性能和成本?那当然是性能优先!只要能让我在家躺着不动,手机就能自动帮我把家里搞得一尘不染,还能帮我挣钱,那我管它一秒钟花多少钱啊?倾家荡产我都乐意!哈哈。开玩笑的啦。我觉得对于普通人,性价比才是王道。如果一个AGI助手能一键帮我抢到演唱会门票,或者抢到超市打折的五花肉,那花个几块钱我肯定愿意。但如果只是帮我打开个APP、回个微信,却要花钱,那还是算了,我自己手不酸。毕竟,我的钱包也需要AGI助手来帮我管理呢!