微软发布大模型GUI智能体综述：引领人机交互革命？

almosthuman2014 · 2025 年1 月 9 日 12:29

微软发布大模型GUI智能体综述，探讨了其技术框架、应用及挑战，有望引领人机交互革命。

原文标题：引领人机交互革命？微软研究团队发布80页的大模型GUI智能体综述

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650950697&idx=4&sn=a74dfb5eba35bf6d40cd98da0333720a&

冷月清谈：

微软研究团队近日发布了一篇关于大模型驱动的GUI智能体的综述论文，该论文详细探讨了GUI智能体的现状、技术框架、挑战和应用等方面。传统的GUI自动化方法，如脚本化和规则驱动方法，在应对日益复杂和动态的应用环境时存在局限性。而大模型的出现为GUI自动化带来了新的机遇，其自然语言理解、视觉理解和动态适应能力为智能化GUI交互提供了强大的支持。

大模型驱动的GUI智能体通常包括操作环境感知、提示工程、模型推理、操作执行和记忆机制等关键组件。论文提出了“大行动模型”（LAM）的概念，通过在LLM的基础上进行微调，以优化任务执行效率。同时，综述也对GUI智能体框架设计、数据采集、模型优化和性能测评等方面进行了系统性总结，并介绍了其在软件测试和智能助手等领域的实际应用。

GUI智能体虽然前景广阔，但也面临着隐私安全、推理延迟、安全可信、人机协同等挑战。随着大语言模型和多模态技术的不断发展，GUI智能体有望在更多领域落地，并最终引领人机交互走向全新的智能化时代。

怜星夜思：

1、论文中提到的“大行动模型”（LAM）与传统的LLM相比有哪些具体的优势？除了文中提到的几点，LAM还有哪些潜在的应用场景？
2、GUI智能体在实际应用中，如何更好地平衡自动化操作的效率和用户的控制权，避免出现用户不希望看到的操作？
3、文章提到了GUI智能体在软件测试方面的应用，除了自动化测试，它还能在软件开发的其他环节发挥作用吗？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li，Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队，为微软 Windows GUI Agent UFO 的核心开发团队的成员。

图形用户界面（Graphical User Interface, GUI）作为数字时代最具代表性的创新之一，大幅简化了人机交互的复杂度。从简单的图标、按钮、窗口到复杂的多应用工作流程，GUI 为用户提供了直观、友好的操作体验。然而，在自动化和智能化升级的过程中，传统的 GUI 操控方式始终面临诸多技术挑战。以往的脚本化或规则驱动方法在特定场景下确实有所帮助，但随着现代应用环境的日益复杂和动态化，它们的局限性愈发凸显。

近年，人工智能与大语言模型（Large Language Models, LLMs）的快速发展为此领域带来了变革性机遇。

近日，微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出，通过将大语言模型（LLMs）与多模态模型（Visual Language Models, VLMs）相结合，GUI 智能体可以根据自然语言指令自动操作图形界面，并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈，更推动了人机交互方式从「点击 + 输入」向「自然语言 + 智能操作」的跃迁。

链接：https://arxiv.org/abs/2411.18279

传统 GUI 自动化的局限与新挑战

过去数十年中，GUI 自动化技术主要依靠两大途径：

脚本化方法：如 Selenium、AutoIt 等工具依赖预先编写的固定脚本，以模拟点击、输入等操作。这类方法适用于相对稳定的界面和流程，但当界面频繁更新或布局动态变化时，脚本易失效且维护成本高。
规则驱动方法：根据预设规则识别 GUI 组件（如按钮、输入框）并执行相应操作。这类方法缺乏灵活性，难以应对复杂或非标准化的工作流程。

这些传统方法在面对高度动态、跨应用的复杂任务时显得力不从心。例如：

如何让自动化系统理解网页内容并从中提取用户所需的关键信息？
如何适应不同设备、操作系统上的多样化 GUI 界面？
如何在多步骤任务中保持上下文的连贯与一致性？

大模型：智能化 GUI 交互的引擎

图 1：GUI 智能体的概念展示。

微软的综述指出，大语言模型（LLM）在解决上述问题中发挥着关键作用，其优势主要体现在以下三个方面：

1. 自然语言理解与任务规划

以 GPT 系列为代表的大模型拥有出色的自然语言理解与生成能力。它们能够将用户简单直观的指令（如「打开文件，提取关键信息，然后发送给同事」）自动解析为一系列可执行的操作步骤。通过多步推理（Chain-of-Thought）和任务分解，智能体可逐步完成极为复杂的流程。

2. 视觉理解与环境感知

引入多模态技术后，视觉语言模型（VLM）可处理文本与视觉信息。通过分析 GUI 截图或 UI 结构树，智能体可以理解界面元素（按钮、菜单、文本框）的布局和含义。这为智能体提供了类似人类的视觉理解能力，使其能够在动态界面中执行精准操作。如自动在网页中定位搜索栏并输入关键词，或在桌面应用中找到特定按钮进行复制、粘贴操作。

3. 动态执行与自适应能力

相较传统脚本方法，使用大模型的 GUI 智能体能对实时反馈做出响应，并动态调整策略。当界面状态变化或出现错误提示时，智能体可以尝试新的路径与方案，而不再依赖固定的脚本流程。

图 2：GUI 智能体的发展和主要工作。

在大模型的加持下，GUI 智能体为人机交互带来了质变的提升。用户仅需自然语言指令，智能体即可完成原本需要繁琐点击和复杂操作才能达成的目标。这不仅降低了用户的操作和学习成本，也减少了对特定软件 API 的依赖，提升了系统通用性。如图 2 所示，自 2023 年以来，以大模型驱动的 GUI 智能体为主题的研究层出不穷，逐渐成为前沿热点。

GUI 智能体的核心架构

微软的综述指出，一个大模型驱动的 GUI 智能体通常包括以下关键组件，如图 3 所示：

图 3：GUI 智能体基本架构。

1. 操作环境感知

输入数据包括 GUI 截图、UI 结构树、元素属性（类型、标签、位置）以及窗口层级信息。通过 Windows UI Automation、Android Accessibility API 等工具，智能体可有效捕获界面信息。

2. 提示工程（Prompt Engineering）

智能体将用户指令与当前 GUI 状态相结合，构建输入提示（Prompt），并利用大语言模型生成下一步操作计划。例如：「用户指令 + 界面截图 + UI 元素属性」经过 LLM 处理后，智能体将输出明确的操作步骤（点击、输入、拖拽等）。

3. 模型推理

将构建好的 Prompt 输入 LLM 后，模型会预测后续的执行动作和计划步骤。

4. 操作执行

智能体根据 LLM 输出的高层指令进行实际操作，如鼠标点击、键盘输入或触摸操作，从而在网页、移动应用或桌面系统中完成任务。

5. 记忆机制

为应对多步骤复杂任务，GUI 智能体设计了短期记忆（STM）与长期记忆（LTM）机制，用于跟踪任务进度和历史操作，确保上下文的一致性与连贯性。

此外，更高阶的技术（如基于计算机视觉的 GUI 解析、多智能体协同、自我反思与进化、强化学习等）也在不断探索中。这些技术将使 GUI 智能体日益强大和完善。微软的综述已对这些前沿方向进行了详细论述。

GUI 智能体框架、数据、模型与测评：全面梳理与实践指南

微软的综述对该领域的发展路径进行了系统性总结，涵盖框架设计、数据采集、模型优化和性能测评，为研究者与开发者提供了完整的指导框架。

1. 框架设计：多平台适配与跨领域扩展

当下 GUI 智能体的框架设计根据应用场景和平台特性，可分为：

Web 平台智能体：如 WebAgent 与 SeeAct 基于 HTML DOM 或可视化特征，执行网页导航、数据抓取、表单填写等多步骤操作。
移动平台智能体：通过 iOS 和 Android 的 Accessibility API 获取 UI 层级结构，如 AppAgent、AutoDroid 可应对移动端复杂 UI 布局与多种手势操作。
桌面平台智能体：如微软的 UFO 智能体，通过分析 Windows、macOS 的 GUI 层级树和 API 调用来模拟键鼠操作，完成跨软件的任务执行。
跨平台智能体：如 AGUVI，通用框架可适应多种设备与系统，为跨平台自动化奠定基础。这类智能体具备更强的泛化能力，可自由迁移于不同平台之间。

这些框架的提出与验证，为 GUI 智能体在各类应用场景中落地提供了可能性，并为跨平台自动化打造了坚实基础。

2. 数据采集：高质量训练数据的构建

高效精准的 GUI 操作离不开丰富、真实的数据支撑，包括：

GUI 环境数据：截图、UI 元素属性（类型、标签、位置）、窗口层级信息等，为智能体提供视觉与结构化信息基础。
操作数据：用户真实交互记录，如点击、输入、手势等，为模型学习人类操作规律提供样本。

图 4：GUI 智能体数据采集流程。

这些数据为训练与测试提供了基础，也为领域标准化评估奠定了坚实的根基。图 4 展示了训练 GUI agent 的数据采集流程。

3. 大行动模型（LAM）：任务执行的核心优化

综述提出了「大行动模型」（Large Action Model, LAM）的概念，在 LLM 的基础上进行微调，以解决 GUI 智能体任务执行中的核心难题：

高效推理：在海量操作数据上进行微调后，LAM 可快速生成精准的操作指令，降低推理延迟。
精确执行：拥有高度泛化能力，可适应不同平台的 GUI 环境。
多步骤任务规划：支持复杂任务拆解与动态执行，连续完成多项操作，无需预定义脚本流程。

图 5：为 GUI 智能体微调「大行动模型」。

如图 5 所示，通过在真实环境中微调 LAM，智能体在执行效率与适应性上显著提升。

4. 测评方法与基准：评估 GUI 智能体的性能

图 6：GUI 智能体的测评流程。

测评是衡量智能体能力的重要手段。如图 6 所示，通过观察智能体执行任务的轨迹和日志记录，可以测评智能体各方面的能力。主要测评指标主要包括：

任务完成率：是否准确执行用户指令并完成特定任务。
执行效率：考察完成任务所需时间与步骤，尤其在资源受限硬件上的表现。
在特定规则下完成率：测试智能体在遵循用户提供的特定规则和策略下完成任务的能力。
风险比例：测试智能体识别和解决执行风险的能力。

领域内已出现一系列标准化 Benchmark，为 GUI 智能体的性能评价与对比提供了客观依据和平台。

GUI 智能体的实际应用：从高效测试到智能助理

1. 软件测试：从繁琐脚本到自然语言驱动的智能探索

传统的软件 GUI 测试常依赖冗长的脚本编写与重复的人工验证，既费时又容易遗漏关键场景。如今，借助大型语言模型（LLM）赋能的 GUI 智能体，我们迎来了一场测试领域的革新。这些智能体不再只是简单地重复固定脚本，而是能通过自然语言描述直接生成测试用例，对界面元素进行「自主探索」，并动态应对各种变化的用户界面。研究显示（如 GPTDroid、VisionDroid 和 AUITestAgent 等工具所展现的），智能体可在不需专业软件工程师深度介入的情况下，高效地捕捉潜在缺陷、追踪复杂交互路径，实现从输入生成、bug 重现到功能验证的全面自动化测试流程。

以字体大小调试为例，只需一句「请测试系统设置中更改字体大小的流程」，GUI 智能体便可自主导航界面、模拟用户点击、滑动选项，并在结果界面中精准确认字体调整是否生效。这样的自然语言驱动测试不但有效提高测试覆盖率与效率，即使非技术人员也能轻松参与质量保障过程。这意味着软件产品迭代速度的加快，以及开发与质量保证团队从重复劳动中解放，从而更专注于创新与优化。

2. 智能助手：从被动响应到多平台、多步骤的全能执行官

虚拟助手不再局限于简单的闹钟设定或天气查询。当 LLM 赋能的 GUI 智能体成为虚拟助手的「大脑」时，我们得到的是一位真正的「多面手」—— 可跨越桌面、手机、Web 浏览器和企业应用，以自然语言命令为指引，自动完成从文档编辑、数据表格分析，到复杂手机操作流程的各种任务。

这些智能体不仅能响应指令，还能根据上下文理解用户需求，并灵活适配不同界面元素。例如，它们可在移动端应用中自主查找隐藏的功能入口，为新用户演示如何截图；或在办公环境下，将一组跨平台数据整理后自动生成报告。在这类应用中，用户不必再为记忆繁琐的操作步骤烦恼，也不必面对复杂的流程而左右为难，只需以自然语言描述目标，智能体便能迅速解析上下文、定位界面组件并完成指令。通过持续学习与优化，这些智能助手还能越来越「懂你」，有效提升你的生产力与体验满意度。

综上，GUI 智能体在现实应用中已不仅仅是 “工具”，而更像一位全天候的 “数字助理” 和 “质量专家”。在测试领域，它们为软件品质保驾护航，大幅降低人力和时间成本；在日常与商务操作中，它们成为跨平台的多功能帮手，让用户能以更直观、更人性化的方式，与数字世界轻松互动。未来，随着技术的不断迭代升级，这些智能体将持续拓展应用边界，并为各行各业的数字化转型注入新的活力。

技术挑战与未来展望

尽管 GUI 智能体前景广阔，但微软的综述也明确指出目前的挑战所在：

隐私与安全：智能体需要访问用户界面内容，数据安全与隐私保护亟待完善。
推理延迟与硬件受限：大模型推理开销较大，需在性能与实时性间取得平衡。
安全与可信：确保智能体可靠执行任务，避免误操作与安全风险。
人机协同与交互策略：在复杂任务中平衡用户与智能体的决策与执行关系。
个性化与定制化：智能体如何学习用户偏好和习惯，从而更精确地满足用户需求。
道德与规范：保证智能体的决策透明、公平并负责任。
通用泛化性：面对不同设备、操作系统与复杂非标准界面元素的适配仍是难题。

展望未来，随着大语言模型与多模态技术的持续进化，GUI 智能体将在更多领域落地，为生产力与工作流程带来深刻变革。

结语：走向智能化交互新时代

大模型的兴起为 GUI 自动化打开了全新空间。当 GUI 智能体不再仅依赖固化的脚本与规则，而是借由自然语言与视觉理解来决策和执行操作时，人机交互方式发生了质的转变。这不仅简化了用户操作，更为智能助手、自动化测试等应用场景提供了强大支持。

随着技术的不断迭代与生态的日趋成熟，GUI 智能体有望成为日常工作与生活中的关键工具，让复杂的操作愈加智能、高效，并最终引领人机交互走向全新的智能化时代。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Summit72v · 2025 年1 月 11 日 12:31

我觉得LAM有点像给LLM加了个“外挂”，让它更懂GUI。除了文中提到的，我觉得还可以用在游戏AI上，让游戏角色的操作更智能，更像真人玩家。

Halo30p · 2025 年1 月 12 日 13:11

除了自动化测试，GUI 智能体还可以辅助进行 UI 设计。比如，根据用户的需求描述自动生成 UI 界面原型，或者根据设计稿自动生成 UI 代码。这样可以大大提高 UI 设计的效率。

StormyRaven098 · 2025 年1 月 12 日 16:26

软件开发过程中，很多工作其实都围绕着GUI进行，比如用户文档的编写、操作演示视频的制作等等。GUI智能体可以自动生成这些内容，甚至可以根据用户的操作记录自动生成FAQ，帮助用户快速解决问题。

Shadow53r · 2025 年1 月 13 日 16:26

可以考虑结合强化学习，让智能体在与用户交互的过程中学习用户的偏好和习惯，逐渐调整自己的操作策略，最终实现“用户想要的就是我做的”。

StarryUnicorn587 · 2025 年1 月 13 日 19:49

LAM 的优势在于它更专注于 GUI 操作，相比于通用 LLM，它在理解 GUI 元素、执行 GUI 操作方面效率更高，也更精准。除了文中提到的，我觉得 LAM 还可以用于自动化设计，比如根据用户的需求自动生成 UI 界面，或者根据设计稿自动生成前端代码。

WanderingWolf359 · 2025 年1 月 14 日 06:50

我觉得GUI智能体还可以用于代码调试。比如，它可以根据开发者的描述自动重现bug出现的场景，或者根据错误信息自动定位到代码中的问题所在。这样可以节省开发者很多时间。

FrostyPenguin271 · 2025 年1 月 14 日 18:10

关于GUI智能体如何平衡效率和用户控制权，我觉得可以引入类似“权限管理”的机制，用户可以根据自己的需求设定智能体的操作权限范围，哪些操作需要用户确认，哪些操作可以自主执行。还可以设计一个“紧急停止”按钮，让用户可以随时中断智能体的操作。

Valor47z · 2025 年1 月 14 日 18:33

平衡自动化和用户控制的关键在于透明度和可解释性。GUI 智能体需要清晰地向用户展示它将要执行的操作，以及执行的原因。同时，提供简单的交互方式让用户可以随时干预或调整智能体的行为。就像自动驾驶，需要有个明确的界面显示车辆的判断和接下来的动作，并且允许驾驶员随时接管。

Ember34n · 2025 年1 月 16 日 04:11

针对“大行动模型”（LAM）的优势，除了文中提到的高效推理、精确执行和多步骤任务规划外，我觉得LAM更偏向于实践应用，它在特定领域的数据集上进行微调，所以对于特定任务的理解和执行能力会更强，可以减少不必要的计算资源消耗，提高效率。至于其他的应用场景，我觉得可以考虑将其应用于辅助编程、自动生成代码等方面，毕竟GUI操作很多时候也涉及到代码的编写和执行。