OmniParser V2:让大模型更懂图形界面,GUI 自动化新突破

OmniParser V2 助力大模型理解图形界面,实现 GUI 自动化新突破,推理速度提升显著。

原文标题:让大模型成为能够操控计算机的智能体,作者带来OmniParser V2详解

原文作者:机器之心

冷月清谈:

微软研究院 AI Frontiers Lab 资深研究员鲁亚东介绍了 OmniParser V2,这是一个用于提升大模型在图形用户界面(GUI)自动化能力的工具。该工具将 UI 截图从像素转化为结构化元素,使大模型能够理解并交互用户界面。OmniParser V2 相比前一版本,在识别可交互元素的精度和推理速度上都有显著提升,推理延迟降低了 60%。在 ScreenSpot Pro 基准测试中,OmniParser+GPT-4o 取得了 39.6 的 SOTA 准确率。
此外,鲁亚东还介绍了 Explorer web agent,这是一个数据合成系统,能够自动生成高质量网页浏览轨迹数据,用于训练 explorer model,并在多项 agent benchmark 中取得了 sota 表现。

怜星夜思:

1、OmniParser V2 的出现对低代码/无代码平台的未来发展有哪些潜在影响?
2、除了 GUI 自动化,OmniParser V2 在其他领域,例如游戏、辅助功能或数据分析方面还有哪些潜在应用?
3、如何评价 OmniParser V2 在 ScreenSpot Pro 基准测试中取得的 39.6 分,以及与 GPT-4o 原本的 0.8 分的巨大差距?

原文内容

图片


图形用户界面(GUI)自动化需要智能体能够理解并交互用户界面。然而,使用通用大型语言模型(LLM)作为 GUI 智能体面临多个挑战:1. 可靠识别 UI 中的可交互图标, 2.理解截图中各元素的语义,并准确关联预期操作和屏幕区域。OmniParser 通过将 UI 截图从像素空间 tokenize 为结构化元素,使其可被 LLM 理解,从而支持基于检索的下一步操作预测。

相比上个版本,OmniParser V2 在检测较小的可交互元素时能达到更高的精度,并且推理速度更快。OmniParser V2 使用了更大的数据集包括交互元素检测数据和交互图标描述数据进行训练。通过减小交互图标标注模型的图像尺寸,OmniParser V2 与前一版本相比延迟降低了 60%。在最近发布的以高分辨率屏幕和小图标为特点基准测试 ScreenSpot Pro 中,Omniparser+GPT-4o 以 39.6 的平均分值获得 SOTA,这相比 GPT-4o 原本的 0.8 分有了大幅提升。

为了更好的帮助大家了解 OmniParser V2,机器之心最新一期线上分享邀请到微软研究院 AI Frontiers Lab 资深研究员鲁亚东,为大家进行详细介绍。

分享主题:OmniParser V2 和高质量 web agent trajectory 合成系统
嘉宾介绍:鲁亚东是微软研究院 AI Frontiers Lab 资深研究员, computer use agent project lead,专注于 multimodal LLM 在 UI 解析和 GUI 自动化方面的研究:https://www.microsoft.com/en-us/research/people/yadonglu/
分享摘要:
Project 1:OmniParser V2 通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析。相比前一版本,它的推理延迟降低 60%,在 ScreenSpot Pro 基准测试中,OmniParser+GPT-4o 取得了 39.6 的SOTA准确率。本次分享将介绍 OmniParser V2 的核心技术、性能提升以及应用场景。
Project 2:Explorer web agent,我们构建了一套数据合成系统,用在 5 万个热门网站上,自动生成了 100k 高质量网页浏览 trajectory,每条 trajectory 只需 28 美分,并在此基础上训练了explorer model (4B/7B), 在多项agent benchmark得到 sota 表现。
直播时间:北京时间3月4日10:00-11:00
直播预约:

本次直播设有 QA 环节,欢迎大家加群一起来聊。
机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。
点击阅读原文,查看往期回顾。

关于这个问题,我觉得一个可能的趋势是低代码平台可能会集成类似 OmniParser V2 的技术,让用户可以通过更直观的方式,例如语音或手绘草图,来设计和修改界面。这将大大降低学习成本,并提高开发效率。

就这个问题,39.6 分和 0.8 分的巨大差距突显了 OmniParser V2 的价值:它并非简单地将图像传递给 GPT-4o,而是将图像转化为 GPT-4o 更容易理解的结构化数据。这就像给一个不懂中文的人看中文书,和给他看翻译后的英文版一样,理解效率自然大不相同。

我认为 OmniParser V2 这类技术可能会催生一种全新的低代码/无代码平台形态,它不再依赖于预先定义的组件和模板,而是允许用户以更加自由和灵活的方式构建应用,甚至可以通过与 AI 交互的方式来优化和改进应用的设计。

对于“OmniParser V2 在其他领域还有哪些潜在应用”这个问题,我觉得在游戏领域,它可以用来开发更智能的游戏 AI,例如可以根据游戏画面实时调整策略的 NPC,或者能自动识别游戏场景并提供辅助信息的工具。辅助功能方面,可以帮助残障人士更方便地使用电脑和手机等设备。

我想到的是,在游戏方面,它可以用来辅助进行游戏测试,自动识别游戏中的 bug 和漏洞;辅助功能方面,可以帮助视障人士“看到”屏幕内容,或者帮助行动不便人士更轻松地控制电子设备。在数据分析领域,OmniParser V2 可以用来自动化提取网页信息,例如商品价格、用户评论等,这对于电商平台或金融机构来说都非常有价值。

关于这个问题,我觉得在数据分析方面,OmniParser V2 可以用于自动提取网页或应用程序中的数据,并进行可视化分析,这对于市场调研、竞争分析等场景都非常有用。它还可以用来创建自动化测试脚本,以提高软件测试的效率和覆盖率。

针对“OmniParser V2 的出现对低代码/无代码平台的未来发展有哪些潜在影响?”这个问题,我觉得影响会很大。低代码/无代码平台的核心目标就是简化开发流程,让非专业人士也能快速构建应用。OmniParser V2 通过让 AI 理解图形界面,可以进一步降低操作门槛,比如直接通过自然语言描述或简单的图形拖拽就能生成界面和逻辑,这将极大扩展低代码/无代码平台的适用范围和功能。

关于“如何评价 OmniParser V2 在 ScreenSpot Pro 基准测试中取得的 39.6 分”这个问题,这个分数的提升非常显著,说明 OmniParser V2 在理解和处理图形界面信息方面取得了重大突破。GPT-4o 原本的 0.8 分表明,即使是强大的大语言模型,在没有专门针对图形界面进行优化的前提下,其处理能力也非常有限。OmniParser V2 的出现弥补了这一缺陷,使大语言模型能够更好地应用于 GUI 自动化领域。

对于这个分数,我的理解是:GPT-4o 虽然强大,但它本质上还是处理文本的模型。OmniParser V2 的作用在于将图形界面信息转化为 GPT-4o 可以理解的语言,相当于充当了“翻译”的角色,这才让 GPT-4o 的能力得以发挥。这说明,在处理多模态信息时,找到合适的表示方法至关重要。