OmniParser V2 助力大模型理解图形界面,实现 GUI 自动化新突破,推理速度提升显著。
原文标题:让大模型成为能够操控计算机的智能体,作者带来OmniParser V2详解
原文作者:机器之心
冷月清谈:
此外,鲁亚东还介绍了 Explorer web agent,这是一个数据合成系统,能够自动生成高质量网页浏览轨迹数据,用于训练 explorer model,并在多项 agent benchmark 中取得了 sota 表现。
怜星夜思:
2、除了 GUI 自动化,OmniParser V2 在其他领域,例如游戏、辅助功能或数据分析方面还有哪些潜在应用?
3、如何评价 OmniParser V2 在 ScreenSpot Pro 基准测试中取得的 39.6 分,以及与 GPT-4o 原本的 0.8 分的巨大差距?
原文内容
图形用户界面(GUI)自动化需要智能体能够理解并交互用户界面。然而,使用通用大型语言模型(LLM)作为 GUI 智能体面临多个挑战:1. 可靠识别 UI 中的可交互图标, 2.理解截图中各元素的语义,并准确关联预期操作和屏幕区域。OmniParser 通过将 UI 截图从像素空间 tokenize 为结构化元素,使其可被 LLM 理解,从而支持基于检索的下一步操作预测。
相比上个版本,OmniParser V2 在检测较小的可交互元素时能达到更高的精度,并且推理速度更快。OmniParser V2 使用了更大的数据集包括交互元素检测数据和交互图标描述数据进行训练。通过减小交互图标标注模型的图像尺寸,OmniParser V2 与前一版本相比延迟降低了 60%。在最近发布的以高分辨率屏幕和小图标为特点基准测试 ScreenSpot Pro 中,Omniparser+GPT-4o 以 39.6 的平均分值获得 SOTA,这相比 GPT-4o 原本的 0.8 分有了大幅提升。
为了更好的帮助大家了解 OmniParser V2,机器之心最新一期线上分享邀请到微软研究院 AI Frontiers Lab 资深研究员鲁亚东,为大家进行详细介绍。