Windows竞技场:一个用于评估下一代AI Agent的测试基准

原文标题:Windows 竞技场:面向下一代AI Agent的测试集

原文作者:机器之心

冷月清谈:

- **AI Computer Agent概念:**能够感知环境、推理并采取行动的系统,可以理解屏幕内容并自主进行交互,支持多模态输入并使用大语言和视觉模型。 - **Windows Agent Arena (WAA)测试集:**包含154个基于Windows常见的应用程序的任务,供研究人员开发、测试和比较不同AI Computer Agent。 - **WAA特点:**扩展了现有Benchmark,专注于Windows平台任务;支持云上并行测试,缩短测试时间。 - **当前Agent能力:**基于不同模型的Agent的能力差异很大,最好的Agent解决了19.5%的任务,而人类得分74.5%。 - **潜在风险和挑战:**隐私、安全和符合伦理规范的AI使用。

怜星夜思:

1、未来AI模型的发展方向是什么?
2、WAA测试集中,不同任务板块之间的差异是什么?
3、如何确保AI Agent在实际使用中符合伦理规范和负责任?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


Copilot 和 ChatGPT 这样的 AI 助手已经成为了百万用户的日常工具, 它们可以帮我们完成各种任务:写代码开发程序、 回答问题、 甚至研究创新食谱。那么,随着大语言模型的发展,未来的 AI 助手应该是什么样的呢?未来的 AI 模型的能力将不仅局限于逻辑推理,它还应该具备自主计划和行动的能力。未来的 AI 助手 – AI Agent(Assistant)可以在 PC 上进行自主操作,进一步提高我们的生产力;它还能帮我们降低使用专业软件的门槛;最重要的是,它可以替我们完成复杂繁琐的任务,例如假期规划、文档编辑、填写报销申请等等。


在微软,我们正在为下一代 AI Computer Agent 的研发奠定基础。在此之前,我们必须找到一个可重复、稳定、高质量的测试集(Benchmark)。为此,我们开发并开源了 Windows 竞技场:Windows Agent Arena (WAA) —— 一个基于 windows 操作系统的 Agent 测试集。WAA 可以让研究人员更方便地开发、测试和比较不同 Agent 和模型的优劣。WAA 包含一系列基于 windows 常见的应用程序的任务,并以此来评估不同 AI Computer Agent 在现实操作系统上执行不同任务时的表现。



  • 论文标题:Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

  • 论文地址:https://arxiv.org/abs/2409.08264

  • 项目地址:https://github.com/microsoft/WindowsAgentArena



什么是 AI Computer Agent?


AI Computer Agent 可以被译为 AI 计算机助理。我们通常认为 Agent 是能感知其环境、并对其进行推理,甚至采取行动的系统。而 Computer Agent 则意味着能理解当前的屏幕上的内容,然后自主点击、输入和操作可以帮助用户完成任务的应用程序。一个 AI Computer Agent 需要能支持多模态输入,并且能使用大语言模型和视觉模型来理解屏幕上的内容并与其进行互动。


Windows Agent Arena 测试集 (WAA)


图 1 Windows Agent Arena 概览


目前许多公司和科研人员都在探索能够代替人类完成任务的 AI Agent。例如,微软最近发布的 UFO 模型是一个能够控制 Windows UI 的代理。另外,目前业界也已经存在一些针对 Agent 的 Benchmark,比如基于网络任务  Visual Web Arena、移动设备 Android World 和计算机 OS World 的 Benchmark。


图 2 WAA 任务分类


我们提出的 WAA 将进一步扩展 OS World 提出的 Benchmark。由于 OS World 主要包含 Linux 系统的任务,而缺乏 windows 平台上的任务,我们针对 Windows 平台上的任务进行了扩展。我们一共设置了 154 个用户在 Windows 上日常会涉及到的任务,包括浏览器、文档管理器、视频播放、编写代码和常用的应用程序(记事本、画图、文件浏览器、时钟和设置)等。


图 3 在 azure 云上部署 WAA


WAA 的另一个特点是支持云上并行测试。这样,测试数百个任务无需花费大量时间在本地串行,而是可以使用 Azure 云来并行部署数百个实验,从而将测试时间从几天缩短至几分钟。


使用 Windows Agent Arena 非常简单:你只需 clone 我们的代码,在本地简单测试,然后直接部署到云上。


目前的 Agent 能做什么?


图 4 基于不同模型的 Agent 在 WAA 上表现


我们的技术报告对比了基于不同大模型的 Computer Agent 的能力。除了大模型之外,我们使用了小型的视觉模型,例如微软开发的 Omniparser 模型, OCR 等等来解析屏幕截图、 识别图标和图像区域。然后,我们将预处理的信息发送到 GPT-4V(或者 GPT-4O, Phi-3V),从而得到下一步在计算机上需要执行的命令。在我们测试的模型中,最好的 Agent 解决了 19.5% 的任务(任务部分完成没有得分);而一个人在没有外部帮助的情况下得分为 74.5%。我们发现各个任务类别之间的差异很大:大约三分之一的浏览器、设置和视频任务能被成功完成,而大部分 Office 任务都以失败告终。现阶段,Agents 仍然会有很多缺陷,例如我们也发现了由于在执行低级动作或推理时出错导致的情况。


成功案例


失败案例


当我们设计和改进在计算机上执行复杂任务的 AI Agent 时,符合伦理规范和负责任的 AI 使用至关重要。从一开始,我们的团队就意识到这些技术可能带来的潜在风险和挑战。


隐私和安全是最重要的关注点。当研究开发和测试这些模型时,我们必须确保 AI Agent 不参与任何形式的未经授权的访问或个人信息的信息泄露,从而最大限度地减少潜在的安全风险。我们相信,用户应该能够轻松地理解、指导和在必要时覆盖 AI 的行动。


当我们继续在这个充满机会与挑战的领域开发和探索,我们会始终致力于构建尊重用户隐私、促进公平并对社会产生积极影响的 AI 技术。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

研究人员可以根据这些差异,分析AI Agent在不同任务板块上的优势和不足,有针对性地改进模型架构、训练数据和算法,从而提升Agent的整体能力,使其能够应对更广泛的任务类型。

确保AI Agent符合伦理规范和负责任地使用,需要从设计、开发和部署等多个层面采取措施。首先,在设计阶段,就应将伦理考量融入AI Agent的架构和功能中,比如引入透明度和可解释性机制,让用户理解Agent的决策依据。

在部署阶段,应为用户提供清晰易懂的使用指南和控制选项,让用户能够根据自己的意愿和偏好调整Agent的行为。同时,应建立健全的法规和监管框架,对AI Agent的开发和使用进行规范和监督。通过这些措施,我们可以避免AI Agent被滥用或造成负面影响,确保其始终以负责任和符合伦理的方式为人类服务。

未来的AI模型不仅要具备逻辑推理能力,还应该具备自主计划和行动的能力,能够提高生产力,降低专业软件的使用门槛,完成复杂繁琐的任务。

在开发阶段,需要建立严格的测试和评估流程,验证Agent的行为是否符合道德准则,是否尊重用户隐私和安全。同时,应持续监控Agent在实际使用中的表现,及时发现和解决潜在的风险。

AI模型朝着多模态发展,整合大语言模型和视觉模型,增强对屏幕内容的理解和交互能力。

不同任务板块之间的差异很大,浏览器、设置和视频任务的完成率大约为三分之一,而大部分Office任务都以失败告终。这反映了当前AI Agent在处理不同类型任务时的能力差异,也为研究人员提供了针对性提升Agent能力的线索。

造成差异的原因可能有多方面,如任务的复杂度、所需的能力和模型的训练数据分布。例如,浏览器和视频任务可能涉及较多的信息提取和界面交互,而Office任务则需要更深层次的语义理解和推理能力。

AI模型将继续探索在计算机上执行复杂任务的潜力,突破现有的局限性,提高任务完成率。比如微调模型,引入更多的数据和先进的算法,提升Agent的决策能力和鲁棒性。同时持续关注伦理和负责任的AI使用,建立健全的规范和准则,确保AI模型安全可靠,造福人类。当然,未来AI模型的发展还存在无限可能,值得持续期待和探索。