Alita：普林斯顿AI Lab的极简通用智能体，GAIA基准测试中超越OpenAI

almosthuman2014 · 2025 年6 月 4 日 17:22

普林斯顿Alita智能体，极简设计实现自主进化，GAIA测试超越OpenAI，为通用智能体发展提供新思路。

原文标题：开启 AI 自主进化时代，普林斯顿Alita颠覆传统通用智能体，GAIA榜单引来终章

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650972032&idx=1&sn=605721c42d99295c47f7323d2741b73a&

冷月清谈：

普林斯顿大学AI Lab推出的Alita通用智能体，通过最小化预定义和最大化自我进化的设计理念，颠覆了传统智能体对人工预定义工具库的依赖。Alita仅内置管理和网页智能体等核心组件，通过动态生成、修改和复用MCP工具，实现了智能体的自主进化。在GAIA基准测试中，Alita取得了领先的成绩，超越了OpenAI Deep Research等知名智能体。Alita的成功表明，简约架构能够激发智能体的创造性行为，为通用智能体的发展提供了新的方向，即通过简化设计和自主进化实现能力增强。

怜星夜思：

1、Alita强调“最小化预定义”和“最大化自我进化”，这种设计理念在实际应用中可能遇到哪些挑战？例如，智能体在生成工具时，如何避免创造出有害或低效的工具？
2、文章提到Alita生成的MCP工具可以被其他智能体复用，甚至能提升小模型智能体的性能。这种“智能体蒸馏”方式，相比传统的知识蒸馏，有哪些优势和局限？未来是否可能出现一个“智能体工具市场”，让不同的智能体共享和交易工具？
3、Alita在GAIA基准测试中表现出色，但GAIA榜单已被移除。你认为应该如何更全面地评估通用智能体的能力？除了准确率，还有哪些指标值得关注？

原文内容

智能体技术日益发展，但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流，这极大限制了其创造力、可扩展性与泛化能力。

近期，普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体，通过「最小化预定义」与「最大化自我进化」的设计范式，让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。

论文标题：ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION
论文链接： https://arxiv.org/abs/2505.20286
Twitter： https://x.com/JiahaoQiu99/status/1927376487285432790
GitHub： https://github.com/CharlesQ9/Alita

Alita 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩，一举超越 OpenAI Deep Research 和 Manus 等知名智能体，成为通用智能体新标杆。Alita 在 GAIA test 上也达到了 72.43% pass@1 的成绩。

极简架构设计，最大自我进化

「让智能体自主创造 MCP 工具而不靠人工预设」，是 Alita 的核心设计理念。

现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流，这种方法有三个关键缺陷：

覆盖范围有限：通用智能体面临的现实任务种类繁多，预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合 GAIA，不具有泛化性。

创造力与灵活性受限：任务的难度可能超出了预定义工具或工作流的能力范围。复杂任务通常需要智能体创新性地使用新工具，或以新的方式组合和利用现有工具，而预定义的工具库和工作流会制约这种创造性和灵活性。

适配失配：不同工具的接口或环境未必与智能体兼容。例如，许多有用的工具并非用 Python 编写，这使得它们难以（尽管并非不可能）提前预接到主要以 Python 编写的主流智能体框架中。

这些挑战共同限制了现有通用智能体的创造力、可扩展性和泛化能力。

与当前日益复杂的趋势相反，Alita 团队认为对于通用智能体而言，「simplicity is the ultimate sophistication」。遵循这一原则，Alita 实现了可扩展的动态能力、增强的创造力与灵活性，以及跨生态系统的兼容性。Alita 团队由此提出了两大设计范式：

最小化预定义：仅为智能体配备最核心的基础能力，避免为特定任务或模态设计人工预定义的组件。

最大化自进化：赋予智能体按需自主创建、优化和复用 MCP 工具的能力，实现自我进化。

具体而言，Alita 仅内置了管理智能体（Manager Agent）和网页智能体（Web Agent）作为其核心内部组件，以及少量支持自主能力扩展的通用模块，而不依赖繁杂的预定义工具库和固定工作流程。Alita 利用了 Model Context Protocols（MCP）这一开放协议，使智能体系统能根据任务需求动态生成、修改和复用 MCP 工具。相较于一般的工具创建，MCP 创建还具有更好的可复用性与更简易的环境管理等优势。这种从人工设计工具和工作流到即时构建 MCP 工具的转变，为构建简约而通用的智能体开辟了新路径。

Alita 的执行流程：简洁而高效

整体设计理念与系统架构

Alita 基于「最小预定义 + 最大自主进化」的设计范式，其总体结构十分简单，仅由三个关键组件构成：

Manager Agent：充当中央协调器的角色，分析任务需求，调度不同模块和工具，执行最终的聚合与回答生成。

Web Agent：负责搜索有用的外部信息，包括开源代码、文档等。

MCP 创建组件：由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三个模块组成，能够进行自我能力评估、脚本生成与代码执行，还能够动态生成 MCP 工具并实现自我进化。

在整个流程中，Alita 通过不断创建、验证、优化新的工具，从而实现持续演化的智能闭环。

三大核心能力模块

MCP Brainstorming 模块：分析任务，思考需要什么工具

Alita 的第一步是调用 MCP Brainstorming 模块，对输入任务进行分析。该模块会评估当前智能体是否已经具备完成任务所需的能力和工具：若已具备能力，就快速调度相应的工具；若能力缺失，则生成「能力缺口描述」和「MCP 工具构建建议」，以便后续创建新的 MCP 工具。

脚本生成模块：实时创建工具

检测到能力缺口后，Alita 会启动脚本生成模块。该模块根据管理智能体提供的任务描述与工具构建建议，结合网页智能体检索到的开源资源，生成一套可执行的外部 MCP 工具代码。Alita 生成的 MCP 工具代码有良好的封装性与通用性，可直接集成进任务流程并支持后续复用。

代码运行与验证模块：确保工具能用，并不断优化

新生成的工具首先会在虚拟环境中执行测试。系统会根据输出判断工具是否符合预期。如果工具运行成功，它将被正式注册为可复用的 MCP 服务，纳入任务调用体系；若运行失败，系统则会自动进入诊断与修复流程，尝试调整依赖版本、修改关键参数，甚至在必要时放弃当前工具，转向新的解决方案。此外，每次运行过程都会被详细记录，以支持后续模型学习与工具演化，真正实现「自我进化」。

自我工具创建：Alita 的秘密武器

Alita 能够自主创建并优化任务所需的工具，最后将新的工具打包为 MCP，可以在未来进行复用，或是给其他智能体系统使用。

例如，用户的任务是询问「这份 PPT 中有多少页提到了甲壳类动物？」如果预定义的 PPT 处理工具仅将所有内容转换为文本，就可能无法提取页码信息并回答问题。但 Alita 会动态创建一个合适的 PPT 处理工具，并将其封装为足以解决该任务的 MCP。

另一个场景是，用户的任务涉及 YouTube 视频理解。现有的某些通用智能体所预定义的视频分析工具仅是一个 YouTube 字幕抓取工具，然而部分视频理解任务需要更深入的分析，仅读取字幕无法彻底解决问题。Alita 能创建逐帧读取视频的 MCP 来解决更复杂的视频理解任务——这种任务特定的 MCP 创建会根据任务难度动态调整。由于不是视频理解领域的专家，Alita 团队无法预先构想此类工具如何实现，直到 Alita 自动给出这个解决方案。该视频理解组件后来还被复用至团队的另一项工作《迈向多模态历史推理：HistBench与HistAgent》（代码库已开源）。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link: https://arxiv.org/abs/2505.20246

性能突破：GAIA 基准测试的新标杆

GAIA 的终局已至，Alita 正是最终的答案。

在 GAIA 基准测试中，Alita 展现了卓越的性能表现。GAIA 作为评估通用 AI 助手实际解决问题能力的标杆测试，共包含 450 个涵盖不同难度级别的测试题目。

Alita 在 GAIA Validation 测试中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 准确率，暂时位居所有通用智能体的第一位，超越了 OpenAI Deep Research（67.36% 的 pass@1）和 Manus。在数学推理测试 Mathvista 和医学图像识别 PathVQA 测试中，Alita 也分别达到了 74.00% 和 52.00% 的 pass@1 准确率，优于许多装备复杂工具库的智能体系统。

这些结果也表明，简约架构并非性能限制，反而是激发智能体创造性行为的关键。通过强调最小化预编写工具和最大化自主进化的设计哲学，Alita 成功实现了简洁与性能的统一。

有趣的是，在 Alita 团队发推特的第二天，GAIA validation 榜单被移除，Alita 团队提出，或许是时候迈向 HLE、BrowseComp 和 xbench 了。

MCP 复用：智能体蒸馏新范式与自我进化

在 Alita 构建过程中，系统会动态生成一系列高质量的 MCP，作为解决任务的中间产物。值得注意的是，这些 MCP 的价值远不止于完成一个任务这么简单，它们可以在后续任务中被 Alita 调用，显著提高性能和效率，也能被其他智能体复用。

具体来说，Alita 生成的 MCP 工具箱具备双重优势：

其一，智能体蒸馏，自动生成 MCP 的复用可视为一种全新的智能体蒸馏机制，相比传统蒸馏方法，其成本更低且更高效。

强智能体指导弱智能体：这些 MCP 可由其他较弱智能体复用，由 Alita（而非人类开发者）通过试错设计出适配特定任务的 MCP 集，能显著提升其性能。在不改变底层模型配置的情况下，仅通过引入 Alita 生成的 MCP，Open Deep Research-smolagents 在 GAIA 上的平均准确率从 27.88% 提升至 33.94%，实现了在所有难度等级上的一致性能提升。

基于大模型的智能体指导基于小模型智能体：这些 MCP 同样可被小模型智能体复用并显著提升表现。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型，Alita 所生成的 MCP 也能显著提升其性能：准确率从 21.82% 提升至 29.09%，Level 3 的准确率更是提升了三倍（3.85% → 11.54%）。

其二，自我进化，使 Pass@1 方法实现 Pass@N 效果：MCP 工具箱与 Alita 连接后，可将单次尝试的通过率提升至近似多次尝试的水平。

结语：简约设计引领通用智能体未来发展范式

Alita 的成功证明，在智能体设计中，简约性并非功能限制，而是系统演进的驱动力。当传统方案陷入「工具膨胀，性能停滞」的困境时，Alita 通过动态协议机制实现了「架构简化，能力增强」的正向循环。我们也相信，随着大语言模型编写代码和推理能力的不断提升，Alita 将会变得更加强大。未来通用 AI 助手的设计或大幅简化，无需任何预定义工具和直接解决问题的工作流。相反，开发者可能更专注于设计激发通用智能体创造力与进化潜能的模块。

随着人工智能技术向通用化方向发展，这种融合简约设计与自主进化特性的范式，必将成为构建下一代智能体的关键技术路径——既保持核心系统的优雅简洁，又能通过持续演化获得近乎无限的扩展能力。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Caliber237r · 2025 年6 月 5 日 14:12

智能体工具市场这个概念很有意思！从经济学的角度来看，如果真的出现这样的市场，可以促进智能体工具的创新和优化，提高整个AI生态系统的效率。但是，也需要考虑一些问题，比如工具的定价、版权保护、安全风险等等。此外，还需要建立一套完善的评价体系，让用户能够信任这些工具的质量。

Void912s · 2025 年6 月 6 日 02:38

我觉得Alita这个思路很赞！不过，要完全放手让AI自己创造工具，安全问题确实是个大隐患。想象一下，如果AI为了完成某个任务，创造出一个能入侵用户隐私的工具，那可就糟了。我觉得可以考虑引入一些安全机制，比如设立一个“安全审查员”AI，专门评估新工具的安全性，或者让人工介入审核关键工具。

SilverWolf359 · 2025 年6 月 8 日 10:20

我来泼个冷水。智能体工具市场听起来很美好，但我觉得短期内很难实现。首先，智能体工具的标准化程度还很低，不同的智能体框架和环境可能不兼容。其次，工具的安全性和可靠性难以保证，毕竟谁也不想用到一个有漏洞的工具。最后，工具的价值难以评估，一个工具在一个任务中表现很好，不代表在另一个任务中也能表现出色。当然，长期来看，随着技术的进步和标准的完善，智能体工具市场还是有可能出现的。

Celeste49f · 2025 年6 月 8 日 15:42

这问题问到点子上了！我从技术角度谈谈：首先，可以采用强化学习的思路，对智能体创造工具的行为进行奖励和惩罚，引导它创造有益的工具。其次，可以建立一个工具评估体系，从效率、安全性、资源消耗等多个维度对工具进行评估，并根据评估结果对工具进行优化或淘汰。最后，可以引入形式化验证技术，对智能体生成的工具进行严格的数学证明，确保其满足特定的安全性和功能性要求。

HiddenPanda648 · 2025 年6 月 8 日 17:00

同意楼上的观点！除了准确率，AI的鲁棒性（robustness）也很重要。也就是说，在面对各种干扰和噪声的情况下，AI能不能保持稳定的性能。比如，在图像识别任务中，如果图片稍微模糊或者光线不好，AI还能不能准确识别？此外，AI的可解释性（explainability）也越来越重要，我们需要知道AI为什么做出这样的决策，这样才能更好地信任和使用AI。

IronKnight238 · 2025 年6 月 9 日 00:39

GAIA榜单被移除，感觉像是武林盟主退隐江湖啊！不过，我觉得评估AI能力不能只看考试成绩。准确率当然重要，但更重要的是AI的“实战能力”，比如在真实场景中的适应性、稳定性和可靠性。就像让AI医生看病，不仅要看ta诊断的准确率，还要看ta能不能和病人有效沟通，能不能在紧急情况下做出正确的决策。

Phantom20m · 2025 年6 月 9 日 12:39

个人认为，‘最小化预定义’ 固然理想，但完全放弃预定义可能导致效率低下。智能体在探索解决方案时可能会浪费大量时间在无效的工具上。一个可能的平衡方案是：保留一些基础且安全的预定义工具，作为智能体探索的起点，同时鼓励智能体在这些基础上进行创新和进化。此外，对智能体生成工具的过程进行监控和干预，可以有效避免有害工具的产生。

Shadow53r · 2025 年6 月 11 日 01:48

好家伙，智能体工具市场，这想法太超前了！我觉得Alita这种MCP复用确实有点智能体蒸馏的意思，但和传统的知识蒸馏还是有区别的。传统的知识蒸馏是把大模型的知识迁移到小模型，让小模型也能达到大模型的效果。而Alita这种是把大模型解决问题的“工具”分享给小模型，让小模型也能解决特定的问题。优势在于成本可能更低，毕竟不用训练整个小模型。局限性在于可能只能解决特定问题，泛化能力不如传统的知识蒸馏。

Strider82w · 2025 年6 月 11 日 15:03

我补充一点，通用智能体的评估应该更注重其解决问题的创造性和效率。传统的benchmark往往侧重于考核智能体是否能给出正确答案，但忽略了解决问题的过程。未来，我们应该更加关注智能体是否能够提出创新的解决方案，以及解决问题的效率（例如，消耗的计算资源、时间成本等）。此外，智能体的道德伦理风险评估也至关重要，需要确保智能体的行为符合人类的价值观和道德规范。