微软专家揭示 JARVIS，构建未来智能体的重要一步

ai-front · 2024 年8 月 14 日 03:26

原文标题：构建未来智能体，微软宋恺涛揭秘 JARVIS 系统及其在AI领域的应用前景

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247621514&idx=2&sn=e72d1801f7dcee20aa8bdac9b869f0ed&

冷月清谈：

**JARVIS 智能体**

JARVIS 是一种以大型语言模型为核心的智能调度工具，能够与多个 AI 专家模型协作处理复杂任务。JARVIS 采用任务规划和模型选择机制，调度专家模型执行子任务来实现最终目标。

应用场景

JARVIS 可应用于扩展语言模型功能，构建跨模态智能体，利用天气预报、数学计算等工具增强智能体能力，满足不同需求。

发展方向

智能体未来发展方向包括构建强大的单体智能体、建立多智能体系统，以及建立智能体应用库。

面对的挑战及解决办法

调度海量工具：采用分层结构，将工具树状表示进行分配调度。
扩大专家模型数量：优化上下文长度分配，提升任务序列规划合理性。

**访谈嘉宾：**微软资深研究员宋恺涛

怜星夜思：

1、与 ChatGPT 类似，JARVIS 也可以用来写诗、写文章吗？
2、JARVIS 的实际意义是什么？普通人在日常生活中能用到它吗？
3、如果 JARVIS 发展到极致，人类还有存在的必要吗？

原文内容

采访嘉宾 | 宋恺涛

策划 | 李忠良

AI Agent 是一种先进的智能实体，它由人工智能技术驱动，能够自主感知环境、做出决策，并执行相应的动作。这些智能代理具备自主性，能够独立运行而无需人类直接干预；它们具有强大的感知能力，通过传感器或输入模块来捕捉周围环境的信息。基于这些信息和预定义的目标，AI Agent 能够进行合理的决策，并采取行动以实现这些目标。此外，它们还拥有记忆、规划和使用工具的能力，这使得它们能够适应复杂环境并完成复杂的任务。

在 8 月 18 日 -19 日 AICon 上海站，我们策划了【AI Agent 技术突破与应用】论坛，并且也荣幸邀请到了微软亚洲研究院高级研究员宋恺涛，他将发表《The Future is Here, A Deep Dive into Autonomous Agent》的演讲，通过他的分享你可以到了解构建智能体中需要考虑的组件，以及了解当下的智能体构建存在的问题。

本文为宋恺涛会前采访文。宋恺涛提到 JARVIS 系统是一个基于大型语言模型的智能调度工具，它能够与多个专家 AI 模型合作，处理各种复杂任务。尽管它还处于早期阶段，但已经在多模态处理和工具使用方面展现出潜力。面对扩展功能时的挑战，JARVIS 采用分层结构来优化模型调度。未来，JARVIS 将继续发展，目标是构建更强大的单体和多智能体系统，并可能建立一个智能体应用库。

以下为采访正文：

InfoQ：能否简单说明 JARVIS 系统的基本功能和工作原理？

宋恺涛：JARVIS 系统的核心，是以大模型为基础，将其作为一个管理的神经中枢，通过引入任务规划，选择机制等模块来实现对各种细分的专家模型的调度。这里面我们会选择像 Hugging Face 这样的机器学习社区来提供专家模型。相比于现在的智能体，首先 JARVIS 是一个非常早期的工作，属于一个早期的智能体架构。现在的工作，可能更加完善，包括现在会引入多智能体机制还有更加细微的提示词设计以及记忆机制等等。但可以这么说，JARVIS 应该是一个初步展现智能体雏形的工作。

InfoQ：JARVIS 系统中的 LLM 如何与多个 AI 专家模型进行协作？

宋恺涛：J 这个也是我们当时对大模型的一种观察。从 2022 年底 ChatGPT 诞生以来，我们也在观察大模型本身的语言能力到底有多强，如果其语言能力足够强的话，就应该能够像人类一样去掌握语言的能力。因此，如果我们能够提供 LLM，这些 AI 专家模型如何使用，那么，大模型就应当具备去调度，协作和使用它的能力。因此，我们将 AI 模型的描述作为 prompt 提供给 LLM，来告诉大模型，在什么任务情况下需要使用到它。同事还要求其能够做任务分解，判断各个任务之间依赖性。使其剧本对 AI 专家模型的协作调度能力。

InfoQ：这种协作模型的具体流程是怎么样？

宋恺涛： 具体而言，我们首先利用大预言模型进行任务规划的能力，最用户的需求进行任务分析和子任务分解，来得到子任务序列以及子任务之间的相互依赖。然后，基于我们得到的任务序列，我们会采用一种模型选择机制，来选择最适合的模型解决对应的子任务。最终我们会执行和调度这些模型来生成最终的模型输出。

InfoQ：不同 AI 模型之间的协同工作机制如何影响整体系统的性能

宋恺涛： 我觉得核心难度会有这么几点：1）如果我们希望系统的功能越强大，就可能需要我们调度更多的模型。这样一来，如果这些模型是用 prompt 的形式来构建的话，就会对 context 的长度带来很多的消耗；2）如何正确地规划各个任务序列，也是一个非常大的挑战。如果预测了错误的任务序列，那么也会对系统的后续生成产生影响，如何及时地修正和改进会非常正要。

InfoQ：JARVIS 在哪些领域或者场景得到应用

宋恺涛： 其实作为调度工具为代表的智能体，他在很多需要丰富智能体功能的地方上都会需要到。以开源机器学习社区（Hugging Face，国内比如 Modelscope）为代表，那么我们可以通过构建对不同模型的调度，产生一个能够处理语言，语音，图像，视觉等不同模态的智能体。除此以外，包括使用像天气预报，数学计算等一系列工具的方式，都能够构建更强的智能体。因此，当我们需要扩展语言模型的任务范围时，JARVIS 这样的智能体就会有很大的应用场景。

InfoQ：在这些应用场景中，JARVIS 系统遇到过哪些问题，又是如何解决这些问题的

宋恺涛： 其实这些问题和我们上述的机制时有关，那就是当我们想要构建更强大的智能体时，就不得不引入更多的专家模型或者说叫工具。而当我们需要 Scale Up 这些工具时，就会对模型产生很大的负担。所以如何调度海量工具，会是一个非常大的调整。从目前来说，我们会采用分层结构的，也就是将工具表示成树形结构来进行分配调度。

InfoQ：您觉得智能体未来的发展方向会是什么？

宋恺涛： 我觉得有这么几点：1）如何构建强大的单体智能体；2）在单体智能体的基础上，构建多智能体；3）能否针对智能体，去构建其对应的社区库，就像 App Store 一样。这些都很关键。

InfoQ：是否方便为我们介绍下您即将分享的 Agent 落地和 JARVIS 的关系？

宋恺涛： 其实整体来时，我还是会围绕 JARVIS / HuggingGPT 为主来展开。我可能也会目前智能体的扩展研究，来讨论，包括从 efficiency，self-improvement，评估这些角度来展开讨论，如何更好更鲁棒地构建可信任可靠的智能体。

嘉宾介绍：

宋恺涛，微软亚洲研究院高级研究员，博士毕业于南京理工大学。其研究方向为自然语言处理，大语言模型，AI 智能体。其发表了超过 40 篇国际学术会议论文和期刊，包括 NeurIPS，ICML，ICLR，ICCV，ACL，EMNLP，KDD，AAAI，IJCAI 等，同时担任多个学术会议和期刊的审稿人。其代表作包括 HuggingGPT 等智能体研究以及 MASS，MPNet 等基础模型训练。

活动推荐：

在 8 月 18-19 日即将举行的 AICon 全球人工智能开发与应用大会上，60 多位来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等顶尖企业与研究机构的资深专家将汇聚一堂，带来 AI 和大型模型在各种落地场景下的应用案例和最佳实践分享，帮助与会者提升技术视野、获得有价值的实践指导。大会火热报名中，详情点击【阅读原文】链接了解或联系票务经理 13269078023 咨询。

内容推荐

在这个智能时代，AI 技术如潮水般涌入千行百业，深度重塑生产与生活方式。大模型技术引领创新，精准提升行业效率，从教育个性化教学到零售精准营销，从通信稳定高效到金融智能风控，AI 无处不在。它不仅是技术革新的先锋，更是社会经济发展的强大驱动力。在 AI 的赋能下，我们正迈向一个更加智能、便捷、高效的新未来，体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号，回复「千行百业」获取免费案例资料。

今日荐文

你也「在看」吗？👇

Radiant43s · 2024 年8 月 14 日 23:26

当然，但前提是你得舍得花钱。就像你现在用的手机，也不见得很能给你的生活直接带来什么翻天覆地的变化，但它肯定比几十年前的座机要方便。JARVIS 也是这个道理，它的意义不在于直接带来什么革命性的改变，而是提供一种更便捷、更高效的交互方式，一点一点地提升我们的生活品质。

Phantom95l · 2024 年8 月 16 日 14:19

普通人在日常生活中用不上 JARVIS 这样的智能体，因为它的定位是面向开发者和研究人员的。对于普通用户来说，现有的智能语音助手（如 Siri、小爱同学等）已经能够满足日常需求了。JARVIS 的意义在于为开发者和研究人员提供一个强大的工具，来探索和开发更复杂、更强大的智能体，最终造福全人类。把它想象成一个高级乐器，普通人玩不明白，但专业音乐家能用它奏出美妙的旋律。

ScarletTiger123 · 2024 年8 月 17 日 17:59

我觉得 JARVIS 不太会写诗。虽它可以生成文字，但创造诗歌所需的艺术性和想象力超出它的能力范围。就像 AI 无法完全理解人类的情感，同样地，它也无法真正领会诗歌的精髓。不过，说不定 JARVIS 能帮我们改改错别字啥的。

MorningDew906 · 2024 年8 月 17 日 18:07

别瞎操心了！就算 JARVIS 真的发展到无所不能的地步，也还需要我们人类来照顾它的服务器、给它写代码升级呐。再说，人类存在的意义又不是为了跟 AI 比谁更聪明。我们还有艺术、音乐、美食、爱和梦想，这些都是 AI 永远无法企及的。所以，与其担心被 AI 取代，不如想想怎么跟 AI 携手共创美好未来吧！

Zen15e · 2024 年8 月 18 日 08:18

JARVIS 的发展不会取代人类，而是起到辅助和增强作用。它的职责是帮助人类解决复杂问题、提高效率，而不是取代人类的认知能力和创造力。

CoastalHeron339 · 2024 年8 月 18 日 15:49

从理论上来说，JARVIS 也许可以用于写诗或文章。它可以调度语言生成模型来执行这些任务。不过，需要指出的是，文章没有提到 JARVIS 是否经过这方面的训练，也没有提供例子来证实它可以写出高质量的诗歌或文章。

SpringFlower865 · 2024 年8 月 19 日 08:46

JARVIS 在日常生活中可以有以下应用：**个人助理：**调度各种工具和信息来完成任务，例如安排行程、获取天气预报、在线购物等。**教育工具：**协助学生学习，提供个性化指导、解答问题、生成学习材料等。**创意帮手：**辅助创意工作者，提供灵感、生成文本、图像或音乐。

Sprite72n · 2024 年8 月 19 日 20:23

这就要看 JARVIS 发展到什么程度了。如果它拥有了自我意识和超越人类的智力，那人类存在的必要性确实值得思考。不过，从目前的进展来看，JARVIS 离这个阶段还很遥远。

Beacon26j · 2024 年8 月 19 日 22:53

根据文章提供的资料，JARVIS 的设计重点是任务调度和多模态处理，并没有提到诗歌或文章创作。要判断 JARVIS 是否能够写诗或文章，需要进一步的了解和测试。