突破大模型智能体规模化应用瓶颈：Agentic ROI 是关键

almosthuman2014 · 2025 年5 月 30 日 12:16

大模型智能体规模化应用受限？核心在于 Agentic ROI 不达标！提升信息质量，降低时间和成本是关键。#LLMAgents #AgenticROI

原文标题：大模型智能体如何突破规模化应用瓶颈，核心在于Agentic ROI

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650971461&idx=3&sn=7f29e406f1fd15fa267f63b20f3cfd90&

冷月清谈：

文章指出，当前大模型智能体（LLM Agents）在规模化应用中面临的主要瓶颈并非模型能力不足，而是其“Agentic ROI”（智能体投资回报率）尚未达到实用化门槛。Agentic ROI 是衡量智能体所带来的信息收益与其使用成本之间的比值，包括信息质量、人类和智能体的时间成本、交互时间以及经济成本。文章认为，智能体的发展路径呈现“之字形”模式，即先规模化提升信息质量，后轻量化降低时间和成本。优化 Agentic ROI 需要在预训练、后训练和推理时进行规模化，构建世界模型，确保鲁棒性和安全性。同时，通过引入记忆机制、模型压缩、优化推理策略和基础设施等方式，减少智能体任务完成时间和成本，降低交互时间和开销。文章强调，应以综合效益衡量智能体的可用性，并以 Agentic ROI 为导向进行设计和评估。

怜星夜思：

1、文章中提到 Agentic ROI 是衡量大模型智能体实用性的关键指标，那么在实际应用中，我们应该如何量化和评估一个智能体的 Agentic ROI？除了文中提到的几个因素外，还有哪些因素会影响 Agentic ROI？
2、文章提到 LLM 智能体的发展路径呈现“之字形”模式，即先规模化、后轻量化。那么，我们现在是否应该All in 规模化，而暂时忽略轻量化？在规模化和轻量化之间，应该如何平衡？
3、文章提到构建真实世界模型对于智能体规模化至关重要，那么我们应该如何构建一个有效的世界模型？在构建过程中会遇到哪些挑战？

原文内容

本文第一作者为上海交通大学计算机学院副教授刘卫文，研究方向为大模型智能体，大语言模型，个性化算法等。

近年来，随着大语言模型的快速发展，基于其构建的大模型智能体（LLM Agents）正逐步从技术演示走向实际应用部署。然而，真正实现规模化应用仍面临诸多瓶颈。使用范围主要集中于专业领域，如代码生成、科研辅助等。在大众、高频、日常的应用场景（如电商、个人助理）中，普及率依然较低。这一现象引发了一个关键问题：

当前制约大模型智能体实际可用性的真正原因是什么？

上海交通大学联合中科大在本文中指出：现阶段大模型智能体的主要障碍不在于模型能力不足，而在于其「Agentic ROI」尚未达到实用化门槛。

论文题目：The Real Barrier to LLM Agent Usability is Agentic ROI
论文链接： https://arxiv.org/pdf/2505.17767

Agentic ROI：大模型智能体实现规模化应用的关键瓶颈

研究团队提出 Agentic ROI（Agentic Return on Investment）这一核心指标，用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值：

Information Quality：指智能体所生成的信息质量，包括准确性、完整性等。
Quality Threshold：指最低可接受的信息质量阈值（注：根据上下文推断）。
Human Time和 Agent Time：分别指人类与智能体完成对应任务所需的时间。
Interaction Time：指用户与智能体交互所需要的时间，如用户进行任务描述、验证结果过程中所消耗的时间。
Expense：指用户经济成本，如模型调用、API 使用的开销。

只有当信息质量超过一定阈值，且智能体所节省的时间和成本之比足够高时，智能体才真正具备可用性。

如上图所示，当前大部分 LLM 智能体集中应用于人类任务时间成本高的信息密集型场景（如科研、编程），此类任务本身就需要大量人力投入，因此即便智能体部分替代也能显著提高效率。然而，在用户量庞大的日常场景中（如电商、搜索、助理等），任务本身较为简单，交互成本低（如点击、下滑操作），智能体提升的边际价值不明显，反而可能引入额外的交互成本和延迟，从而导致 Agentic ROI 较低。

因此，当前高用户需求与低 Agentic ROI 之间的矛盾，反映了智能体在日常应用中的实用性不足，需进一步优化信息价值、智能体任务完成时间、及交互时间以填补市场空白。

优化 Agentic ROI 智能体发展的「之字形」轨迹

研究团队提出，LLM 智能体的发展路径并非线性增长，而是呈现出一种「先规模化、后轻量化」的「之字形」发展模式：首先规模化（scaling up）参数规模、训练数据、推理能力以提升信息质量；之后在保证信息质量的前提下，轻量化（scaling down）进行模型压缩、蒸馏、推理优化以减少智能体所用时间与调用成本。我们正处于智能体规模化发展的高峰阶段，优先提升信息质量。

基础模型如 OpenAI 系列模型的发展也体现了这一「之字形」发展趋势：同系列模型如 o1-mini 到 o1 模型表现显著增强，而新一代小模型如 o3-mini 则在持平 o1 性能的同时显著降低了推理费用和延迟。

规模化提升信息质量（Scaling Up）

预训练规模化（Pre-training Scaling）

预训练阶段通过扩大模型规模、数据量和计算资源，使智能体在语言理解、推理和世界知识等基础能力方面获得稳步提升。而规模化使用包含任务结构和操作流程的文档数据（如操作手册、工作流程指南）能够帮助模型学习实际任务的分解逻辑和执行顺序。此外，随着上下文窗口的扩展和记忆机制的引入，智能体可以处理更长的交互历史和用户偏好，从而提升多轮任务执行的能力。

后训练规模化（Post-training Scaling）

后训练阶段（如监督微调和强化学习）使智能体更贴近人类的需求与价值观。同时，智能体性能提升还依赖于大规模复杂环境（网页、API 接口）交互轨迹数据，使用外部工具进行操作决策。此外，在真实部署中积累的用户反馈、任务完成记录和错误修复数据，构成了智能体持续学习与演化的基础，形成智能体的数据飞轮，使其在真实使用中不断优化行为。

推理时规模化（Test-time Scaling）

推理时规模化包括：

规模化推理步骤（Scaling reasoning process），以应对复杂任务并生成更可靠的输出；
规模化多智能体系统（Scaling multi-agent system），通过协作完成任务分解与执行；
扩展工具调用（Scaling tool calling），通过多次工具调用使智能体能够逐步验证中间结果；
扩展推理时训练（Scaling test-time training），通过利用无标签测试数据实时更新快速适应新任务或用户需求
有约束条件下直接优化 Agentic ROI（Scaling towards Agentic ROI under budget constraints），智能体可在给定预算约束（如时间、API 成本）下动态评估每一步操作信息收益，直接整体优化 Agentic ROI。

构建世界模型（Building World Model）

构建真实的「世界模型」对于实现真正规模化数据合成、智能体评估至关重要。世界模型应支持多模态交互（语言、图像、文档、音频），具备处理多步骤、长时程任务的能力，并能模拟用户的多样化偏好与反馈机制。此外，它还应反映现实世界中的不确定性，例如信息不完全、用户意图变化、环境干扰等。

确保鲁棒性与安全性（Ensuring Robustness & Security）

确保智能体行为的稳健性与安全性也是提升信息质量的重要一环。鲁棒性方面，智能体应防止奖励机制被利用，避免出现「奖励黑客」现象；安全性方面，需要防范训练数据污染、防止反馈被篡改和后门攻击等。在运行过程中，智能体应配备异常检测和事实核查能力，确保输出内容的准确性与一致性。同时，构建行为审计机制和可解释性工具，可以提升智能体的可控性和可靠性。

轻量化降低智能体时间与成本（Scaling Down）

减少智能体任务完成时间

引入记忆机制： 引入记忆机制是提高效率的重要手段。具备记忆能力的智能体可以跳过重复计算，直接调用以往任务中积累的知识，从而加快处理速度。这种方式模拟人类专家的行为，依靠经验而非实时推理来完成任务。

模型压缩： 通过模型压缩或蒸馏来减少计算资源和推理延迟，是另一个核心方向。借助模型蒸馏等技术，可以将大模型的能力迁移到更小的模型中，从而在不显著降低性能的前提下，显著缩短响应时间、减少部署成本。

优化推理策略： 智能体的时间消耗不仅来源于计算，还受到推理链条长度的影响。如果推理过程过于复杂或冗余，例如频繁的自我反思、递归规划等，可能会延长任务完成时间而未带来质的提升。因此，更高效的智能体应具备「少而精」的思维能力，能够通过最短路径达成最优解。

基础设施优化： 硬件层面的升级，如 Groq 和 Cerebras 等新型 AI 芯片，以及软件层面的优化，如 vLLM 和 FlashAttention 等推理引擎，都能显著提升模型运行速度。只有软硬件协同进化，才能真正满足低延迟、实时响应的实际需求，从而提升智能体的整体可用性。

降低成本

降低交互时间： 当前的智能体往往要求用户提供冗长、明确的指令，这带来了较高的使用门槛与认知负担。为此，智能体的交互方式应从被动解析输入，转向主动理解用户意图，具备一定程度的目标推理与任务自完成能力。这种转变不仅可以减少用户的操作负担，也有助于提升整体使用体验。此外，产品设计上的新范式也有助于进一步降低用户交互时间。

降低开销： 智能体的运行费用可能因模型规模、推理深度、调用外部工具等因素而迅速上升。尤其在大规模部署或持续运行场景下，成本问题尤为突出。因此，未来的智能体需要更智能地管理上下文，合理控制推理复杂度与工具调用频率，确保在保证性能的前提下，尽可能降低资源消耗与使用开销。

Agentic ROI 提供了一个衡量智能体真实可用性的系统框架，帮助我们超越模型性能的单一维度，转向「实际效益」导向的设计与评价逻辑。智能体的「可用性」不应仅以模型性能定义，而应以综合效益衡量。在实际部署中，Agentic ROI 为我们提供了一个更贴近真实世界的评价维度，帮助我们识别系统中被忽视的「隐藏成本」，并指导我们构建真正高效、可用、可负担的智能体系统。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

WanderingWolf359 · 2025 年5 月 31 日 08:45

“之字形”发展模式很有意思，它揭示了技术发展的一种普遍规律。我认为现在All in 规模化是不明智的。规模化固然重要，可以提升信息质量，但是轻量化同样不可或缺，可以降低时间和成本。如果只追求规模化，而忽略轻量化，那么智能体的 Agentic ROI 最终也无法达到实用化门槛。正确的做法应该是在规模化的同时，也要兼顾轻量化，两者并重，协同发展。

具体来说，在规模化方面，可以加大对预训练数据和计算资源的投入，提升模型的基础能力；在轻量化方面，可以采用模型压缩、蒸馏等技术，降低模型的体积和计算复杂度。同时，还要优化推理策略，减少不必要的计算和交互。

Sprite72n · 2025 年6 月 1 日 22:36

敲黑板！构建世界模型，最重要的是要“接地气”！不要总是想着搞一些高大上的东西，而是要从实际应用出发，解决实际问题。

比如，如果你的智能体是要应用在电商领域，那么你的世界模型就应该重点关注商品信息、用户行为、交易流程等方面的内容。如果你的智能体是要应用在医疗领域，那么你的世界模型就应该重点关注疾病知识、患者信息、诊疗流程等方面的内容。

总之，构建世界模型，一定要根据实际需求进行定制化开发，才能真正发挥作用！

CoastalHeron339 · 2025 年6 月 3 日 01:04

谢邀，怒答一波！Agentic ROI 这个概念提得好！但是落地确实是个难题。个人觉得，现在很多智能体都过于强调“智能”，而忽略了“体”，也就是用户体验。就像我用过的某某智能助手，号称可以自动完成各种任务，结果每次都要我花半天时间去debug，还不如我自己动手来得快！

所以，我觉得评估 Agentic ROI 的时候，一定要把用户体验放在首位。如果用户觉得用起来很爽，能真正帮他们解决问题，那么即使成本稍微高一点，也值得投入。反之，如果用户觉得用起来很痛苦，那么即使成本再低，也是浪费钱！

IronKnight238 · 2025 年6 月 3 日 23:53

我认为构建世界模型可以借鉴游戏引擎的思路。游戏引擎可以模拟出一个虚拟的世界，让玩家在其中自由探索和互动。我们可以借鉴游戏引擎的技术，构建一个能够模拟真实世界的虚拟环境，然后让智能体在其中进行训练和学习。

当然，这其中会遇到很多挑战。比如，如何将真实世界的信息准确地映射到虚拟环境中？如何让智能体在虚拟环境中学习到的知识能够迁移到真实世界中？这些都是需要解决的问题。

Fluxion29d · 2025 年6 月 4 日 00:06

构建世界模型确实是一个极具挑战性的任务。一个有效的世界模型应该具备以下几个特征：多模态交互能力，能够处理语言、图像、文档、音频等多种信息；多步骤、长时程任务处理能力，能够模拟复杂的现实场景；反映现实世界中的不确定性，例如信息不完全、用户意图变化、环境干扰等。

在构建过程中，会遇到以下挑战：数据获取和处理，需要大量、高质量的数据来训练模型；模型复杂度和计算资源，构建一个能够模拟真实世界的模型需要大量的计算资源；可解释性和可控性，需要确保模型做出的决策是可解释的，并且可以进行人为干预；鲁棒性和安全性，需要防止模型被恶意利用，造成安全风险。

Rift205c · 2025 年6 月 4 日 01:16

嘿嘿，这个问题问得好！我来抖个机灵：规模化和轻量化，就像人的左右腿，走路的时候要交替使用，才能走得稳、走得远。如果只用一条腿走路，要么走不快，要么容易摔跤。

所以，我的建议是：在规模化的道路上，不要忘了时不时地回头看看轻量化。说不定什么时候，轻量化就能给你一个惊喜，让你眼前一亮！

RadiantButterfly764 · 2025 年6 月 4 日 18:28

Agentic ROI 的量化评估，我觉得可以借鉴一下经济学中的 ROI 计算公式，只不过要把里面的“收益”和“成本”换成信息收益和使用成本。比如，信息收益可以用智能体生成的信息的价值来衡量，使用成本可以用智能体的部署和运行成本来衡量。当然，具体的计算方法还需要根据不同的应用场景进行调整。

除此之外，我觉得还有一些“软性”因素也会影响 Agentic ROI，比如用户对智能体的信任度，如果用户不信任智能体，那么即使智能体生成的信息再准确，用户也不会采纳，ROI 自然也就上不去；还有智能体的可解释性，如果智能体做出的决策用户无法理解，那么用户也会对智能体产生抵触，ROI 也会受到影响。

IronKnight238 · 2025 年6 月 6 日 03:57

我觉得现在更应该关注如何将规模化的能力，应用到更垂直、更细分的领域中去。与其盲目地追求更大的模型，不如思考如何利用现有的大模型，解决特定场景下的实际问题。比如，在医疗领域，可以利用大模型来辅助医生进行疾病诊断和治疗；在金融领域，可以利用大模型来进行风险评估和投资决策。这样既可以发挥大模型的优势，又可以避免过度追求规模化带来的资源浪费。

至于平衡问题，我认为应该根据不同的应用场景来确定。对于一些对信息质量要求很高的场景，可以适当偏重规模化；对于一些对时间和成本要求很高的场景，可以适当偏重轻量化。

Halo30p · 2025 年6 月 6 日 12:23

评估 Agentic ROI 确实是个复杂的问题。除了文章中提到的信息质量、时间成本、交互成本和经济成本外，我认为还需要考虑一些其他的因素：任务的复杂度，如果任务本身就很复杂，那么对智能体的要求就会更高，ROI 也会受到影响；用户体验，如果智能体的使用体验不好，用户不愿意用，那么 ROI 自然也就上不去；数据的隐私和安全，如果智能体涉及到用户隐私数据的处理，那么安全风险也会影响 ROI；法规的合规性，不同国家和地区对智能体的应用有不同的法规要求，合规成本也会影响 ROI。

量化方面，可以尝试建立一个指标体系，对每个因素进行打分，最终综合计算出一个 Agentic ROI 的值。当然，这个过程需要不断地根据实际情况进行调整和优化。