2024年AI Agent落地遇阻,技术缺陷、社会接受度和产业链不成熟是主要挑战。
原文标题:Agents Are Not Enough? !
原文作者:机器之心
冷月清谈:
2024年,AI Agent备受瞩目,但实际应用效果与预期存在较大差距。
虽然谷歌、Salesforce、微软和Anthropic等公司都推出了Agent产品或平台,用户体验和评测结果却不尽人意。例如,微软的Copilot系列产品因功能缺陷和兼容性问题受到用户差评,Salesforce的Agentforce被认为不适合中小企业,而Claude 3.5 Sonnet的Computer Use功能也存在局限性。
技术缺陷是Agent落地的一大障碍,主要体现在对用户需求的理解能力不足和对环境的适应性差。此外,Agent的社会接受度和产业链成熟度也是需要解决的问题。
为提升Agent的泛化能力,可以尝试结合机器学习和符号人工智能。康奈尔大学的研究者提出的WorldCoder就是一个很好的例子,它通过编写代码构建世界模型,以符号化的形式表达知识。
虽然谷歌、Salesforce、微软和Anthropic等公司都推出了Agent产品或平台,用户体验和评测结果却不尽人意。例如,微软的Copilot系列产品因功能缺陷和兼容性问题受到用户差评,Salesforce的Agentforce被认为不适合中小企业,而Claude 3.5 Sonnet的Computer Use功能也存在局限性。
技术缺陷是Agent落地的一大障碍,主要体现在对用户需求的理解能力不足和对环境的适应性差。此外,Agent的社会接受度和产业链成熟度也是需要解决的问题。
为提升Agent的泛化能力,可以尝试结合机器学习和符号人工智能。康奈尔大学的研究者提出的WorldCoder就是一个很好的例子,它通过编写代码构建世界模型,以符号化的形式表达知识。
怜星夜思:
1、除了文章中提到的技术、社会接受度和产业链问题外,大家觉得还有什么因素阻碍了AI Agent的广泛应用?
2、文章提到了结合机器学习和符号人工智能来改进Agent,大家觉得这种方法的可行性如何?还有哪些其他技术方向值得探索?
3、大家觉得AI Agent在未来最有可能在哪些领域率先实现大规模应用?
2、文章提到了结合机器学习和符号人工智能来改进Agent,大家觉得这种方法的可行性如何?还有哪些其他技术方向值得探索?
3、大家觉得AI Agent在未来最有可能在哪些领域率先实现大规模应用?
原文内容
机器之心PRO · 会员通讯 Week 01
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
1. Agents are not enough? !
2024 年 Agents 落地成笑谈?Agents 落地的技术障碍是什么?Symbolic AI 与机器学习的结合,可以如何帮助 Agents 解决落地障碍?有哪些新型架构和 Robust 算法或将为 Agents 在 2025 年度带来曙光?...
2. 人形机器人的「钱景」在哪,黄仁勋想清楚了吗?
英伟达在人形机器人赛道上的布局有多少胜算?国内的机器人产业链,有哪些关键公司?人形机器人大小脑,国内外目前都在用哪款芯片?芯片不好做,软件方面的机会又有多大?...
3. AI4S 新形态?AI Scientists 能做到什么程度的科研?
2024 年涌现了哪些 AI Scientists?LLM在科研思路上有何优势?AI Scientist 端到端科研流程表现如何?AI Scientist写的论文有何优缺点?...
...本期完整版通讯含 3 项专题解读 + 25 项本周 AI & Robotics 赛道要事速递,其中技术方面 6 项,国内方面 10 项,国外方面 9 项。
本期通讯总计 21471 字,可免费试读至 9%
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① Agents Are Not Enough? !
引言: AI Agent 在 2024 年里被赋予了极大期待。然而,纵观 AI Agent 在 2024 年度的突破和应用,其距离真正实现能力强大且广泛应用的未来仍相差甚远。在技术缺陷、社会适应性问题和产业链尚不成熟几大阻碍 Agent 产品广泛应用的主要问题中,技术缺陷或是最有机会先被解决的问题?
2024 年 Agents 落地成笑谈?Agents 落地的技术障碍是什么?
1、AI Agent 是 2024 年最火的热词之一,这种有潜力实现独立判断,采取行动,然后完成特定目标的 AI 应用在研究者、企业、市场和资本眼中均受到极大地期待。
2、然而,在 Agentic 热潮中,一系列看似充满潜力的 Agent 模型产品看似充满潜力,但真实能力表现在测评和实际应用反馈中并不理想。
① 谷歌在发布 Gemini 2.0 时强调了该模型专为 Agent era 设计,以及对该模型的期待。
② 头部 CRM 软件供应商 Salesforce 于 9 月推出了 Agentforce 智能体开发平台,后于 12 月将其升级为 2.0 版本,强调在工作流程中增强团队各方面效率的定位。
③ 微软在 10 月和 11 月分别发布了大量 AI Agent 功能已经 Agent 开发平台 Copilot Studio 的重要更新,并且反复强调其在 toB 市场中对 Agent 的投入。
④ Anthropic 在 10 月更新的 Claude 3.5 Sonnet 中开放的 Computer Use 功能则引起了一系列「跟风」,引出国内外机构一众具备 Computer Use 能力的模型。
⑤ 微软的 Copilot 和 Copilot Studio 在 10 月更新后被用户收到难用差评,除了功能本身出错,还存在与原有功能冲突的问题。[1-4] [1-5]
⑥ Salesforce 的 Agentforce 在 reddit 网友的评价中被吐槽不适合中小企业。[1-6]
⑦ Claude 3.5 Sonnet 模型 Computer Use 功能作为实验版,其在测评中(预期内)地出错,而后如智谱 AutoGLM 的表现也仍然充满局限。[1-7]
3、从评测表现来看,在 Webarena 排行榜中,目前最好的智能体表现也才 57.1%的成功率,仍有大量改进空间。[1-8]
4、众多对 Agent 模型产品褒贬不一的评价反映了当前(LLM-based)Agent 距离真正成为新一代「杀手级应用」仍有很长的距离。
5、华盛顿大学和微软研究院的研究者在近期的工作中系统性梳理了当下 Agent 技术的各项局限,发现技术缺陷、社会适应性问题和产业链尚不成熟是阻止 Agent 产品广泛应用的主要原因。在这三类问题中,技术缺陷或是最有机会先被解决的问题。[1-9]
① 典型的技术问题之一在于 Agent 对用户需求的理解能力仍然有限。如果用户需要频繁干预或澄清自己的需求,会与使用 Agent 产品的出发点产生矛盾。这种感知收益和感知成本间的差别导致了他们无法从 Agent 中获得足够价值。
② 当前技术的另一个局限在于 Agent 无法适应用户习惯或任务环境,例如 Agent 是否能在代表用户执行在线交易时完成输入或重置密码。
6、在技术局限之外,Agent 的社会可接受性问题需要时间来解决。Agent 的能力越强越需要用户信任,进而放心让 AI 代为执行银行交易、个人通信和重要决策。让基于 Agent 的互动和交易广泛被社会认可可能需要很长的时间才能实现。
7、产业链尚未成熟是 Agent 应用面临的另一项挑战。LLM 仍属于新兴的技术,而 LLM-based Agent 的开发、部署、连接(multi-agent 情况下)和服务方式仍未发展出标准化的规则以及可持续发展的生态。
Symbolic AI 与机器学习的结合,可以如何帮助 Agents 解决落地障碍?有哪些新型架构和 Robust 算法或将为 Agents 在 2025 年度带来曙光?
1、现有 Agent 产品或 LLM-based Agent 的主要问题之一在于技术本身的缺陷。当前的 Agent 技术尚不足以支撑相关产品高效、精准地完成用户在不同场景需求下的任务要求。
2、在 Agent 面临的三类问题中,社会接受度需要很长的时间培养,产业链需要配合 Agent 产品和市场逐步建立。相较之下,当前 Agent 的技术问题可能是最有机会先被解决。
3、解决 Agent 泛化能力不足的一种方式是结合机器学习与符号人工智能(Symbolic AI)。机器学习可以提供从数据中学习的灵活性,而符号人工智能可以提供结构化推理和可解释性。
① 康奈尔大学的研究者在「WorldCoder」工作中提出了一种方法,通过编写代码来构建世界模型,以此来解释其与环境的交互。其能够将学到的知识以符号化的形式(如编程语言)表达出来,便于人类理解和沟通。[1-14]