LLM 的 2025:推理与 Agent 的崛起

2025年是LLM的推理与Agent之年,技术重心在于驱动工具链,Agent在编码和搜索场景规模化落地。

原文标题:2025 到底是 LLM 的「什么年」?

原文作者:机器之心

冷月清谈:

文章梳理了 2025 年 LLM 领域的发展趋势与热门话题,作者 Simon Willison 将其总结为 27 个“XX 之年”。文章以 推理(Reasoning)和 Agent 为主线,探讨了 LLM 在技术跃迁、应用范式、生态格局和风险治理等方面取得的进展。2025 年,LLM 的推理能力不再局限于静态问答,而是更侧重于驱动工具链,实现更长、更完整的任务链条。同时,Agent 的定义也逐步收敛,并在编码和搜索两大场景中实现规模化落地。此外,文章还讨论了编码 Agent、LLM 在命令行中的应用、YOLO 的风险等热点话题,以及 LLM 市场竞争、基础设施发展和生态变化。文章还提到了 RLVR 方法对 LLM 推理能力的帮助。

怜星夜思:

1、文章提到2025年Agent在编码和搜索两大场景实现规模化落地,你认为在其他哪些场景Agent还有巨大的应用潜力?为什么?
2、文章中提到了“The year of YOLO and the Normalization of Deviance”, 你认为在AI快速发展的背景下,我们应该如何平衡效率和安全?
3、文章提到2025年推理模型的重心在于驱动工具链,那么你认为未来LLM在哪些行业或者领域能够成为核心生产力工具?目前还存在哪些阻碍?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

在 2025 年里,业界热衷于用「AI Agents 之年」「推理之年」等方式来形容该年的重要突破。在过去的一年里,LLM 在在技术跃迁、应用范式、生态格局、风险治理等方面取得了多项进展,并周期性引起热议。在 2025 年末,Django Web 框架的开发者 Simon Willison 梳理了一整年里 LLM 在技术跃迁、应用范式、生态格局、风险治理等方面出现过的重要进展和热门话题,并将其总结为 27 个「The Year of XX」。


目录

01. 2025 的「LLM 之年」有哪些说法?
2025年有哪些 LLM 热门话题?2025 的年度趋势与前两年有何区别?...
02. 以「Reasoning & Agent」为主线,LLM 在 2025 有哪些进展?

2025年「Reasoning」突破的关键在哪?「Agent」的定义有什么变化?「Reasoning」 和 「Agent」促成了哪些年度热词?...

03. 2025 年 LLM 商业、生态与风险方面有哪些热词?

LLM 竞争格局有何变化?「MCP」为什么只是「昙花一现」?「Coding Agents」与「CLI」在如何相互影响?...


2025 的「LLM 之年」有哪些说法?

1、独立开发者、技术评论人、Django Web 框架的开发者 Simon Willison 近期撰文,以《2025: The year in LLMs》为题,用 27 个「The year of XX」梳理了 2025 年度有关 LLM 的发展趋势与热门话题。

① Django 是一个基于 Python 的高级 Web 应用框架,旨在帮助开发者快速构建安全、可维护且功能丰富的网站或 Web 应用程序, Simon Willison 它的开发者之一。

② Willison 此前于 2023 年底撰写了《Stuff we figured out about AI in 2023》,讨论该年 LLM 发展中,能力边界与基本规律的新认知。

③ 2024 年底,Willison 撰写了《Things we learned about LLMs in 2024》,讨论他对 LLM 进入规模化应用阶段后成本下降与多模态普及等产业化趋势的观察。

④ 于 2025 年 12 月底发布的《2025: The year in LLMs》是 Willison 年度系列博客的第三篇,重点梳理了 LLM 在该年度推理能力与可执行 agents 的崛起,尤其是以编码代理为代表的「能做事」的工具化落地。

2、该文章在开篇以「Reasoning」与 「Agents」两项最具热度的关键词展开,阐述两者在 2025 年度的发展趋势与业界话题的迁移,以及在 Willison 视角下的重点变化。

① 对于 LLM 推理能力的突破,Willison 指出 2025 年推理模型的重心不再是「静态问答更聪明」,而在于它们开始更稳定地驱动工具链。其能够先规划多步行动、执行调用外部工具,并基于执行反馈持续推理与调整计划,从而把任务推进到更长、更完整的完成链条。

② 在 「The year of agents」,Willison 表明,业界对「Agent」的定义逐步收敛,并在编码与搜索两大场景中实现高频、规模化落地,相关能力与产品形态亦在全年持续迭代演进。

3、在 reasoning 与 agents 的基础上,Simon Willison 在后续章节中以「XX 之年」为主题,从技术突破、应用落地及相关细化场景等维度梳理了 2025 年度有关 LLM 的热点话题。

①「The year of long tasks」章节讨论了 agent 开始能承接更长周期的工程任务。因推理与规划能力跃迁,agents 的价值从演示走向交付。

②「The year of coding agents and Claude Code」则讨论了编码 agent 进入可规模化的「交付形态」的相关话题。Willison 以 Claude Code 为例,其通过「本地 CLI 与云端异步交付」的方式降低了工程实现门槛。

③ 「The year of LLMs on the command-line」则讨论了命令行从「工具链语言」到「自然语言界面」的转变。LLM 让不熟悉命令行与脚本组合的开发者能够自然语言生成并执行命令,从而扩大 CLI 工具链的可用人群与使用频率。

④ 「The year of YOLO and the Normalization of Deviance」则聚焦在 YOLO 的风险问题,其通过自动放行提升 agents 编码效率,但「长期无事故」会让风险逐步被忽视并不断累积。

4、此外,该文章在「The year of MCP」「The year of conformance suites」「The year of top-ranked Chinese open weight models」等年度热词下讨论了 2025 年度有关 LLM 市场竞争和基础设施发展,以及相关的生态变化和安全风险话题。


以「Reasoning & Agent」为主线,LLM 在 2025 有哪些进展?

1、在开篇的 「The year of reasoning」章节中,Willison 强调了(o1 和 DeepSeek-R1 等推动的)RLVR 方法对 LLM 推理能力的帮助和引发的研究热潮,进而分享了 LLM 推理能力的真正突破在于「驱动工具」的观察。

① 在供给侧变化集中,2025 年「几乎每个主要 AI 实验室」都发布了至少一个 reasoning model,同时出现可在推理与非推理模式间切换的混合模型,以及通过 API 调节推理量的「旋钮」。

② Willison 指出 2025 年,reasoning 的「真正解锁点」在于能够驱动工具,而具备工具访问能力的推理模型能够规划多步任务、执行调用,并基于工具返回结果继续推理以更新计划。

③ 伴随 LLM 推理能力的突破,诸如 「AI 搜索」「AI Coding」等应用在 2025 年开始落地。...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

效率和安全本身就不是完全对立的,应该在设计之初就将安全考虑进去,而不是后期打补丁。比如,可以引入更严格的测试和验证机制,定期进行安全审计,确保系统运行在可控范围内。同时,要建立完善的风险预警和应急响应机制,一旦出现问题能够及时处理。

教育领域也很有前景。想象一下,每个学生都有一个 AI 辅导员,根据他们的学习进度和习惯,量身定制学习计划和内容,这可比现在传统的教育方式高效多了。AI 还可以批改作业、解答疑问,解放老师的精力。不过,也需要注意培养学生的独立思考能力,避免过度依赖 AI。

我觉得关键在于建立一套完善的伦理规范和监管体系。AI 的发展不能脱离人类的价值观,要确保 AI 的应用符合道德标准,不会对社会造成危害。同时,政府和行业组织应该加强监管,制定相关法律法规,明确 AI 的责任主体和行为规范。让 AI 在法律的框架内发展。

金融行业绝对是 Agent 可以大展拳脚的地方!可以利用 Agent 做智能投顾,根据用户的风险偏好和财务状况,提供个性化的投资建议。还可以用于风险管理,实时监控市场动态,识别潜在的风险。甚至可以用于反欺诈,自动检测和拦截可疑交易。当然,金融数据非常敏感,安全问题是重中之重。