Karpathy 论 Agentic Engineering:AI 时代程序员的新角色与核心竞争力

Karpathy 提出 Agentic Engineering,程序员将成为智能体编排者。《AI工程》提供了落地框架,强调工程能力在 AI 时代的核心地位。

原文标题:Karpathy大神对Vibe Coding开刀:杀死还是正名?Agentic Engineering才是答案

原文作者:图灵编辑部

冷月清谈:

Karpathy 对 Vibe Coding 进行了反思,并提出了 Agentic Engineering 的概念,预示着程序员的角色将从代码编写者转变为智能体编排者。Agentic Engineering 强调了抽象层级的跃迁,程序员需要关注系统运作而非具体代码,同时突出了工程实践的重要性,需要在 LLM 的概率性输出中保证软件的可靠性。这需要工程师具备设计、评估和问题解决能力。《AI工程》这本书为 Agentic Engineering 提供了落地的框架,探讨了 AI 应用构建的各个环节,强调了在 AI 时代,工程能力是核心竞争力。

怜星夜思:

1、你认为 Agentic Engineering 会如何改变软件开发的流程和团队组织方式?
2、Agentic Engineering 中,工程师如何保证 LLM 生成代码的质量和可靠性?除了文章中提到的评估体系,还有什么其他方法?
3、《AI工程》这本书你觉得会侧重于哪些方面来构建 Agentic Engineering 的框架?

原文内容

周六一早刷帖,看到 K 神周四发的帖子,回顾一年前火遍全网的词 Vibe Coding ——

我先来翻译一下:

很多人转发了我 2025 年 2 月 3 日这条推文,纪念 Vibe Coding 诞生一周年。我来做点回顾:

我 Twitter 账号都开了 17 年了(天哪),但我依然完全预测不了推文的互动量。当时那条推文只是我“洗澡时的灵感”,随手就发出去了,根本没过脑子。没想到它在对的时机,给当时很多人的共同感受起了一个极其贴切的名字。于是就有了现在的情况:Vibe Coding 竟然被维基百科列为我的主要模因(memetic)“贡献”之一,甚至它的词条写得比我的个人页面还要长。笑死。

我想补充的一点是,在那时,LLM 的能力还不够强,所以 Vibe Coding 大多被用于一些好玩的即兴项目、demo 和探索性尝试。那时候它挺有意思的,而且“大致”能跑通。

时至今日(一年后),通过 LLM Agent(智能体)协作编程正逐渐成为专业人士的默认工作流,只不过增加了更多的监督与审查。我们的目标是既要利用 Agent 带来的杠杆效应,又不能在软件质量上有任何妥协。很多人尝试给这种模式起个更好的名字,以示它和 Vibe Coding 的区别。我目前最喜欢的叫法是 Agentic Engineering(智能体工程)

  • “Agentic”:因为现在的常态是,你 99% 的时间都不再直接写代码,而是在编排(orchestrating)那些写代码的 Agent,并扮演把关者的角色。

  • “Engineering”:为了强调这其中依然包含艺术、科学和专业技能。这是一门你可以学习并精进的技术,它有着另一种维度的深度。

到了 2026 年,我们很可能会看到模型层(model layer)和新的智能体层(agent layer)持续进化。我对这两者结合的产物以及未来一年的进展感到非常期待。


啥?Vibe Coding 不香了!2026 年,你该关注 Agentic Engineering。

我来尝试总结一下 Karpathy 聚焦的两大关键词。

  • Karpathy 说 “Agentic” 本质上是在聊抽象层级的跃迁。过去几十年,我们一直在当“翻译官”,把人类逻辑翻译成机器能懂的代码。但现在,底层代码变成了某种“原材料”,你不需要再去一砖一瓦地砌墙,你成了一个总调度师。你 99% 的工作是定义目标、拆解意图、然后盯着那些 Agent 别跑偏。这不代表工作变简单了,相反,你的视野必须从“一行代码怎么写”拔高到“一个系统怎么运作”。

  • Karpathy 强调 “Engineering” 其实是在给这种新模式“正名”。很多人觉得 Vibe Coding 只是在玩票,但真正的工程深度恰恰在于:你怎么在 LLM 这种概率性的输出中,通过严密的流程设计,拿到一个百分之百确定的结果? 这种“编排 Agent”的工程能力,正成为一种新的核心竞争力,它有自己的门道、技巧和深度。

我为什么对 Karpathy 的这段话感触很深?

因为图灵刚刚上新了一本重磅图书——《AI工程》,它最核心的价值就在于,为 Karpathy 所说的 “Agentic Engineering” 提供了一套严谨的落地框架。这本书的作者 Chip Huyen 既是系统设计高手,也是 AI 工程高手,两位大佬的观点可谓如出一辙。

Agent 也是 AI 应用,所有的 AI 应用当然属于系统,这个系统是如何设计的?也就是说 AI 应用构建的的各个环节——模型、数据、推理、评估、部署、监控——是如何考量的,必须要有一个“新系统范式”的认知框架来指导你。而《AI 工程》这本书就是那个认知框架。(补充一句,这本书适合所有 AI 从业者,不管你会不会写代码。)

北京已经到货了,其他地区包括边远地区,下单后一周内就能到手,京东标注的 5~10天发货不准确。涉及春节,注意下单地区。

咱们还是结合 Karpathy 提到的两点来详细拆解一下吧,为什么工程能力是 AI 时代的首要能力。

1. 关于 Agentic:从“写作者”到“指挥家”

过去 50 年,程序员的角色是 Executor(执行者)。我们必须把思维翻译成编译器能懂的语法。而 Agentic 标志着我们进入了 Orchestrator(编排者) 时代。

  • 99% 的代码不再亲手书写在计算机科学中,这叫抽象级的提升。就像我们现在很少写汇编代码,而是写 Python 一样。Agentic 时代,LLM Agent 充当了“初级程序员”或“编译器”的角色。你不再关心循环怎么写、API 怎么调用,你关心的是逻辑的闭环

  • 编排的本质这里的编排不是乱喊口号,而是系统设计。你需要定义:

    • 任务拆解: 将一个复杂的业务需求拆成 Agent 能理解的子任务。

    • 上下文注入: 给 Agent 提供正确的文档、代码库背景和约束条件。

    • 工作流编织: 决定 Agent A 生成的代码如何交给 Agent B 审计,再交给 Agent C 部署。

  • 把关者的门槛这其实对资深程序员提出了更高的要求。如果你不懂代码,你就无法识别 Agent 生成的代码中潜藏的内存泄漏、竞态条件或安全漏洞。结合我自己的工作,那就是从“写稿”变成了“总编”——你必须一眼看出稿件里的逻辑谬误。

2. 关于 Engineering:重塑“深度”的定义

很多人担心“既然 AI 都能写代码了,那还需要工程师吗”作者用 Engineering 给了最有力的反击:工具变了,但工程化的核心价值——可靠性、可维护性和复杂性管理——从未改变

  • 艺术(Art)这关乎直觉与创造力。如何用最优雅的架构去解决问题?如何设定一个能够兼顾扩展性和性能的系统模型?这依然需要人类的审美和对用户需求的深层共情。

  • 科学(Science):这关乎验证与方法论。Agentic Engineering 引入了新的科学问题:

    • 确定性问题: 如何在概率性的 LLM 输出中获得确定性的软件结果?

    • 评估体系(Eval): 你需要建立自动化测试和评估集来监控 Agent 的产出质量。在 AI 时代,评估极为重要,《AI工程》这本书就用了1/5的篇幅来讲解评估。

  • 另一种维度的深度以前的深度是“我精通 Linux 内核调度算法”;现在的深度是“我精通复杂系统的分解与 Agent 链条的健壮性设计”

    • 你需要学习如何调优 Agent 的推理路径。

    • 你需要掌握如何利用 RAG 为 Agent 补足知识短板。

    • 你依然需要深厚的底层知识,否则你无法在 Agent 陷入死循环时,精准地通过“降维打击”指出问题的症结所在。


其实,我之前已经专门写了一篇文章:,这篇文章的传播度一般,但非常实在,推荐你阅读。

我之前把《AI工程》称为“2026开年最值得阅读的一本书”,其实可以把“开年”去掉,甚至可以把 2026 去掉,就算放眼未来 3 年,这本书也会是你最该阅读的图书之一,它聚焦的是 AI 行业的底层认知,它不像工具变得那么快。
昨天,《AI工程》在豆瓣上收获了一枚读者点评,点评得极为精准:
我发了个圈,后来才知道这是广受欢迎的鱼书(2与4)译者郑明智老师的短评。
郑老师坚持翻译多年,译作很多,这是其中一部分,感谢郑老师对技术图书的奉献。
好了,差不多结束了。最后,记得,春节期间一定要读读《AI工程》这本书,读完你就通透了。

从技术角度看,Agentic Engineering 应该会推动 DevOps 更进一步,朝着 AIOps 发展。自动化测试、持续集成/持续部署会更加重要,因为我们需要快速验证 Agent 的输出是否符合预期。团队可能需要更多具备监控、告警和故障排除能力的工程师。

我觉得《AI工程》应该会深入探讨如何设计 Agent 的架构,比如如何将复杂的任务分解成 Agent 可以理解的子任务,如何构建 Agent 之间的协作关系。还会介绍一些常用的 Agent 设计模式,以及如何根据不同的场景选择合适的模式。

强化学习可能是一个方向。我们可以通过强化学习来训练 Agent,让它们生成更符合规范、更可靠的代码。同时,可以引入形式化验证,对 Agent 生成的代码进行数学上的验证,确保其满足某些关键性质。

我猜它会着重讲如何评估 Agent 的性能,比如如何设计合适的评估指标,如何进行 A/B测试,如何监控 Agent 的长期表现。还会介绍一些常用的评估工具和技术。

数据质量应该是重点。《AI工程》可能会强调数据清洗、数据增强的重要性,以及如何构建高质量的数据集来训练 Agent。毕竟,Agent 的性能很大程度上取决于训练数据的质量。

除了评估体系,我觉得 Code Review 仍然很重要,但 Review 的对象不再是人写的代码,而是 Agent 生成的代码。我们需要培养一种新的 Code Review 能力,能够快速识别 Agent 可能存在的错误。

我感觉可能会出现一种新的角色:「Agent 训练师」,专门负责训练 Agent,优化它们的性能。就像现在Prompt Engineer一样。而且,对安全性的要求会更高,要防止 Agent 被恶意利用,或者产生不符合伦理道德的输出。

这问题问得好!我觉得 Agentic Engineering 会让开发流程更像一个交响乐团。以前大家各自写代码,现在要像指挥家一样,协调不同的 Agent,保证它们协同工作。团队组织可能也会更扁平化,更注重跨领域的合作,比如 AI 专家和领域专家要紧密配合才能让 Agent 真正理解业务需求。