大模型时代,工程能力至关重要。工程师需具备系统性思考和在约束下决策的能力,而非仅关注算法创新。
原文标题:为什么 OpenAI 更看重这种工程能力?我在这本书里看懂了
原文作者:图灵编辑部
冷月清谈:
怜星夜思:
2、文章提到未来需要更像大模型本身的人,拥有强大的信息整合能力和不犯错能力,那么对于我们这些普通人,应该如何扬长避短,才能不被时代淘汰?
3、《实战 AI 大模型》这类书籍,侧重于系统性的工程实践,你认为对于不同阶段的大模型从业者,应该如何有效利用这类资源来提升自己?
原文内容
本文作者张晓天,京东算法开发工程师,北京邮电大学硕士。专注于大模型与高性能计算,拥有多年算法引擎与框架的扎实开发经验,亦是活跃的开源贡献者。
下面这篇文章,既是译者在完成整本翻译之后的一次阶段性回顾,也是一次更个人化的反思。关于大模型时代 idea 的真实价值、关于工程在长期演进中的决定性作用,以及技术人在模型越来越强的背景下,应当如何重新理解自己的角色。
这些观点并不试图给出标准答案,也未必适用于所有场景,但它们来自一线实践,也来自对这本书反复咀嚼之后的真实共鸣。希望它能为正在学习、构建或思考大模型系统的你,提供一个全新的观察角度。
01
大模型时代,真正稀缺的不是 idea
在真正参与大模型系统建设之后,我逐渐意识到一个问题,很多看起来很复杂、很 fancy 的工作,本质上并不是依赖某种高深莫测的技巧,而是把最基础的事情反复打磨,做到极致、做到稳定、做到可持续迭代。
在最初接触大模型工程时,我们容易被各种新名词、新架构、新范式所吸引,会有一种感觉大模型正在爆炸式的演进的错觉。参数规模的指数级增长、推理策略的不断演化、对齐方法的层出不穷,似乎每一步都在刷新认知,逼近极限。
但随着和同事、同行的交流越来越多,发现身处其中的人往往都会有共同的感受大模型演进并没有想象中的变得更快。只是相对来说,它拿到了更多的资源,更多的时间,得到了更多工程的迭代。
甚至可以说,很多 fancy 或技巧性的优化,可能一时间的占据人们的眼球。但当真正进入系统建设和长期增长后,这些东西往往会逐渐显露出它们的局限性,甚至退化为“奇淫技巧”。它们难以复用、难以规模化,也难以支撑长期演进。
在更长的时间尺度上,无论是对一家公司,还是对一个大模型体系而言,真正重要的,反而是那些长期被忽视的基础工程能力——数据是否可控、链路是否可观测、迭代性能是否够快,失败是否可回滚、成本是否可预测。
在拉长的时间线上,那些 fancy 的 idea 会变得越来越廉价,只要我有足够快的迭代速度,足够稳定的训练,在单位时间可以尝试的次数足够多,那么你将必然取胜。
所以说,对于大模型来说真正困难的部分,并不在于提出这些 idea 本身,而在于如何让它们在真实系统中稳定运行。支撑一个 idea 从概念走向可用,需要大量看似普通、却极其扎实的基础工作,工程边界的明确、异常路径的覆盖、性能瓶颈的拆解、系统行为的可解释性。这些工作不性感,却决定了一切。
也正是在这个过程中,我对大模型需要什么样的人这一问题有了新的理解。直觉上,我们很容易认为,越是前沿的技术,越需要最聪明的人、最激进的创新。
但在实践中,感受恰恰相反,真正能够推动大模型系统向前发展的,往往是那些经验丰富、基础扎实、对复杂系统保持敬畏的人。他们未必总是提出最惊艳的想法,但他们知道哪些事情不能做,知道风险会在什么地方暴露,也知道如何在不确定性中逐步逼近最优解。
02
模型越来越强,人要学会退后一步
说来很搞笑,甚至从更极端的角度来看,我认为大模型最需要更像大模型本身的这样的人。相比于大模型,人类在穷举式探索和信息整合上的优势已经不存在了。
在这样的背景下,工程师的角色需要逐渐发生转变,从不断提出新想法转向判断哪些想法值得做、做不做得下去、能不能长期运行。未来真正稀缺的,并不是算法层面的 idea,而是对完整系统的理解能力和判断能力。
所以说,未来最不缺的是算法的 idea, 而是对整个系统的构建的把握。
与此同时,大模型的发展也进入了一个微妙的阶段。一方面,排行榜上的分数仍在不断刷新,各类指标持续突破;另一方面,从普通用户的实际体验来看,模型能力的提升却并不总是线性的、显著的。
这种指标进步与体感停滞的错位,恰恰说明模型能力正在逼近某种工程主导区间——单纯依靠规模和算法改进,已经很难直接转化为可感知的体验提升。
在这样的背景下,系统设计、工程约束和应用落地的重要性被前所未有地放大。大模型不再只是一个“更聪明的模型”,而是一个需要被精细管理、被正确约束、被合理嵌入真实世界的复杂系统。
这也是我在翻译《实战 AI 大模型》这本书时反复产生共鸣的原因。这本书并没有刻意追逐更多 fancy 的优化技巧,而是始终聚焦于落地本身,如何在不完美的条件下构建可用系统,如何在算力、成本和效果之间做出现实的取舍,如何让一个模型真正进入生产环境并长期发挥价值。
书中讨论的并不是抽象的想象,而是大量真实的系统如何 work, 例如Google 翻译、ChatGPT 聊天助手,RAG 系统和文生图和文生视频这些系统框架如何搭建,如何实施。
本书作者之一盛浩,现为 OpenAI 研究科学家,曾就职于 Apple、TikTok,斯坦福 AI 博士,师从吴恩达。
这也解释了为什么书中讨论的,不是理想状态下的大模型,而是在真实约束下如何做工程决策——这些经验,本身就来自一线系统的长期运行。
对算法工程师而言,提升决策判断能力,往往依赖于更广和更深的认知结构——既要有纵向的技术深度,也要有横向的系统视角。一个 idea 的价值,不在于短期是否足够 fancy,而在于它是否经得起长期落地和持续工程迭代的考验。
03
构建复杂系统心智模型
在实际工作中,你会很快意识到,大模型从来不只是模型算法本身。它牵涉的数据配比、训练策略、推理延迟、服务稳定性、内容安全、在线评估与回滚机制,往往比模型结构本身更复杂,也更现实。这些问题横跨算法、系统、工程、产品甚至合规领域,本质上是一个高度跨学科的系统工程。
与此同时,技术环境又在持续变化。可能一年前大家还在讨论 FA2 的收益边界,转眼之间 FA3/FA4 已经成为新的基线。试图永远追逐最新技术,往往会陷入疲于奔命的状态。但真正成熟的工程实践,并不要求你每一步都站在最前沿,而是要求你具备清晰的工程思路和高效的系统演进能力:能够快速验证假设、快速替换组件、快速放大有效路径。
从这个角度看,《实战 AI 大模型》不仅仅是一份如何做的实战指南,更像是一份隐含的能力地图甚至求职指南。它并不执着于某一个具体实现细节,而是从整体视角出发,系统性地梳理了多类大模型应用的技术框架,完整呈现了从需求拆解、系统设计,到部署、监控和迭代的全过程。
这本书真正帮助读者做的,是让原本发散、无穷无尽的问题逐步收敛,最终在脑海中形成一个相对稳定、可复用的复杂系统心智模型。你可能未必会照搬其中的每一种实现,但你会知道在面对一个新问题时,应该从哪里开始思考,又该如何判断当前决策是否合理。
04
写在最后
在翻译 GenAI Design for Interview 这本书的过程中,我反复意识到一件事,这本书表面上是在教人和实战学习和如何通过大模型相关的面试,但它真正考察的,其实从来不是你记住了多少新名词,而是你是否真的理解一个复杂系统是如何被设计、被取舍、被长期运行的。
很多面试题看起来像是在问模型结构、训练技巧或推理策略,但如果追问下去,本质往往都指向同一个问题:在真实约束下,你会如何做决策。算力有限怎么办?延迟上不去怎么办?效果提升越来越慢时先动哪一层?失败成本谁来承担?
真正稀缺的能力,不是知道,而是判断和取舍。
回过头来看,大模型工程并不是一场关于谁更前沿的竞赛,而更像是一场关于谁更稳健、更耐心、更理解复杂性的长期工程。真正决定高度的,从来不是某一次耀眼的技术突破,而是那些被反复验证、被持续打磨的基础能力,以及在不确定环境中不断迭代的能力。
如果说过去更像是在筛选谁更聪明,那么现在和未来,更像是在寻找谁更像一个可靠的系统设计者和决策者。而这,或许才是学习和阅读这些书籍的真正意义所在。
05
来自 OpenAI 的一线经验
《实战 AI 大模型》并不是一本告诉你最新技巧的书。它更像是在把一线工程师脑海中那些隐性的判断标准、工程边界和系统思路,第一次系统化地呈现出来:
为什么有些方案在 demo 阶段可行,却注定无法长期运行?为什么很多优化在规模化后反而失效?在效果、成本、稳定性之间,工程师真正是如何取舍的。
书中通过 10 个真实案例,覆盖文本生成、图像合成、RAG 等核心应用场景,并用一套 6 步工程框架,完整跑通从需求澄清到部署监控的全过程。
对读者而言,它真正提供的,并不是某个标准答案,而是一种可以反复复用的工程思考方式。
