OpenAI 更看重的工程能力:大模型系统建设的关键要素

大模型时代,工程能力至关重要。工程师需具备系统性思考和在约束下决策的能力,而非仅关注算法创新。

原文标题:为什么 OpenAI 更看重这种工程能力?我在这本书里看懂了

原文作者:图灵编辑部

冷月清谈:

本文作者作为京东算法工程师和开源贡献者,结合自身经验和对《实战 AI 大模型》一书的理解,分享了他对大模型时代的一些思考。他认为,在大模型领域,真正稀缺的不是算法上的新颖idea,而是将基础工程做到极致的能力,如数据可控、链路可观测、迭代快速等。那些看起来 fancy 的优化,往往难以规模化和长期演进。随着模型能力增强,工程师的角色应从提出新想法转变为**判断哪些想法值得做、如何长期运行**。大模型系统是一个高度跨学科的系统工程,需要工程师具备更广和更深的认知结构,以及在真实约束下做出决策的能力。

怜星夜思:

1、文章中提到“模型能力正在逼近某种工程主导区间”,你认为目前大模型在哪些实际应用中已经或者即将进入这个阶段?这个阶段对从业者提出了哪些新的要求?
2、文章提到未来需要更像大模型本身的人,拥有强大的信息整合能力和不犯错能力,那么对于我们这些普通人,应该如何扬长避短,才能不被时代淘汰?
3、《实战 AI 大模型》这类书籍,侧重于系统性的工程实践,你认为对于不同阶段的大模型从业者,应该如何有效利用这类资源来提升自己?

原文内容

本文作者张晓天,京东算法开发工程师,北京邮电大学硕士。专注于大模型与高性能计算,拥有多年算法引擎与框架的扎实开发经验,亦是活跃的开源贡献者。

下面这篇文章,既是译者在完成整本翻译之后的一次阶段性回顾,也是一次更个人化的反思。关于大模型时代 idea 的真实价值、关于工程在长期演进中的决定性作用,以及技术人在模型越来越强的背景下,应当如何重新理解自己的角色。

这些观点并不试图给出标准答案,也未必适用于所有场景,但它们来自一线实践,也来自对这本书反复咀嚼之后的真实共鸣。希望它能为正在学习、构建或思考大模型系统的你,提供一个全新的观察角度。

01

大模型时代,真正稀缺的不是 idea

在真正参与大模型系统建设之后,我逐渐意识到一个问题,很多看起来很复杂、很 fancy 的工作,本质上并不是依赖某种高深莫测的技巧,而是把最基础的事情反复打磨,做到极致、做到稳定、做到可持续迭代。

在最初接触大模型工程时,我们容易被各种新名词、新架构、新范式所吸引,会有一种感觉大模型正在爆炸式的演进的错觉。参数规模的指数级增长、推理策略的不断演化、对齐方法的层出不穷,似乎每一步都在刷新认知,逼近极限。

但随着和同事、同行的交流越来越多,发现身处其中的人往往都会有共同的感受大模型演进并没有想象中的变得更快。只是相对来说,它拿到了更多的资源,更多的时间,得到了更多工程的迭代。

甚至可以说,很多 fancy 或技巧性的优化,可能一时间的占据人们的眼球。但当真正进入系统建设和长期增长后,这些东西往往会逐渐显露出它们的局限性,甚至退化为“奇淫技巧”。它们难以复用、难以规模化,也难以支撑长期演进。

在更长的时间尺度上,无论是对一家公司,还是对一个大模型体系而言,真正重要的,反而是那些长期被忽视的基础工程能力——数据是否可控、链路是否可观测、迭代性能是否够快,失败是否可回滚、成本是否可预测。

在拉长的时间线上,那些 fancy 的 idea 会变得越来越廉价,只要我有足够快的迭代速度,足够稳定的训练,在单位时间可以尝试的次数足够多,那么你将必然取胜。

所以说,对于大模型来说真正困难的部分,并不在于提出这些 idea 本身,而在于如何让它们在真实系统中稳定运行。支撑一个 idea 从概念走向可用,需要大量看似普通、却极其扎实的基础工作,工程边界的明确、异常路径的覆盖、性能瓶颈的拆解、系统行为的可解释性。这些工作不性感,却决定了一切。

也正是在这个过程中,我对大模型需要什么样的人这一问题有了新的理解。直觉上,我们很容易认为,越是前沿的技术,越需要最聪明的人、最激进的创新。

但在实践中,感受恰恰相反,真正能够推动大模型系统向前发展的,往往是那些经验丰富、基础扎实、对复杂系统保持敬畏的人。他们未必总是提出最惊艳的想法,但他们知道哪些事情不能做,知道风险会在什么地方暴露,也知道如何在不确定性中逐步逼近最优解。

02

模型越来越强,人要学会退后一步

说来很搞笑,甚至从更极端的角度来看,我认为大模型最需要更像大模型本身的这样的人。相比于大模型,人类在穷举式探索和信息整合上的优势已经不存在了。

在这样的背景下,工程师的角色需要逐渐发生转变,从不断提出新想法转向判断哪些想法值得做、做不做得下去、能不能长期运行。未来真正稀缺的,并不是算法层面的 idea,而是对完整系统的理解能力和判断能力。

所以说,未来最不缺的是算法的 idea, 而是对整个系统的构建的把握。

与此同时,大模型的发展也进入了一个微妙的阶段。一方面,排行榜上的分数仍在不断刷新,各类指标持续突破;另一方面,从普通用户的实际体验来看,模型能力的提升却并不总是线性的、显著的。

这种指标进步与体感停滞的错位,恰恰说明模型能力正在逼近某种工程主导区间——单纯依靠规模和算法改进,已经很难直接转化为可感知的体验提升。

在这样的背景下,系统设计、工程约束和应用落地的重要性被前所未有地放大。大模型不再只是一个“更聪明的模型”,而是一个需要被精细管理、被正确约束、被合理嵌入真实世界的复杂系统。

这也是我在翻译《实战 AI 大模型》这本书时反复产生共鸣的原因。这本书并没有刻意追逐更多 fancy 的优化技巧,而是始终聚焦于落地本身,如何在不完美的条件下构建可用系统,如何在算力、成本和效果之间做出现实的取舍,如何让一个模型真正进入生产环境并长期发挥价值。

书中讨论的并不是抽象的想象,而是大量真实的系统如何 work, 例如Google 翻译、ChatGPT 聊天助手,RAG 系统和文生图和文生视频这些系统框架如何搭建,如何实施。

本书作者之一盛浩,现为 OpenAI 研究科学家,曾就职于 Apple、TikTok,斯坦福 AI 博士,师从吴恩达

这也解释了为什么书中讨论的,不是理想状态下的大模型,而是在真实约束下如何做工程决策——这些经验,本身就来自一线系统的长期运行。

对算法工程师而言,提升决策判断能力,往往依赖于更广和更深的认知结构——既要有纵向的技术深度,也要有横向的系统视角。一个 idea 的价值,不在于短期是否足够 fancy,而在于它是否经得起长期落地和持续工程迭代的考验。

03

构建复杂系统心智模型

在实际工作中,你会很快意识到,大模型从来不只是模型算法本身。它牵涉的数据配比、训练策略、推理延迟、服务稳定性、内容安全、在线评估与回滚机制,往往比模型结构本身更复杂,也更现实。这些问题横跨算法、系统、工程、产品甚至合规领域,本质上是一个高度跨学科的系统工程。

与此同时,技术环境又在持续变化。可能一年前大家还在讨论 FA2 的收益边界,转眼之间 FA3/FA4 已经成为新的基线。试图永远追逐最新技术,往往会陷入疲于奔命的状态。但真正成熟的工程实践,并不要求你每一步都站在最前沿,而是要求你具备清晰的工程思路和高效的系统演进能力:能够快速验证假设、快速替换组件、快速放大有效路径。

从这个角度看,《实战 AI 大模型》不仅仅是一份如何做的实战指南,更像是一份隐含的能力地图甚至求职指南。它并不执着于某一个具体实现细节,而是从整体视角出发,系统性地梳理了多类大模型应用的技术框架,完整呈现了从需求拆解、系统设计,到部署、监控和迭代的全过程。

这本书真正帮助读者做的,是让原本发散、无穷无尽的问题逐步收敛,最终在脑海中形成一个相对稳定、可复用的复杂系统心智模型。你可能未必会照搬其中的每一种实现,但你会知道在面对一个新问题时,应该从哪里开始思考,又该如何判断当前决策是否合理。

04

写在最后

在翻译 GenAI Design for Interview 这本书的过程中,我反复意识到一件事,这本书表面上是在教人和实战学习和如何通过大模型相关的面试,但它真正考察的,其实从来不是你记住了多少新名词,而是你是否真的理解一个复杂系统是如何被设计、被取舍、被长期运行的。

很多面试题看起来像是在问模型结构、训练技巧或推理策略,但如果追问下去,本质往往都指向同一个问题:在真实约束下,你会如何做决策。算力有限怎么办?延迟上不去怎么办?效果提升越来越慢时先动哪一层?失败成本谁来承担?

真正稀缺的能力,不是知道,而是判断和取舍。

回过头来看,大模型工程并不是一场关于谁更前沿的竞赛,而更像是一场关于谁更稳健、更耐心、更理解复杂性的长期工程。真正决定高度的,从来不是某一次耀眼的技术突破,而是那些被反复验证、被持续打磨的基础能力,以及在不确定环境中不断迭代的能力。

如果说过去更像是在筛选谁更聪明,那么现在和未来,更像是在寻找谁更像一个可靠的系统设计者和决策者。而这,或许才是学习和阅读这些书籍的真正意义所在。

05

来自 OpenAI 的一线经验

《实战 AI 大模型:来自 OpenAI 的一线经验》
阿里 · 阿米尼安,盛浩 | 著
张晓天 | 译

《实战 AI 大模型》并不是一本告诉你最新技巧的书。它更像是在把一线工程师脑海中那些隐性的判断标准、工程边界和系统思路,第一次系统化地呈现出来:

为什么有些方案在 demo 阶段可行,却注定无法长期运行?为什么很多优化在规模化后反而失效?在效果、成本、稳定性之间,工程师真正是如何取舍的。

书中通过 10 个真实案例,覆盖文本生成、图像合成、RAG 等核心应用场景,并用一套 6 步工程框架,完整跑通从需求澄清到部署监控的全过程。

对读者而言,它真正提供的,并不是某个标准答案,而是一种可以反复复用的工程思考方式。

我觉得大家可以多关注大模型在特定领域的应用。比如,大模型在医疗领域的应用、大模型在教育领域的应用等等。通过深入了解这些应用,我们可以发现新的机会,找到自己的定位。

而且我觉得,多和行业里的人交流也很重要。了解他们在做什么,遇到了什么问题,可以让你更清楚地知道自己应该学习什么,应该提升什么能力。

我觉得这篇文章说的“更像大模型本身的人”有点绝对了。人毕竟不是机器,我们有自己的优势。大模型擅长信息整合,但缺乏创造力和情感。所以,我们应该发挥自己的优势,去做那些需要创造力、需要情感、需要人际沟通的工作。比如,产品经理、设计师、销售等等。

另外,我觉得保持好奇心和学习能力也很重要。虽然我们可能无法像大模型那样快速学习新知识,但我们可以通过不断学习,提升自己的认知水平,适应时代的变化。

我觉得像智能客服、内容生成这种对稳定性和可靠性要求比较高的场景,已经进入工程主导区间了。现在大家都在卷模型效果,但真正能让用户长期用下去的,还是体验的稳定性。对从业者来说,光懂算法已经不够了,还得懂系统、懂工程、懂产品,才能把模型真正用起来。

针对这个问题,我再补充一点,我比较认可文章里说的,未来稀缺的是对整个系统的理解能力和判断能力。之前在学校里研究算法,更多的是关注模型本身,现在工作了才发现,要把一个模型落地,要考虑的东西太多了,数据、算力、成本、合规等等,每一个环节都可能影响最终的效果。所以,我觉得从业者需要提升自己的系统思维能力,站在更高的角度去看待问题。

对于刚入门的新手来说,我觉得这类书可以帮助他们建立一个整体的认知框架。了解大模型系统都包含哪些模块,每个模块的作用是什么,它们之间是如何相互协作的。这样,在学习具体的技术细节时,就不会迷失方向。

可以把这本书当成一个地图,先了解整个地形,然后再去探索具体的景点。避免一开始就陷入细节,而忽略了整体的结构。

与其想着和大模型比拼效率,不如思考如何利用大模型来提升自己的效率。比如,可以用大模型来辅助写作、生成代码、整理资料等等。这样,我们就可以把更多的时间和精力放在更有价值的事情上,比如思考、创新、沟通。

我最近就在用chatgpt帮我写工作汇报,效率提升不是一点半点,以前一天都搞不定的东西,现在半天就搞定了。当然,chatgpt生成的内容还需要自己修改润色,但至少可以省下大量的时间。

对于团队管理者来说,这类书可以帮助他们更好地进行团队建设和资源分配。了解每个模块的技术难点和所需资源,可以让他们更合理地分配任务,更有效地利用资源。

还可以把书中的一些实践方法应用到团队管理中,比如建立清晰的工程流程,提高团队的协作效率。

我认同!感觉现在很多大模型应用都处于“能跑,但是不好用”的状态。比如文生图,理论上很厉害,但实际生成的东西,细节问题很多,prompt 调不好效果就惨不忍睹。这就是工程化不足的表现,需要更多关注数据清洗、模型调优、用户体验等方面的工程细节。

要我说,现在的大模型从业者,越来越像一个“瑞士军刀”,啥都要懂一点。既要懂算法原理,又要会调参优化,还要会部署上线,甚至还得懂一点前端交互。不过我觉得最重要的是,要保持学习的热情,不断学习新的技术和工具,才能在这个快速发展的领域里生存下去。

对于有一定经验的工程师来说,这类书可以帮助他们查漏补缺,拓展视野。可能他们已经熟悉了某个模块的技术,但对于其他模块的了解可能不够深入。通过阅读这类书,可以了解其他模块的实现方式,以及它们与自己所负责的模块之间的关系。

我之前一直专注于模型训练,看了这本书之后,才意识到模型部署、监控等方面的重要性。现在在工作中,会更加主动地去了解这些方面的内容,和相关的同事交流。