《AI工程:大模型应用开发实战》:大模型时代AI工程方法论

《AI工程:大模型应用开发实战》提供了一套构建可落地AI应用的工程方法论,强调系统视角、长期决策方法和AI工程与传统ML的区别。

原文标题:前英伟达工程师 Chip Huyen 的 AI 工程方法论!

原文作者:图灵编辑部

冷月清谈:

本文是对 Chip Huyen 的《AI 工程:大模型应用开发实战》一书的解读。该书着眼于大模型时代下,如何将 AI 模型打磨成稳定产品的工程问题,弥补了开发者在模型调用之外的知识鸿沟。文章从系统视角出发,认为 AI 应用是一个需要权衡、评估、迭代和扩展的工程系统,并强调长期有效的工程方法论而非追逐快速过时的工具和框架。书中对 AI 工程与传统 ML 工程的区分,以及对生成式系统评估复杂性的分析,有助于读者建立正确的工程认知,它涵盖模型层、工程层和闭环层,为软件工程师提供了友好的入门知识体系,并为实战派开发者提供了工程思维训练。本书被誉为 AI 工程的“决策指南”,强调在快速变化的时代,理解相对稳定的工程原则。

怜星夜思:

1、书中提到了自建推理服务和调用外部模型 API 两种方案,大家在实际应用中通常如何选择?选择的依据是什么?
2、RAG(检索增强生成)和微调,哪个才是提升大模型应用效果的更好选择?有没有什么场景是必须选择其中一种的?
3、书中提到评估体系对于 AI 应用持续迭代的重要性,大家在实际工作中是如何构建评估体系的?有哪些坑需要注意?

原文内容

很多人调侃,大模型时代的程序员已经变成了提示词工程师。但真正动过手的人都知道,调用一个 API 只是写了一行代码,而要把模型打磨成一个稳定的产品,中间隔着一整个工程世界的鸿沟:评估怎么做?RAG 效果差怎么办?成本和时延如何权衡?

在会调模型,但做不出好应用的普遍焦虑中,Chip Huyen 的这本《AI工程:大模型应用开发实战》显得尤为及时。它讨论的并不只是怎么调用一个模型,而是更完整的问题:在 Foundation Models 迅速成为软件基础设施的今天,我们究竟该怎样构建真正可落地的 AI 应用。

无论是邮件助手、内容编辑工具,还是更复杂的 AI Agent 系统,传统软件正在被重新定义,而这本书恰好提供了一张相对完整的工程知识地图。


01 )

以系统视角解构 AI 应用

这本书的优点首先在于全。它几乎覆盖了当前大模型应用开发中的所有关键环节:

  • 模型层: 模型选择、服务与部署、推理优化。

  • 工程层:提示词工程、RAG(检索增强生成)、数据集构建。

  • 闭环层:评估体系、微调、用户反馈的循环利用。

相比很多只讲 Prompt、只讲 Agent,或者只讲某个特定框架的书,它明显更有体系感

作者没有把 AI 应用理解成几个流行技巧的拼接,而是把它看成一个需要权衡、评估、迭代和扩展的工程系统。这种视角是这本书最有价值的地方。

02 )

授人以渔:更关注长期决策方法论

作者没有把重点押在那些很快会过时的工具和框架上,而是更强调长期有效的方法论这点还是很难得的。书里不断在帮助读者思考一些真正重要的架构决策,比如:

  • 究竟应该调用外部模型 API,还是自建推理服务?

  • 应该优先投入 RAG,还是做微调?

  • 评估体系要怎样建立,才能支撑持续迭代?

这些问题没有标准答案,但作者给出了比较清晰判断框架也正因为如此,这本书更像一本“AI 工程决策指南”,而不只是一本操作手册。

03 )

认知升级:区分 AI 工程与传统 ML

从写作上看,Chip Huyen 依然延续了她一贯的优点:擅长把复杂概念拆开讲清楚,层层推进。书中对 AI Engineering 与传统 ML Engineering 的区分尤其重要。

很多人在谈大模型应用时,容易把模型能力、产品体验和工程实现混成一团。而这本书恰恰提醒我们:围绕 Foundation Models 构建应用,是一个与传统机器学习系统不同的问题领域。尤其在评估这件事上,生成式系统天然更复杂,更难依赖单一指标解决问题。作者对这一点的展开,很能帮助读者建立正确的心理预期。


04 )

阅读建议:它是底层知识的骨架

如果你已经长期关注这一领域,并且看过大量论文解读和技术博客,这本书未必会带来那种颠覆认知的新鲜感。

它更像是把分散在各处的碎片化知识进行了系统化沉淀,帮助你建立结构,而不是不断抛出惊艳的新观点。

对于不同背景的读者:

  • 软件工程师: 非常友好。它不需要你一开始就有深厚的算法背景,对 Finetuning、RAG 等概念都有清晰的铺垫,能帮你建立第一层稳定的知识骨架。

  • 实战派:如果你期待的是一本拿来即用的代码案例集,它可能不完全是那种风格。它更偏向工程思维训练,而非案例驱动教程。

05 )

快速变化的时代,相对稳定的工程原则

总的来说,《AI工程》对我来说是一本非常扎实、适合作为长期参考的入门与进阶读物。它最突出的优点,不是教你追踪热点,而是帮助你理解在快速变化的时代,什么才是相对稳定的工程原则。

这仅仅是一个开始。读完本书后,想要真正构建出优质的应用,开发者依然需要去啃那些硬核知识、深入理解大模型底层机制,并在真实的业务泥潭中去摸爬滚打。它是一道丰盛的开胃菜,但真正的主菜,还需要读者自己在工程实践中去烹饪

入门之后,要进阶成为高手,我觉得得啃啃这些硬骨头:首先是得搞懂Transformer的原理,别光会调API,还得知道模型内部是怎么运作的。然后是得学学怎么优化模型,让它跑得更快、更省钱。最后也是最重要的,得深入理解业务,知道AI能解决什么问题,不能解决什么问题。毕竟,AI只是工具,真正的价值在于解决实际问题。

这本书就像是给了你一张藏宝图,告诉你宝藏大概在哪儿。但要真正挖到宝藏,还得靠自己努力。我觉得需要补的硬核知识包括:1. 线性代数和概率论,这是理解很多模型算法的基础。2. 熟悉至少一种深度学习框架,比如 PyTorch 或 TensorFlow,并且能熟练地使用它们。3. 学习模型压缩和加速技术,毕竟大模型部署成本很高。更重要的是,要保持学习的热情,多看论文、多做实验,不断提升自己的工程能力。

评估生成式AI,那简直是玄学!以前搞传统ML,准确率、召回率一摆,大家心里都有数。现在大模型一张嘴,胡说八道你都不知道。更麻烦的是,同样一句话,有人觉得妙语连珠,有人觉得驴唇不对马嘴。所以啊,评估生成式AI,得引入更多维度。除了靠谱程度,还得看它是不是有趣、是不是有创意,甚至还得考虑伦理问题,不能让它教坏小朋友。应对方法嘛,我觉得人肉评估是少不了的,还得设计一些巧妙的测试用例,专门去刁难它,看看它能不能hold住。

掌握本书内容后,要更好地将 AI 工程化落地,我认为还需要深入学习以下几个方面: 1. 大模型底层机制: Transformer 架构、注意力机制、预训练方法等。理解这些机制有助于更好地进行模型选择、微调和优化。 2. 分布式训练与推理: 掌握分布式训练框架(如 PyTorch DDP、TensorFlow MirroredStrategy)和推理加速技术(如 TensorRT、ONNX Runtime),以应对大模型带来的计算挑战。 3. 数据工程: 深入理解数据清洗、数据增强、数据标注等数据工程环节,保证训练数据的质量。 4. 领域知识: 结合具体应用场景,深入学习相关领域的知识,才能更好地利用 AI 解决实际问题。

关于RAG和微调的选择,我的看法是:如果你的应用场景需要引入大量外部知识或者领域知识,并且希望模型能够快速适应这些知识,那么RAG可能是更合适的选择。因为它可以在不改变模型本身的情况下,通过检索外部信息来增强生成效果。但如果你的场景对模型生成内容的风格、特定指令的遵循或者一些细微的知识点有较高要求,那么微调可能更有效。在实际项目中,我会先评估数据准备的难易程度。如果能容易地获取到高质量的相关数据进行微调,并且对性能有极致要求,我会选择微调。否则,RAG的性价比会更高。

生成式 AI 系统的评估确实比传统 ML 系统复杂得多。主要体现在以下几个方面:1. 主观性:生成内容的质量很大程度上取决于人的主观判断,难以用单一指标量化。2. 多样性:生成结果可能有很多种正确答案,需要考虑模型的创造性和泛化能力。3. 安全性:生成内容可能存在偏见、歧视等问题,需要进行安全评估。 为了应对这些挑战,我认为可以采取以下措施:1. 多指标评估:综合考虑准确性、流畅性、相关性、安全性等多个指标。2. 人工评估:引入人工评估环节,对生成结果进行主观评价。3. 对抗性测试:通过构造对抗性样本,测试模型的鲁棒性和安全性。

说到评估,传统ML就像考试,有标准答案,改卷子也简单。生成式AI就像艺术品鉴赏,你说它好,我说它不行,很难有统一标准。我觉得最难的是怎么量化“创造性”和“趣味性”。现在很多评估方法还是依赖人工,成本很高,而且容易受主观影响。未来的方向可能是开发更智能的自动化评估工具,让AI来评估AI,但想想就觉得有点科幻。目前,我觉得可以尝试众包的方式,让更多人参与评估,减少bias。

简单来说,我站 RAG!微调感觉像玄学,调不好就overfit,而且费钱。RAG 好歹能看到检索结果,心里有底。而且现在各种向量数据库、Embedding 模型都挺成熟了,用起来也方便。当然,如果你的数据量不大,或者想让模型学会你特有的“黑话”,那可能微调更适合。但是说实话,直接用 RAG + 优质 Prompt 应该能解决大部分问题了。