《LangChain编程:从入门到实践(第2版)》——解锁大模型应用开发的关键路径

《LangChain编程:从入门到实践(第2版)》重磅更新!直击大模型痛点,助你高效开发AI应用。

原文标题:LangChain 学习必备,从入门到实践的全新版指南!

原文作者:图灵编辑部

冷月清谈:

随着生成式AI(如ChatGPT、GPT-4o)的飞速发展,AI应用开发已从巨头专属走向了普罗大众。然而,主流大模型在使用中仍面临数据时效性、Token数量限制、网络连接及数据源整合等挑战。LangChain作为一款开源的大模型应用开发框架,有效解决了这些痛点。它通过集成大模型、提示词管理、外部知识库、第三方工具和向量数据库,帮助开发者灵活构建定制化应用,并作为“胶水层”显著提升了编码效率,让开发者能更专注于产品创新。

为帮助读者高效掌握LangChain并紧跟最新技术发展,《LangChain编程:从入门到实践(第2版)》应运而生。本书在第1版基础上进行了系统性内容升级,新增了对LangGraph库的详细讲解,将核心代码迁移到pydantic_v2,并全面支持LangChain 0.3及以上版本,同时将代码示例替换为国内的通义千问和DeepSeek大模型。书中涵盖了LangChain的核心概念、原理、开发范式与实战案例,旨在为无论是零基础新手还是经验丰富的工程师提供完整的学习路径,助力他们在AI工程化落地与企业级解决方案中取得成功。

怜星夜思:

1、文章里提到LangChain解决了大模型不少痛点,比如数据时效性和Token限制。但如果未来大模型自身变得足够强大,比如能实时联网、处理超长文本,甚至自带工具集,那LangChain这类框架的价值和必要性还会像现在这么大吗?
2、文章里介绍了LangChain作为大模型应用开发框架的重要性。那除了LangChain之外,目前还有哪些主流的、值得开发者关注的大模型应用开发框架或者工具呢?它们各自有什么侧重点和优势?
3、对于刚接触大模型应用开发的新手来说,除了阅读《LangChain编程:从入门到实践(第2版)》这本书,还有哪些高效的学习路径或者实践建议,能帮助他们更快地掌握这个领域?

原文内容

自 2022 年 ChatGPT 发布以来,生成式 AI 迅速成为全球焦点。从 GPT-3.5 到如今的 GPT-4o 模型,OpenAI 不断刷新人们对人工智能的认知边界。AI 也逐步具备了听、说、看的多模态能力,开始向真正的智能助手演进。

AI 技术也由此进入竞速阶段。2023 年 DeepSeek 凭借开源模型 DeepSeek-R1 引发关注,在多个评测维度上已接近 GPT-3.5 的表现,并通过工程优化显著降低训练成本,在算力效率与落地潜力方面展现出强劲竞争力。

如今,AI 应用开发已不再是巨头专属,而是属于每一位具备技术能力的开发者。在众多开发框架中,LangChain 正成为通向这一新世界的重要桥梁。

LangChain框架的爆火

LangChain 作为开源项目首次进入公众视野是在 2022 年 10 月,这个项目很快在 GitHub 上获得大量关注,进而转变成一家迅速崛起的初创企业,LangChain 的作者 Harrison Chase 也自然成为这家初创企业的 CEO。


LangChain在GitHub上的star数变化趋势(数据截至2024 年10月)

尽管 LangChain 在早期没有产生收入,也没有明确的商业化计划,却在短时间内获得了 1000 万美元的种子轮融资,紧接着又获得 2000 万-2500 万美元的 A 轮融资,估值约为 2 亿美元。巨额的资本投入反映了投资者对 LangChain 未来潜力的坚定信念,以及对 LangChain 作为 AI 技术发展关键设施的共识。

LangChain 作为一种大模型应用开发框架,有效地解决了当前 AI 应用开发中的多个痛点。以流行的 OpenAI GPT 系列模型为例,其使用过程中通常面临以下挑战。

  • 数据时效性:当前主流 GPT 模型的数据更新往往滞后几个月,限制了其时效性和适用范围。

  • token 数量限制:例如,使用 GPT-4 尝试总结一份 200 页的 PDF 文件时,由于 token 数量限制,其功能可能会受阻。

  • 网络连接限制:GPT-4 无法联网,因此不能获取最新的信息。

  • 数据源整合限制:GPT-4 不能直接与其他数据源进行链接,这限制了它的多样性和灵活性。

一方面,LangChain 框架旨在将大模型、提示词管理、外部知识库、第三方工具和向量数据库集成到一起,以便用户能够灵活地构建定制化的大模型应用。

这种集成方式为开发者提供了前所未有的创新自由,允许他们利用大模型的强大能力解决各种复杂问题,加速大模型应用的落地。

另一方面,LangChain 作为胶水层的框架,极大地提高了开发者的编码效率。LangChain 让开发者能够将更多精力集中于推动产品创新和功能的持续迭代,减少了基础架构搭建的烦琐工作。这样一来,开发者就可以将宝贵的时间和资源用于打磨产品,优化用户体验。

LangChain全新版指南

经过两年多的发展,LangChain已经演变为一个非常庞大和复杂的代码库。从头开始阅读和分析 LangChain 的源码,对于新手来说已经不太现实,并且大模型领域的概念日新月异,容易抓不住重点。

为了帮助更多读者高效掌握 LangChain,理解大模型应用开发的核心路径,《LangChain编程:从入门到实践(第2版)》应运而生。

随着 LangChain 社区的持续演进,我们推出了本书的第 2 版,旨在帮助大家紧跟最新的开发范式与技术变动。

第 1 版曾广受读者好评,第 2 版在延续原有简洁、易懂的讲解风格基础上,进行了系统性的内容升级:

  • 新增了对 LangGraph 库的详细讲解,该库专门用于构建代理工作流应用。

  • 移除了Chain组件的相关内容,包括StuffDocumentsChain和 ConversationalRetrievalChain 等接口的介绍。

  • 迁移了 ConversationBufferMemory 和 ConversationStringBufferMemory等传统记忆组件的使用方法。

  • 将 LangChain 核心代码从langchain_core.pydantic_v1迁移到 pydantic_v2。

  • 使用 langchain-corelangchain-[partner]  langchain-community 等 SDK 替代原有的 langchain 包,并将所有链的调用方式改写为 LCEL。

  • 全面支持 LangChain 0.3 及以上版本的代码示例和说明。

  • 代码示例由 OpenAI 大模型替换为国内的通义千问大模型和 DeepSeek 大模型。

这一系列的更新,帮助读者有效地规避版本差异带来的学习障碍,从基础到实践全面掌握 LangChain 编程路径,内容涵盖核心理论、开发范式、常见场景和实战案例。

无论你是零基础读者,还是有一定经验的工程师,都能从本书中找到适合自己的学习节奏。

可以说,想学 LangChain,看这一本就够了!

LangChain编程:从入门到实践(第2版)》
李多多(@莫尔索) | 著

(新书上市,为大家申请了福利价格,只要 34.9 元👆)
本书以简洁而实用的方式引导读者入门大模型应用开发,涵盖 LangChain 的核心概念、原理和高级特性,通过实例细致解读了 LangChain 框架的核心模块和源码,并结合 DeepSeek 等,为读者提供了在实际项目中应用 LangChain 的逐步指导。这一版在第 1 版的基础上进行了全面更新,并新增了对 LangGraph 库的详细讲解等内容。
李多多(@莫尔索) 企业 AI 项目研发负责人,多家企业 AI 技术顾问,专注于 AI 工程化落地与企业级解决方案。在大模型应用开发领域经验丰富,擅长大模型应用工程化、RAG 系统构建及 AI Agent 开发。著有《从零开始构建企业级RAG系统》,并开源电子书《LLM应用开发实践》

全书共 10 章内容,基于 LangChain 0.3,涵盖 LangGraph 库。并深入解析  LangChain 六大组件:模型输入/输出、检索、链、记忆、代理与回调,系统掌握核心能力。

另外作者还提供了实战大案例,从 0 到 1 构建多模态智能机器人,理论结合实践,带你轻松开启大模型应用之旅。还随书附赠详尽示例代码,快速上手,助你轻松驾驭大模型技术。

自从 ChatGPT 问世以来,大模型迅速引发了新一轮技术革新的浪潮。在这一背景下,如何高效地集成和应用这些先进的大模型,成为开发者、研究人员和企业亟须解决的重要问题之一。LangChain 通过提供工具、库以及最佳实践,以开源社区驱动的方式,助力用户更便捷地利用大模型的潜力。本书将带领读者深入 LangChain 的世界,探索释放大模型潜能的有效方法。

——阿法兔,微软 MVP,ChaosAI 发起人

这是一本专为大模型应用开发初学者设计的实用指南。通过 LangChain 框架,本书从基础概念到实际应用,逐步讲解如何构建高效、智能的 AI 系统。书中包含丰富的实例和案例研究,不仅为读者提供了学习资源,还为开发者在实际项目中应用这些技术提供了明确指导。无论你是 AI 领域的入门者还是希望提升技能的专业人士,这本书都能帮助你掌握大模型应用开发的核心知识。

——何静,Intel 前工程师,AI 研究社区 AFE 联合创始人

大模型时代为许多人带来了新机遇,我和莫尔索都十分珍惜这一波机会,并在默默努力。我经常阅读他的公众号文章,每篇都写得非常用心。我相信,对于想要入门 LangChain 的读者来说,这本书一定能提供清晰且完整的进步路径。在大量企业的大模型应用落地项目中,我们频繁遇到相关人才短缺的问题,缺口较大。因此,纸上得来终觉浅,我希望与莫尔索一起,在大模型应用落地的道路上,助力大家更好地成长。

——覃睿,毕昇(BISHENG)作者,数据项素产品总监

哎呀,这就像点菜一样,每家店都有自己的招牌菜!LangChain是那个“全家福”套餐,啥都有点,功能最全面。LlamaIndex呢,就是“特色烤鱼店”,专精RAG,在数据处理和检索上特别拿手。如果你想做个跟公司内部文档聊天的机器人,找它准没错!还有微软的Semantic Kernel,那就像“微软食堂”,对用C#、.NET的程序员特别友好,感觉就是为他们量身定制的。最近火起来的AutoGen,有点像“组团打怪”的模式,可以模拟好几个AI智能体互相协作解决问题,听起来就挺酷炫的。总而言之,看你的“胃口”,哪个最对你口味就选哪个呗!

关于主流框架的讨论,除了LangChain,确实还有不少优秀的选择,各有其侧重点。例如,LlamaIndex,它专注于RAG(检索增强生成)应用,在数据摄入、索引、检索优化方面做得非常出色,对于需要构建复杂知识库问答系统的开发者来说,LlamaIndex能提供更专业和细致的工具链。Semantic Kernel是微软开源的框架,它更侧重于与C#等.NET生态的集成,并强调“插件”和“技能”的概念,方便开发者将大模型能力嵌入到传统应用中。此外,还有像Haystack(一个更侧重RAG和搜索的框架)和AutoGen(微软推出的多智能体框架,适合构建协作型AI系统)等。选择哪个框架,很大程度上取决于你的项目需求、技术栈偏好以及对特定功能的侧重。

嗯,我觉得嘛,这事儿得看怎么定义“强大”。大模型即使能处理超长文本和联网,它也很难直接知道你公司内部的业务流程,或者直接调用你本地的私有工具库吧?LangChain的角色就是那个“连接器”和“协调员”,它把大模型的能力和外部世界、私有数据、特定业务逻辑串联起来。总不能让大模型自己去学你们公司的财务系统怎么审批吧?所以,LangChain的价值更多在于“集成”和“编排”,这部分能力在大模型自身再强悍,也需要一个外部框架来完成。就好比大脑再聪明,也得通过手脚去操作工具和环境啊!

关于大模型应用开发框架,我个人觉得关注一下LlamaIndex是很有必要的,尤其如果你是做RAG方向的话。它在文档处理、索引构建、查询优化等方面提供了非常丰富的组件,让RAG链路的搭建变得更加专业和高效。而如果你是微软生态的开发者,Semantic Kernel无疑是首选,它能让你在熟悉的Visual Studio环境中无缝集成大模型能力。此外,像一些轻量级的库如guidanceInstructor,虽然不是完整的框架,但在特定场景(如结构化输出、提示词工程)下也提供了很棒的便利。所以,没有最好的,只有最适合你当前项目和团队的工具。

我个人觉得,除了啃书,『实战』才是王道!你就把自己当成一个项目经理,给自己定个小目标,比如:做个“能聊天的日程助手”或者“根据我的微博生成个性化摘要”的APP。然后,你就去拆解这个目标,看哪些地方需要用到LangChain的链、哪些地方需要调用外部API、哪些地方需要搞记忆功能。过程中肯定会遇到各种坑,那就是你真正的学习机会!解决一个Bug,就等于掌握了一个知识点。B站上也有很多实战教学视频,跟着别人的项目从0到1搭一遍,比单纯看书印象深刻多了!

这个问题问得好!就有点像,当年智能手机内存和算力都特小的时候,各种优化电池、清理缓存的APP特流行。等手机硬件牛逼了,这些APP就没那么吃香了。LangChain可能也会面临类似情况。但是,它也有可能像操作系统一样,从功能型往平台型发展。比如,变成一个管理不同大模型、不同工具、不同数据源的“调度中心”。毕竟大厂模型再强,也不可能把所有垂直领域的数据和工具都集成进去。所以,我觉得它会从“补短板”变成“做整合”,价值依然,只是重心不同。

针对“LangChain的未来”这个问题,我的看法是:即使大模型自身能力飞速提升,LangChain这类框架的价值依然存在,只是会进化。大模型就像是操作系统或CPU,它提供底层能力;而LangChain更像是一个应用框架或者编程语言,它解决的是如何高效、灵活地组合和利用这些底层能力去构建复杂的、多功能的上层应用。你想,即使CPU再快,我们还是需要Python、Java这些语言去写程序吧?LangChain会更侧重于跨模型协作、复杂代理(Agent)工作流编排、A/B测试、部署监控等更高维度的工程化问题,而非仅仅是弥补模型本身的限制。它会成为构建“智能系统”的抽象层,而非仅仅是“模型补丁”。

针对新手学习路径,我的建议是:首先,理论与实践并行。读完书的基础章节后,立刻跟着书中的代码示例动手敲、跑通,理解每个组件的功能。其次,从小项目开始实践,比如尝试用LangChain搭建一个简单的问答机器人、一个基于RAG的知识库查询系统,或者模仿一个文章摘要工具。遇到问题不要怕,官网文档、GitHub社区的Issue列表是你的宝藏。最后,保持持续学习的热情,关注大模型领域的最新动态、技术博客和优秀开源项目,加入相关的技术社区进行交流,这能让你紧跟前沿,不断扩宽视野和能力边界。

对于大模型应用开发的新手,我极力推荐除了书籍之外,多接触以下资源:首先是LangChain官方文档,它是最权威、最新的资料库,很多细节问题在书中可能不会展开。其次,GitHub上的LangChain开源项目,看看别人是怎么用LangChain解决实际问题的,能够学到很多工程化的思路。再就是,多参加一些线上线下的技术沙龙或研讨会,听听行业专家或一线开发者分享的实践经验和踩坑心得,能够帮你少走弯路。最后,动手尝试魔改(Modify)现有的Demo,把某个功能改成你想要的样子,从模仿到创新,这是巩固知识的最佳途径。