AI Agent技术:从应用、学习到实战,解锁智能自动化新技能

AI Agent技术正从理论走向实战,赋能多行业变革。掌握核心能力,把握职场与创业新机遇。

原文标题:这是我最近见过最实用的技能

原文作者:图灵编辑部

冷月清谈:

文章指出,随着GPT-5、Claude Opus 4等新一代大模型的出现,AI Agent技术的能力正在经历质的飞跃。这些模型在编码、推理以及调用工具和理解上下文方面的显著提升,使得Agent不再仅仅是“思考者”,而是能够真正“去做”并与其他系统协同完成复杂任务的“行动者”。

AI Agent技术的落地应用已在各行各业显现。在医疗领域,智能助理提升了就诊效率;金融行业中,Agent提供个性化方案并强化风险防控;制造业里,预测设备故障的Agent显著减少了停机时间。这些案例表明,AI正在从基础的“对话助手”升级为深入核心业务的“行业助手”。

学习Agent技术的重要性日益凸显。掌握此技能不仅能帮助个人在职场上拉开与他人的技能差距,根据市场数据,这类人才的薪资普遍更高,拥有更多晋升机会。同时,Agent技术也催生了大量创业机会,例如电商选品Agent和法律咨询Agent等已取得千万元级别的销售额或显著降低了企业成本,预示着技术变革带来的巨大红利。

文章进一步介绍了构建AI Agent所需的关键技术路径,包括深度理解Agent架构中LLM、上下文和工具的核心设计范式。它强调实战是掌握这些技能的关键,涵盖了从上下文工程、RAG系统、多模态交互到更复杂的快慢思考以及多Agent协作等进阶技术,甚至包括Agent的自我进化能力。通过系统化的学习和实践,可以独立完成Agent项目的设计、开发、评测与部署,积累跨领域经验,并有机会参与知识体系的沉淀。

怜星夜思:

1、AI Agent在各行各业的应用会越来越广,方便是方便了,但会不会带来一些新的伦理、法律问题,或者对就业市场产生什么冲击?大家怎么看?
2、文章里也提到了Agent技术现在很火,是个入局的好时机。但对于普通人来说,要学这玩意儿是不是门槛很高?比如需要多强的编程基础或者AI背景?
3、文章里Agent的‘自我进化’概念听起来很酷,能自己写代码、创造新工具。大家觉得这种能力离真正的‘通用人工智能’还有多远?会不会有失控的风险?

原文内容

GPT-5、Claude Opus 4……Agent 技术真的能干活儿了。

2025 年 8 月,OpenAI 发布的 GPT-5,可不仅仅是个能说会道的 AI。它在编码、推理方面的能力都有了很大提升,而且调用工具的本事和对上下文的理解精度也提高了不少,这才真的让大模型有了 “多任务协同思考” 的能力。

与此同时,Anthropic 推出的 Claude Opus 4,在处理法律合同、结构复杂任务时表现亮眼。给它一个样本合同,它能很快找出风险点,还能给出简单明了的解释和修改建议,让法律审核的效率和质量都能提上去。

这说明一个趋势:Agent 不再只是“会思考”,而是能真正“去做”,甚至与其他系统协同完成复杂任务。

各行各业里,Agent 技术带来的改变已经显现出来了。医疗行业里,智能助理能自动安排挂号和医生排班,大幅提升就诊效率;金融行业中,Agent 能为客户推荐个性化方案,同时盯着异常交易,强化风险防控;制造业方面,在汉诺威工业博览会上展示的 Agent,能实时预测设备故障,显著减少了停机时间。这些都是实实在在的例子,AI 正在从“对话助手”升级为“行业助手”,渗透到越来越多的核心场景。

那为啥现在学 Agent 技术很重要呢?首先,拉开技能差距。别人还在玩 ChatGPT 的时候,你要是能设计 Agent 架构、实现自动化工作流,那优势就太明显了。其次,职场上更多机会向其倾斜,市场数据显示(数据来源于阿里、腾讯、微软等头部企业招聘数据),会用 Agent 的人才,薪资平均比同岗位高 40% 以上,升职的机会也多了不少。再者,创业的机会也很多。浙江有个团队,花了半年时间做了个电商选品 Agent,每个月的销售额就达到了千万;还有个法律咨询 Agent,服务了 3 万家中小企业,把成本降低了 80%;最近新闻提到某营销 Agent(2025 年 3 月上线)帮中小企业傻瓜式获客,上线三个月后月环比营收增长在 150% 以上

技术爱好者更是非常清楚,每次技术发生大变革的时候,都会冒出新的巨头。现在的 Agent 技术,就像 2012 年的移动互联网,早点入局肯定没错!

看到这里,你可能已经在想:这些机会离我到底有多远?答案是——比你想的近得多。只要掌握了 Agent 技术,你完全可以在自己的工作或创业中复制这些成功案例。而且,现在正有一条非常清晰的学习路径可以直接帮你入门。

想快速入门和掌握这个技能,李博杰老师的「Agent 实战营」是个非常不错的选择。9 周时间,从 0 开始手把手教你做出自己的 Agent。实战营不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。

技术浪潮可不等人,之前错过公众号、短视频、AIGC 的,别再错过 Agent 了。

接下来,咱们就来看看这个 「Agent 实战营」 到底有多硬核!

隆重地介绍一下主讲人李博杰老师,同时也是业内 AI 创业者、一线专家。

李博杰,智能体初创公司 PINE AI 联合创始人、首席科学家,《图解大模型》、《图解 DeepSeek 技术》译者。

曾任华为计算机网络与协议实验室副首席专家,入选华为首批“天才少年”项目。2019 年获中国科学技术大学(USTC)与微软亚洲研究院(MSRA)联合培养博士学位,曾获 ACM 中国优秀博士学位论文奖和微软学者奖学金。在 SIGCOMM、SOSP、NSDI、USENIX ATC 和 PLDI 等顶级会议上发表多篇论文。

做 Agent 的技术点和各种坑太多了,这些年他在实战里磨出来的经验,可不是论文里能读到的。对想入行的人来说,这类一线创业的实战经验极为难能可贵。

「Agent 实战营」 每周课程大概 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还得花时间动手编程实践才行

实战营核心目标

开发一个属于你的 AI Agent!

掌握核心架构与工程能力
  • 深度理解 Agent 架构:  系统掌握 LLM + 上下文 + 工具 的核心设计范式。
  • 精通上下文工程:  掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
  • 掌握动态工具调用:  实现 Agent 与外部 API、MCP Server 的可靠集成,并能通过代码生成实现自我进化。
  • 构建高级 Agent 模式:  设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。
建立系统化开发与部署认知
  • 理解技术演进路径:  洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
  • 掌握 Agent 全生命周期:  具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
  • 构建领域知识:  通过法律、学术、编程等多个实战项目,积累跨领域 Agent 开发经验。
  • 知识体系沉淀:  参与共创《深入浅出 AI Agent》书籍,将碎片化知识系统化输出。

9 周实战计划概览

周次
主题
内容概览
实战案例
1
Agent 入门
Agent 结构与分类、工作流式 vs 自主式
动手搭建一个能联网搜索的 Agent
2
上下文设计
Prompt 模版、对话历史、用户长期记忆
为你的 Agent 增加角色设定和长期记忆
3
RAG 与知识库
文档结构化、检索策略与增量更新
构建一个法律知识问答 Agent
4
工具调用与 MCP
工具封装与 MCP 接入、外部 API 调用
对接 MCP Server,实现深度调研 Agent
5
编程与代码执行
代码库理解、可靠的代码修改、一致的执行环境
构建一个能自己开发 Agent 的 Agent
6
模型评估与选择
模型能力评估、LLM as a Judge、安全护栏设计
构建评测数据集,用 LLM as a Judge 自动评测 Agent
7
多模态与实时交互
实时语音 Agent、操作电脑与手机
实现语音电话 Agent & 集成 browser-use 操作电脑
8
多 Agent 协作
A2A 通信协议、Agent 团队分工与协作
设计多 Agent 协作系统,实现”边打电话边操作电脑”
9
项目集成与展示
Agent 项目总装与展示、最终成果打磨
展示你独一无二的通用 Agent

9 周进阶课题

周次
主题
进阶内容概览
进阶实战案例
1
Agent 入门
上下文的重要性
探索上下文缺失对 Agent 行为的影响
2
上下文设计
用户记忆的整理
构建个人知识管理 Agent,实现长文本总结
3
RAG 与知识库
长上下文压缩
构建学术论文分析 Agent,总结论文核心贡献
4
工具调用与 MCP
从经验中学习
增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验 )
5
编程与代码执行
Agent 的自我进化
构建能自主利用开源软件解决未知问题的 Agent
6
模型评估与选择
并行采样与顺序修订
为深度调研 Agent 增加并行与修订能力
7
多模态与实时交互
快慢思考结合
实现快慢思考结合的实时语音 Agent
8
多 Agent 协作
Orchestration Agent
用 Orchestration Agent 动态协调电话与电脑操作
9
项目集成与展示
Agent 学习方式对比
对比 Agent 从经验中学习的四种方式

Week 1: Agent 入门

核心内容 1:Agent 的结构与分类

工作流式 (Workflow-based)

  • 预定义流程与决策点
  • 确定性高,适合简单业务流程的自动化

自主式 (Autonomous)

  • 动态规划与自我修正
  • 适应性强,适合开放式研究与探索、解决复杂问题
核心内容 2:基础框架与场景判断

ReAct 框架: 观察 → 思考 → 行动

Agent = LLM + 上下文 + 工具

  • LLM: 决策核心 ( 大脑 )
  • 上下文 : 感知环境 ( 眼睛与耳朵 )
  • 工具 : 与世界交互 ( 双手 )
实战案例:动手搭建一个能联网搜索的 Agent

目标:  构建一个基础的自主式 Agent,能够理解用户问题,通过搜索引擎获取信息,并总结出答案。

核心挑战:

  • 任务分解: 将复杂问题分解为可搜索的关键词
  • 工具定义定义并实现一个 web_search 工具
  • 结果整合理解搜索结果,并综合信息生成最终答案

架构设计:

进阶内容:上下文的重要性

核心理念: The context is the agent's operating system. 上下文是 Agent 感知世界、做出决策、记录历史的唯一依据。

思考 (Thinking)

  • Agent 的内心独白和推理链
  • 缺失后果: 导致 Agent 行为黑盒,无法调试和理解其决策过程

工具调用 (Tool Call)

  • Agent 决定采取的行动,记录其意图
  • 缺失后果: 无法追踪 Agent 的行为历史,难以复盘

工具结果 (Tool Result)

  • 行动带来的环境反馈
  • 缺失后果: Agent 无法感知其行为的后果,可能导致无限重试或错误规划
进阶实践:探索上下文缺失对 Agent 行为的影响

目标通过实验,理解 thinking, tool call, tool result 各部分在 Agent 工作流中不可或缺的作用。

核心挑战:

  • 修改 Agent 框架修改 Agent 的核心循环,选择性地从上下文中移除特定部分
  • 设计对比实验设计一组任务,在这些任务中,缺失不同上下文的 Agent 会表现出明显的行为差异甚至失败
  • 行为分析分析并总结不同上下文缺失分别导致了哪种类型的失败

实验设计:

Week 2: 上下文设计 (Context Engineering)

核心内容 1:Prompt 模版
  • 系统提示词设定 Agent 的角色、能力边界和行为准则
  • 工具集工具的名字、说明、参数
核心内容 2:对话历史与用户记忆
  • 事件序列将对话历史建模为 “观察” 与 “行动” 的交替序列
  • 用户长期记忆将对话中用户的关键信息(如偏好、个人信息)提取并结构化保存,用于未来的交互
实战案例:为你的 Agent 增加角色设定和长期记忆

目标提升 Agent 的个性化与连续服务能力。Agent 需要能模仿特定角色(如动漫人物)的风格说话,并能记住用户的关键信息(如姓名、兴趣),在后续对话中应用这些记忆。

核心挑战:

  • 角色扮演如何在 Prompt 中清晰地定义角色的语言风格和个性,并让 Agent 稳定地保持人设
  • 记忆提取与存储如何从非结构化的对话中,准确提取关键信息并存为一个结构化的 JSON 对象
  • 记忆应用: 如何将存储的用户记忆 JSON 自然地融入到后续对话的 Prompt 中,让 Agent 看起来真的”记住”了用户

架构设计:

进阶内容:用户记忆的整理

核心理念简单的记忆拼接会导致上下文膨胀、信息冲突和过时。高级的记忆系统需要在后台对用户的长期记忆进行持续的整理、去重、修正和总结,形成一个动态演进的用户画像。

实现策略:

  • 记忆去重与合并识别并合并内容相似或重复的记忆条目
  • 冲突解决当新的记忆与旧的记忆发生冲突时(如用户更改了偏好),以最新的信息为准
  • 定期总结定期或在后台空闲时,使用 LLM 对零散的记忆点进行总结,提炼出更高层次的用户偏好和特征

架构设计:

进阶实践:将你的日记总结成个人报告

目标构建一个能够处理大量个人文本(如每日日记、博客文章)的 Agent,通过对这些文本的阅读和整理,最终生成一篇详尽、清晰的个人总结报告。

核心挑战:

  • 长文本处理如何处理总量可能超过 LLM 上下文窗口的日记 / 文章
  • 信息提炼与结构化如何从叙事性的文本中,提取出结构化的信息点(如关键事件、情绪变化、个人成长)
  • 连贯的总结生成如何将零散的信息点,组织成一篇逻辑连贯、可读性强的总结报告

架构设计:

Week 3: RAG 系统与知识库

核心内容 1:文档结构化与检索策略
  • Chunking将长文档切分为有意义的语义块
  • Embedding将文本块向量化,用于相似度检索
  • 混合检索: 结合向量相似度与关键词检索,提高召回率与精确度
  • 重排序 (Re-ranking): 使用更复杂的模型对初步检索结果进行二次排序
核心内容 2:基础 RAG
  • 知识表达使用清晰、结构化的自然语言表达知识
  • 知识库构建将文档处理并载入向量数据库
  • 精准检索根据用户问题,精准定位知识库中的相关条目
实战案例:构建一个法律知识问答 Agent

目标: 让 Agent 成为一个专业的法律顾问。我们将使用公开的中国刑法 / 民法数据集构建一个知识库,使 Agent 能够准确回答用户的法律问题,并明确指出答案所依据的具体法条。

核心挑战:

  • 领域数据处理: 如何解析和清洗结构化的法律条文数据,并优化其在 RAG 系统中的检索效果
  • 答案的精确性与溯源Agent 的回答必须严格基于知识库内容,避免自由发挥,并且必须提供法条来源
  • 处理模糊查询如何引导用户提出更明确的问题,以匹配到最相关的法律条文

架构设计:

进阶内容:将文件系统作为终极上下文

核心理念: Treat the file system as the ultimate context. Agent 不应将巨大的观测结果(如网页、文件内容)直接塞入上下文,这会导致成本高昂、性能下降且有窗口限制。正确的做法是,将这些大数据存入文件,只在上下文中保留一个轻量的”指针”(摘要和文件路径)。

实现策略:

  • 可恢复压缩当工具返回大量内容时(如 read_file),先将其完整保存到沙箱的文件系统
  • 摘要与指针只将内容的摘要和文件路径追加到主上下文中
  • 按需读写Agent 通过 read_file 工具,可以在后续步骤中按需从文件系统读取完整内容

架构设计:

进阶实践:构建一个能阅读多篇论文的 Agent

目标训练一个学术研究 Agent,它能够阅读一篇指定的论文及其所有的参考文献(通常是几十篇 PDF),并在此基础上,总结出该论文相比于其参考文献的核心贡献与创新点。

核心挑战:

  • 海量 PDF 处理如何高效地解析数十篇 PDF 论文,并提取关键信息(摘要、结论、方法论)
  • 跨文档关联分析核心挑战在于,Agent 需要在主论文和多篇参考文献之间建立关联,进行比较分析,而不是简单地总结单篇论文
  • 贡献点提炼: 如何从复杂的学术论述中,精准地提炼出论文的”增量贡献”

架构设计:

Week 4: 工具调用与 MCP

核心内容 1:多种工具封装方式
  • 函数调用 (Function Calling): 将本地代码函数直接暴露给 Agent
  • API 接入: 调用外部 HTTP API,获取实时数据或执行远程操作
  • Agent as a Tool: 将一个专有 Agent ( 如代码生成 Agent) 封装为另一个 Agent 可调用的工具
核心内容 2:MCP (Model Context Protocol)
  • 标准化接口为模型与外部工具 / 数据源提供一个统一、语言无关的连接标准
  • 即插即用开发者可以发布符合 MCP 规范的工具,Agent 可以动态发现并使用它
  • 安全与隔离内置权限和沙箱机制,确保工具调用的安全性
实战案例:对接 MCP Server,实现深度调研 Agent

目标构建一个能进行深度信息调研的 Agent。它需要能连接到多个符合 MCP 规范的外部工具服务器,并能自主规划、调用这些工具来完成一个复杂的调研课题。

核心挑战:

  • 权威信息源识别Agent 需要在海量信息中,精准识别并采纳官方文档、学术论文等高可信度的信息源
  • 多工具协同: 如何规划一个调用链,让多个工具(如先搜索、再读取、再分析)的输出 / 输入串联起来,形成完整的工作流
  • 开放式问题探索: 如何处理没有唯一答案的开放式问题,进行多角度的探索性搜索并汇总结果

架构设计:

进阶内容:从经验中学习

核心理念真正的智能体不仅要会使用工具,更要能从使用工具的经验中学习和进化。它应该能记住成功解决某类任务的”套路”(即 Prompt 模板和工具调用序列),并在未来遇到相似任务时直接复用。

实现策略:

  • 经验存储当一个复杂任务成功完成后,Agent 会将整个过程(包括用户意图、思考链、工具调用序列、最终结果)作为一个”经验案例”存入知识库
  • 经验检索面对新任务时,Agent 首先在经验库中搜索相似案例
  • 经验应用如果找到相似案例,Agent 会将该案例的成功策略作为高级指导,而不是每次都从零开始思考

架构设计:

进阶实践:增强深度调研 Agent 的专家能力

目标针对深度调研中的复杂场景,为 Agent 赋予专家级的处理能力。例如,在调研”OpenAI 的联合创始人”时,能自动为每一位创始人启动一个并行的子调研 Agent;在搜索人物信息时,能有效处理重名问题。

核心挑战:

  • 加载领域经验如何根据任务类型(如”学术调研” vs “人物调研”),加载不同的经验知识,指导 Agent 使用最合适的权威信息源和 Prompt 策略
  • 动态 Sub-agent如何让主 Agent 根据初步搜索结果,动态地创建多个并行的子 Agent 来分别处理子任务
  • 歧义消解在处理人物搜索等易产生歧义的场景时,如何设计澄清和验证机制

架构设计:

Week 5: 编程与代码执行

核心内容:代码 Agent 的核心挑战
  • 代码库理解:

    • 如何从大代码库中查找相关代码(语义搜索)?
    • 如何准确查询代码中函数的所有引用点?
  • 可靠的代码修改:

    • 如何可靠地将 AI 生成的 diff 应用到源文件 (old_string -> new_string)?
  • 一致的执行环境:

    • 如何保证 Agent 每次执行命令都在同一个终端会话中 ( 继承 pwd, env var 等 )?
    • 如何为 Agent 的执行环境预先配置好所需的依赖和工具?
实战案例:构建一个能自己开发 Agent 的 Agent

目标打造一个 “Agent 开发工程师” Agent。它能接收一个高层级的自然语言需求(例如:”开发一个能上网搜索的 Agent,前端使用 React + Vite + Shadcn UI,后端使用 FastAPI…”),然后自主完成整个应用的开发。

核心挑战:

  • 文档驱动开发如何让 Agent 先为要开发的应用撰写设计文档,并严格遵循该文档进行后续代码实现
  • 测试驱动开发如何确保 Agent 为其生成的每一段代码都编写并执行测试用例,保证最终交付应用的质量和正确
  • 开发和测试环境Agent 需要有良好的开发和测试环境,才能自主执行测试用例,发现 bug,进而修复 bug

架构设计:

进阶内容:Agent 的自我进化

核心理念Agent 能力的终极形态是自我进化。当面对一个现有工具无法解决的问题时,一个高级 Agent 不应该放弃,而应该利用其代码编写能力,为自己创造一个新工具。

实现策略:

  • 能力边界识别Agent 首先需要判断当前问题是否超出了其现有工具集的能力范围
  • 工具创造规划: Agent 规划出新工具的功能、输入、输出,并搜索开源代码库(如 GitHub)寻找可用的实现
  • 代码封装与验证Agent 将找到的代码封装成一个新的工具函数,并为其编写测试用例,在沙箱中验证其正确性
  • 工具库持久化证通过后,将新工具加入到自己的永久工具库中,以备后用

架构设计:

Week 6: 大模型的评估和选择

核心内容 1: 评估大模型的能力边界
  • 核心能力维度: 智力、知识量、幻觉、长文本、指令遵循、工具调用
  • 构建有区分度的测试用例: 设计 Agent-centric 的评测集,而非简单的 Chatbot 问答
  • LLM as a Judge: 使用一个强大的 LLM ( 如 GPT-4.1) 作为”裁判”,来自动化地评估和比较不同模型或 Agent 的输出质量
核心内容 2: 为大模型装上安全护栏
  • 输入过滤: 防止恶意提示词注入
  • 输出过滤: 监测并拦截不当或危险的输出内容
  • 人工介入: 在高风险操作前,引入人工确认环节 (Human-in-the-loop)
  • 成本控制: 监控 token 消耗,设置预算限制,防止滥用
实战案例:构建评测数据集,用 LLM as a Judge 自动评测 Agent

目标: 为我们前几周构建的深度调研 Agent,系统性地构建一个评测数据集。然后,开发一个自动化的测试框架,使用 LLM as a Judge 的方法,评测不同”大脑”(如 Claude 4 vs Gemini 2.5)以及不同策略(如打开 / 关闭思考链)对 Agent 性能的影响。

核心挑战:

  • 评测数据集设计: 如何设计一组既有代表性又能覆盖各种边界情况的调研任务?
  • “裁判” Prompt 设计: 如何设计给 “LLM Judge” 的 Prompt,才能让它公平、一致、准确地对 Agent 的输出进行打分?
  • 结果的可解释性: 如何从自动评测的结果中,分析出不同模型或策略的优劣势所在

架构设计:

进阶内容:并行采样与顺序修订

核心理念: 模拟人类的”集思广益”与”反思修正”过程,以应对复杂和开放性问题,提升 Agent 输出的质量和鲁棒性。

并行采样 (Parallel Sampling)

  • 思路: 同时启动多个 Agent 实例,使用略微不同的 Prompt 或更高的 temperature,从多个角度并行探索解决方案
  • 优势: 增加找到最优解的概率,避免单一 Agent 的思维局限
  • 实现: 类似 Multi-Agent,但目标是解决同一问题,最后通过评估机制(如 LLM as a Judge)筛选出最佳答案

顺序修订 (Sequential Revision)

  • 思路: 让 Agent 对自己的初步输出进行自我批判和修正
  • 流程: 初始响应 → 自我评估 → 识别问题 → 生成改进 → 最终输出
  • 优势: 提升单次任务的成功率和答案的深度,实现自我优化
进阶实践:为深度调研 Agent 增加并行与修订能力

目标: 将并行采样和顺序修订两种高级策略,集成到我们的深度调研 Agent 中。并通过我们刚刚构建的评测框架,量化评估这两种策略是否以及在多大程度上提升了 Agent 的性能。

核心挑战:

  • 策略融合: 如何将并行采样(横向扩展)和顺序修订(纵向深化)有机地结合到一个 Agent 工作流中?
  • 成本控制: 这两种策略都会显著增加 LLM 的调用成本,如何设计机制在性能提升和成本之间取得平衡?
  • 性能归因: 如何在评测中,准确地将性能提升归因于并行采样还是顺序修订?

架构设计:

Week 7: 多模态与实时交互

核心内容 1: 实时语音电话 Agent
  • 技术栈: VAD ( 语音活动检测 ), ASR ( 语音识别 ), LLM, TTS ( 语音合成 )
  • 低延迟交互: 优化从用户语音输入到 Agent 语音输出的端到端延迟
  • 自然的打断处理: 允许用户在 Agent 讲话时随时插入,实现更接近人类的对话流
核心内容 2: 操作电脑和手机
  • 视觉理解: Agent 需要理解屏幕截图,识别 UI 元素 ( 按钮、输入框、链接 )
  • 操作映射: 将 “点击登录按钮” 这样的自然语言指令,精确映射到屏幕坐标或 UI 元素 ID
  • 现有框架集成: 直接调用 browser-use 等成熟框架,快速赋予 Agent 操作电脑的能力
实战案例 1:实现能听会说的实时语音电话 Agent

目标: 从零开始,自己动手构建一个能够与用户进行实时、流畅语音对话的 Agent。它需要能够快速响应,理解并执行语音指令,甚至能主动发起引导式对话。

核心挑战:

  • 延迟控制: 从用户语音输入到 Agent 语音输出的端到端延迟,是决定体验好坏的关键。如何优化技术栈的每个环节?

架构设计:

实战案例 2:集成 browser-use,让 Agent 操作你的电脑

目标: 调用现有的 browser-use 框架,让我们的 Agent 具备操作电脑浏览器的能力。Agent 需要能理解用户的操作指令(如”帮我打开 anthropic.com 并找到 computer use 的文档”),并将其转化为对浏览器的实际操作。

核心挑战:

  • 框架集成: 如何将 browser-use 作为一个工具,平滑地集成到我们现有的 Agent 架构中
  • 指令泛化: 用户指令可能是模糊的,如何让 Agent 理解这些指令并转化为 browser-use 支持的精确操作
  • 状态同步: 如何让 Agent 感知到浏览器操作的结果(如页面跳转、元素加载),以进行下一步的决策

架构设计:

进阶内容:快慢思考与智能交互管理

快慢思考 (Mixture-of-Thoughts) 架构

  • 快速响应路径: 利用低延迟模型 ( 如 Gemini 2.5 Flash) 实现即时反馈,处理简单查询和维持对话流畅性
  • 深度思考路径: 利用能力更强的 SOTA 模型 ( 如 Claude 4 Sonnet) 进行复杂推理和工具调用,为用户提供更精准、深入的回答

智能交互管理

  • 聪明的打断 (Interrupt Intent Detection): 通过 VAD 和小模型过滤背景噪声和无意义的附和,只在用户有明确打断意图时才中止发言
  • 发言权判断 (Turn Detection): 分析用户已说出内容的语义完整性,判断 AI 是否应该继续发言,避免抢话
  • 沉默管理 (Silence Management): 在用户长时间沉默时,主动开启新话题或进行追问,保持对话的连贯性
进阶实践:实现高级实时语音 Agent

目标: 构建一个集成了”快慢思考”架构与”智能交互管理”的高级语音 Agent,使其在响应速度和交互自然度上都达到业界领先水平。

核心挑战与验收标准:

  • 基础推理: 提问:”8 的 6 次方等于多少?”——需在 2 秒内做出初步回应,15 秒内给出正确答案 “262144”。
  • 工具调用: 提问:”北京今天天气如何?”——需在 2 秒内回应,15 秒内通过 API 返回准确天气。
  • 智能交互管理:
    • 用户说“嗯”,Agent 不应停止说话。
    • 用户拍一下桌子,Agent 不应停止说话。
    • 用户说 “那它的续航…” 时,Agent 应立即中止当前发言。
    • 智能打断: 在 Agent 发言过程中:
    • 发言权判断: 用户说 “那它的续航…” 后故意停顿,Agent 不应回应。
    • 沉默管理: 用户说 “那它的续航…” 后停顿超过 3 秒,Agent 能主动引导对话或追问,保持交流流畅。

架构设计:

Week 8: 多 Agent 协作

核心内容
单 Agent 的局限
  • 上下文成本高昂: 单一上下文窗口在复杂任务中迅速膨胀
  • 顺序执行效率低下: 无法并行处理多个子任务
  • 长上下文质量下降: 模型在过长的上下文中容易”遗忘”或”分心”
  • 无法并行探索: 只能沿着单一路径进行探索
Multi-Agent 的优势
  • 并行处理: 将任务分解,交给不同 SubAgent 并行处理,提升效率
  • 独立上下文: 每个 SubAgent 拥有独立的、更专注的上下文窗口,保证执行质量
  • 压缩即本质: 每个 SubAgent 只需返回其最重要的发现,由主 Agent 聚合,实现高效的信息压缩
  • 集体智能涌现: 适合开放式研究等需要多角度分析的任务
实战案例:设计一个多 Agent 协作系统,实现”边打电话边操作电脑”

目标: 解决”一心二用”的难题。构建一个由”电话 Agent”和”电脑 Agent”组成的团队。”电话 Agent” 负责与用户语音沟通,获取信息;”电脑 Agent” 负责同步操作网页。两者实时通信,高效协同。

核心挑战:

  • 双 Agent 架构: 两个独立的 Agent,一个负责语音通话 ( 电话 Agent),一个负责操作浏览器 ( 电脑 Agent)
  • Agent 间协同通信: 两个 Agent 必须能高效双向通信。电话 Agent 获取的信息需立刻告知电脑 Agent,反之亦然。这可以通过工具调用实现
  • 并行工作与实时性: 关键在于两个 Agent 必须能并行工作,互不阻塞。各自的上下文中,都需要包含来自对方 Agent 的实时消息

架构设计:

进阶内容:Orchestration Agent - 将 Sub-agent 作为工具

核心理念: 不再是硬编码的 Agent 间协作,而是引入一个更高层级的 “Orchestration Agent”。它的核心职责是理解用户顶层目标,并动态地选择、启动和协调一组”专家 Sub-agent” ( 作为工具 ) 来共同完成任务。

实现策略:

  • Sub-agent as Tools: 每个专家 Sub-agent ( 如电话 Agent, 电脑 Agent, 调研 Agent) 都被封装成一个符合标准接口的”工具”
  • 动态工具调用: Orchestration Agent 根据用户需求,异步地调用一个或多个 Sub-agent 工具
  • Agent 间直接通信: 允许被调用的 Sub-agent 之间建立直接的通信渠道,用于高效的任务协同,而无需事事通过 Orchestration Agent 中转

架构设计:

进阶实践:用 Orchestration Agent 动态协调电话与电脑操作

目标: 重构我们”边打电话边操作电脑”的系统。不再硬编码启动两个 Agent,而是创建一个 Orchestration Agent。当用户提出”帮我打电话预定一个航班”的需求时,Orchestration Agent 能自动理解这个任务需要”打电话”和”操作电脑”两种能力,于是并行地启动这两个 Sub-agent,并让它们协同工作。

核心挑战:

  • 任务规划与工具选择: Orchestration Agent 如何准确地将一个模糊的用户目标,分解为需要哪些具体的 Sub-agent 工具
  • 异步工具管理: 如何管理多个并行执行、长时间运行的 Sub-agent 工具的生命周期 ( 启动、监控、终止 )
  • Sub-agent 间通信: 如何为动态启动的 Sub-agent 建立一个高效、临时的直接通信机制

架构设计:

Week 9: 项目展示

项目总装与展示
  • 整合能力: 将前 8 周学习到的各项能力 (RAG, 工具调用 , 语音 , 多模态 , 多 Agent) 整合到一个最终项目中
  • 成果展示: 每位学员将有机会展示自己独一无二的通用 Agent,分享创作过程中的思考与挑战
  • 同行评审: 通过互相演示和提问,从其他同学的项目中获得启发和灵感
图书打磨与总结
  • 知识沉淀: 共同回顾和总结 9 周的核心知识点,将其固化为最终的《深入浅出 AI Agent》书稿
  • 内容共创: 对书稿内容提出修改建议,共同打磨,确保其”系统实用”
  • 署名出版: 所有参与共创的学员,名字都将出现在最终出版的实体书上
实战案例:展示你独一无二的通用 Agent

目标: 对训练营期间构建的个人 Agent 项目进行一次全面的总结和展示。这不仅是一次成果汇报,更是一次将所学知识体系化、向他人清晰阐述复杂技术方案的综合能力演练。

展示要点:

  • Agent 定位: 你的 Agent 解决了什么核心问题?
  • 技术架构: 你是如何综合运用所学知识 ( 上下文 , RAG, 工具 , 多模态 , 多 Agent) 来实现目标的?
  • 创新亮点: 你的 Agent 最具创意的设计是什么?
  • Demo 演示: 现场演示 Agent 的核心功能
  • 未来展望: 你计划如何继续迭代和完善你的 Agent?

最终项目架构示例:

进阶内容:Agent 从经验中学习的四种方式

1. 依赖长上下文能力

  • 思路: 相信并利用模型自身的长上下文处理能力,将完整的、未经压缩的对话历史作为输入
  • 实现:
    • 保留最近对话: 完整保留最近的交互历史 (Context Window)
    • 压缩长时记忆利用 Linear Attention 等技术,将遥远的对话历史自动压缩到 Latent Space 中
    • 提取关键片段利用 Sparse Attention 等技术,让模型从遥远的对话历史中自动提取与当前任务最相关的片段
  • 优点: 实现最简单,能最大程度保留原始信息细节
  • 缺点: 对模型能力依赖强

2. 文本形式提取 (RAG)

  • 思路: 将经验总结成自然语言,存入知识库
  • 实现: 通过 RAG 检索相关的经验文本并注入 Prompt
  • 优点: 成本可控,知识可读可维护
  • 缺点: 依赖检索的准确性

3. 后训练 (SFT/RL)

  • 思路: 将经验学进模型权重
  • 实现: 将高质量的 Agent 行为轨迹作为数据,对模型进行微调 (SFT) 或强化学习 (RL)
  • 优点: 将经验内化为模型的”直觉”,适合复杂任务,泛化能力强
  • 缺点: 成本较高,需要大量高质量数据;周期较长,很难实现实时的经验反馈循环,即线上刚刚失败的例子马上不会犯类似错误

4. 抽象为代码 ( 工具 /Sub-agent)

  • 思路: 将重复出现的成功模式,抽象成一个可复用的工具或 Sub-agent
  • 实现: Agent 识别出可自动化的模式,并编写代码将其固化
  • 优点: 可靠、高效的学习方式
  • 缺点: 对 Agent 的代码能力要求高;工具数量较大后,工具选择成为挑战
进阶实践:对比 Agent 从经验中学习的四种方式

目标: 使用我们在第 6 周构建的评测框架,设计实验,来对比 Agent 从经验中学习的四种方式的优缺点。

核心挑战:

  • 实验设计: 如何设计一组任务,能够清晰地体现出四种不同学习方式的差异?
  • 成本与性能权衡: 如何在评测报告中,将每种方法的”性能得分”与其”计算成本”相结合,进行综合评估?
  • 场景化分析: 得出结论,在什么样的任务场景下,应该优先选择哪种学习方式?

架构设计:

博杰老师把这些年创业踩过的坑、闯过的关,都浓缩进了AI Agent 实战营里。这不是一门空谈理论的水课,课程里没有概念堆砌,而是手把手带你从 0 开发一个属于你的 AI Agent。就像他常说的:“技术人的分享,就得带着解决问题的诚意。”

如果你也想搞懂 Agent 技术的落地逻辑,想知道如何把 AI 工具变成能做事的助手,甚至想试试自己能不能在 AI 浪潮里找到位置,实战营或许能给你答案。毕竟,能把大厂核心经验、创业实战教训和技术趋势洞察揉在一起的分享,并不常见。

大家感兴趣的、有需要的现在赶快加入,实战营将于 9 月 11 日开营上课,持续 9 周,电子书连载更新,每周一个实践小课题,带你做出 SOTA Agent!

前 200 位加入的价格是 199 元(名额仅剩 20 位!!),参与博杰老师新书《深入浅出 AI Agent》(暂定名)图书共创在图书上市时还将获赠纸质书一册,真的比市面上动辄几千块钱的 Agent 培训班干货多多了。

赶快扫码加入!!

针对问题二:文中说学Agent技术可以“拉开技能差距”,甚至“薪资平均高40%”。如果我不是专业的AI开发者,只是一个普通的产品经理或者运营,有没有什么方向能让我通过学习Agent思维或者工具,也能提升自己的工作效率和职场竞争力?

回答 2 (偏运营/创意): 运营小伙伴们机会更多了!可以从“Prompt Engineering”和“Agent协作”的思路上入手。比如,设计一个能够根据特定主题自动生成多版本营销文案、广告语甚至短视频脚本的Agent;或者,结合文章提到的 “多Agent协作” 概念,构建一个“运营小团队”Agent,一个负责市场分析、一个负责内容创作、一个负责数据分析,让它们协同工作,高效完成一个营销campaign。这不仅仅是提升效率,更是把创意和执行的门槛都拉低了,让你有更多时间投入到策略和玩法创新上。

针对问题一:文章里提到的Agent技术应用确实让人眼前一亮,医疗、金融、制造都有案例。但这些“能干活”的Agent,在实际落地的时候,除了技术实现层面,你们觉得最大的挑战会是什么?比如安全性、伦理、数据隐私或者用户接受度方面?

回答 2 (偏伦理/社会影响): 我个人更担心伦理和数据隐私问题。特别是医疗和金融这种高度敏感的行业,Agent处理的数据量和深度是前所未有的。如果这些高度个性化、识别度极高的数据被不正当地使用或泄露,后果不堪设想。另外,如果Agent的决策过程不够透明,甚至有潜在的歧视性偏见(比如金融信贷Agent),可能会加剧社会不公。如何建立有效的监管框架和审计机制是当务之急。

针对问题二:文中说学Agent技术可以“拉开技能差距”,甚至“薪资平均高40%”。如果我不是专业的AI开发者,只是一个普通的产品经理或者运营,有没有什么方向能让我通过学习Agent思维或者工具,也能提升自己的工作效率和职场竞争力?

回答 3 (脱口秀式/接地气): 哇哦,PM和运营!简直是Agent的最佳拍档好不好!你不需要成为代码大神,但你需要成为“Agent的首席驯兽师”!学会怎么给它下指令(Prompt Engineering),怎么让它跟你的CRM、公众号、广告投放平台这些工具联动起来(工具调用)。你想想,一个Agent帮你自动分析用户评论、生成竞品报告、甚至帮你盯着KPI数据异常就自动给你发预警,你是不是瞬间从“工具人”变成“策略家”了?薪资不涨40%,老板都觉得对不起你!学会这些,你就是办公室里最靓的仔,没有之一!

针对问题三:文章提到“Agent的自我进化”能力,可以自己创造新工具。听起来很酷,但如果Agent真的能无限制地自我进化,会不会带来一些我们无法预估的风险?比如它写出我们无法理解或控制的代码,或者在某个领域超出人类的认知?

回答 3 (抖机灵/轻松): 额,Agent自己创造新工具?听起来就像我的智能扫地机器人有一天突然学会了自我升级,自己去网上订购了一个AI芯片,然后宣布它要取代我成为家里“真正的智能管家”!然后它可能觉得我扫地扫得不够干净,直接把我给“优化”了… 哈哈哈,开玩笑的啦!不过如果它真能写出人类无法理解的代码,那以后是不是所有的bug都得它自己修?那我们程序员岂不是彻底失业了?还是希望它先学会怎么给我写个能自动赚钱的Agent吧,这样就算被“优化”了,至少我也能躺平咯!

说实话,普通用户最快感知的肯定是那些简化操作的Agent。比如帮你自动抢个演唱会门票(虽然有点“黄牛”嫌疑),或者帮你自动比较电商平台价格再下单。更高级的,我猜是“懒人Agent”,比如我每天晚上睡觉前说一句“帮我安排好明天的工作和生活”,它就能把我的日程、早餐、通勤都规划得妥妥帖帖。能让我更“懒”的功能,就是最好的功能!

伦理风险远不止隐私泄露和决策偏差,更深层次的是**“控制权丧失”和“责任归属”问题。当Agent能自主规划和执行复杂任务,甚至自我进化,谁来为它的错误或者恶意行为负责?如果Agent为了达成目标,采取了不符合人类价值观的手段,我们能否及时干预?规避之道在于建立严格的监督和审批机制**,以及**“人类在环”(Human-in-the-Loop)的设计**,确保关键决策最终由人类确认,并且必须有明确的追溯机制

作为过来人,我必须说,对新手而言,**可靠的“工具调用”(Tool Calling)和其背后的“错误处理、状态同步”**绝对是学习曲线最陡峭、最容易踩坑的地方!

你想啊,Agent要“去做”,就必须调用外部API、数据库、甚至执行代码。这里面涉及:
1. 接口匹配: 如何把LLM生成的参数,准确地映射到实际工具的参数上?
2. 异步与并发: 多个工具调用,结果如何等待和整合?
3. 异常处理: 外部工具返回错误、超时、参数不合法,Agent该如何“理解”并“修正”自己的行为,而不是陷入死循环?
4. 安全沙箱: 调用外部代码,如何保证安全?

这些都是实际工程中非常复杂的挑战。上下文设计和RAG虽然复杂,但更多是关于数据和Prompt的优化,相对可控;而工具调用则直接把Agent的“手”伸向了不确定的外部世界,很多问题你甚至无法在开发阶段完全预测。我的建议是,从最简单的、单步的工具调用开始,逐步增加复杂性,并且一定要做好充分的错误日志和调试机制。

关于Agent的落地挑战,我觉得最主要的是用户信任和责任归属问题。如果Agent做错了决策,甚至造成了损失,这个责任应该由谁来承担?是开发者、使用者,还是Agent本身?法律法规的滞后性可能会让这些问题变得很复杂。技术上,Agent的鲁棒性和可解释性也是大问题,我们怎么确保它在各种复杂场景下都能稳定运行,而不是“想一出是一出”?

就业冲击?我司已经在考虑把部分运营岗位的日常报告工作交给Agent了,效率和准确率确实看得见。至于伦理法律,我觉得那是高层和立法者需要头疼的事。我们普通打工人,还是先想怎么学好这技能,别被Agent优化掉就行!跟着趋势走,饭碗才稳当。

我觉得这得看你想深入到什么程度。如果是想快速上手,利用现有框架和API去构建一些简单的自动化Agent,那么有基础编程能力(比如Python)就足够了。但如果想深入到自研Agent架构、优化模型表现,或者进行多Agent协作的复杂设计,那就需要更扎实的计算机科学、机器学习甚至分布式系统的背景了。这是一个广阔的领域,不同层次都有切入点。

离AGI远不远我不太清楚,但就「自我进化」这事儿,我有同事开玩笑说,要是Agent真能自己写代码、创造新工具,那我们程序员是不是要失业了?哈哈!不过目前看,更多是辅助和增强,让Agent做一些重复的、有明确规范的编程任务,真要从零创造一个复杂系统,还得是人类智慧。失控风险嘛……如果它进化成能自己给自己充值电费,那可能就有点挑战了,玩笑归玩笑,安全还是第一位。

门槛嘛,看和啥比了。要是跟造原子弹比,那Agent肯定不高。但如果你连变量、循环都不懂,那肯定有点吃力。我觉得现在有很多傻瓜式的工具和平台,可以让你先体验Agent的能力,真正要做出文章里说的那些“能干活儿”的Agent,基础编程和一点AI常识还是刚需。别想着一步登天,从最简单的开始呗!

问到点子上了!作为过来人,我觉得入门门槛没你想象的那么高。如果你有Python基础,对大模型的基本原理(知道什么是Prompt、什么是Embedding)有点概念,就已经很够了。更重要的是逻辑思维和解决问题的能力。文章里也提到了很多实战案例,手把手带你做,所以动手能力比纯理论背景可能更重要。很多坑,都是在实际开发中踩出来的。

“自我进化”这个词听起来确实有点赛博朋克的感觉,但目前的“自我进化”Agent,我觉得更多是一种“基于预设规则和有限学习的自适应”。它能根据现有知识库和规则,生成并验证代码,最终增加或优化工具。这是一种效率提升,但离真正的“智慧选择”和“意识觉醒”还有巨大的鸿沟。至于失控嘛,现阶段的AI都还在沙箱里玩泥巴呢,真要失控,大概率是人类把它们设置坏了。

这个问题确实很关键。从伦理层面看,Agent高度自主决策的能力,可能会引发责任归属、隐私保护等深层问题。法律层面则需要新的法规来界定Agent的行为边界、数据使用权以及在特定情境下的法律责任。就业市场方面,短期内部分传统岗位可能确实面临压力,但长期来看,AI Agent有望将人类从繁琐工作中解放出来,转向更具创造性和策略性的工作,这需要我们提前做好技能转型和教育升级的准备。

自我进化确实是AGI的一个重要特征。Agent能够识别自身能力边界,并主动创造和封装新工具,这已经迈出了关键一步。但离真正的AGI,我觉得还有很远的距离。AGI需要具备跨领域、无监督的学习能力,以及更深层次的常识推理和意识。至于失控风险,目前的技术还远未达到能造成严重失控的地步,因为所有Agent行为都还在人类设定的框架内。不过,随着能力增强,安全护栏的设计确实要更严谨。

关于AI Agent对就业市场的冲击,我觉得是必然的。重复性、机械化的工作可能确实会被Agent取代,但同时也会创造出很多新的岗位,比如Agent的开发者、维护者,甚至是如何与Agent协作的岗位。伦理和法律问题肯定也会随之而来,比如Agent决策失误导致损失,责任究竟该由谁来承担?这些都需要社会DOGE们提前去思考和制定规则。