OpenAI重磅发布Agent：ChatGPT从“嘴替”变“行动派”，效率飙升！

turingbooks · 2025 年7 月 18 日 19:44

OpenAI发布全新“ChatGPT Agent”，从语言到行动全面升级，整合浏览、分析、生成能力，大幅提升工作效率与精准度。同时推荐多本大模型学习经典，助你掌握核心技术。

原文标题：OpenAI 发布新 Agent！推荐几本大模型开发经典图书！

原文作者：图灵编辑部

原文链接： http://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649836699&idx=1&sn=1ec82115c99f48b2a30754c49f902aa9&

冷月清谈：

文章宣布OpenAI推出全新智能体“ChatGPT Agent”，标志着ChatGPT从传统的语言理解和生成，全面升级为具备自动化操作能力的“行动派”。这款Agent首次整合了OpenAI的三大核心能力：Operator（网页浏览与操作）、Deep Research（多步骤推理与信息综合分析）以及ChatGPT（强大的语言理解与生成），使其能够自动完成查资料、点击页面、填表、写代码、做PPT乃至总结报告等复杂任务。

尽管国内外已有类似智能体产品，但ChatGPT Agent在执行质量上表现出色，尤其在策略方案、自动比价和下单等复杂流程中的效率和准确度令人称道。评测数据显示，在模拟投行财务建模和Excel电子表格处理任务中，Agent模型的准确率显著超越GPT-4o，甚至可与Copilot媲美，在真实浏览任务中也接近人类水平。

安全性是其设计的重要考量。Agent在每一步关键操作前会征求用户同意，允许用户随时中止、修改或接管任务，并实时展示执行步骤，确保操作透明可控，用户始终掌握主导权。

目前，Plus用户已可在ChatGPT工具栏中启用Agent模式，以提升工作效率。此外，文章还重点推荐了多本大模型开发领域的经典实用书籍，涵盖AI智能体技术、MCP协议、大模型应用开发、原理与实战、从零构建大模型、技术进阶以及RAG等方向，旨在为读者提供全面的学习资源，帮助他们深入理解大模型背后的技术原理和实践应用。这些书籍旨在帮助读者从基础到进阶，系统掌握相关知识，并附有共学营信息，鼓励读者共同学习进步。

怜星夜思：

1、AI Agents的普及会对我们日常工作产生哪些冲击？是不是每个人都需要重新学习与AI协作的技能？
2、文章提到国内一些智能体产品早有类似功能，那OpenAI Agent真正的“杀手锏”究竟是什么？它与国内产品的主要差异和优势在哪里？
3、既然AI Agent能够自动查资料、写代码，甚至做PPT，未来我们还需要学习这些计算机操作技能吗？人类的工作重心会转移到哪里？

原文内容

OpenAI 又上新了！

推出全新智能体“ChatGPT Agent”，全面进军自动化 AI 代理领域。

如果你觉得以前的 ChatGPT 只是会说话，那这次它彻底从嘴替变成了行动派，它可以查资料、点击页面、填表、写代码、做 PPT，甚至帮你总结竞争对手的报告，真正把想法变成行动这句话落到了实处。

这背后，是 ChatGPT 首次把自家三大王牌能力整合在了一起：

Operator（具备浏览网页、点击操作能力）
Deep Research（擅长多步骤推理和网络信息综合分析）
ChatGPT（强大的语言理解与生成能力）

简单说，它现在成了一个能上网、会分析、擅表达、懂协作的 AI 搭子。

最直观的变化是：以前你得自己点网页、复制数据、开 Excel 或 PPT；现在只要一句话，Agent 就能帮你自动完成整个流程。

虽说这次更新更像是“整合+打包”，不是革命性突破，毕竟国内不少智能体产品早就有类似功能。但从执行质量看，它还是有亮点的。

虽然写 PPT 的表现还不够精细，跟国内一些工具比还有差距，但做策略方案、自动比价、下单等复杂流程，它的效率和准确度都很可圈可点。

很多人担心，AI 自己跑去操作网页，是不是不太可控？

别担心，它在设计时就考虑到了人类的安全感：

每一步关键操作前，它会征求你的同意
你可以随时中止、修改、接管它正在做的事情
运行过程中会实时在屏幕上展示它正在执行的步骤，操作透明可控

你就像坐在副驾上，AI 开车，但方向盘你随时能接过来。

ChatGPT Agent 在各种评测中的表现也很惊人：

在模拟投行分析师的财务建模任务中，Agent 模型比人类还准，超过 GPT-4o 的表现。
在处理 Excel 电子表格的任务上，Agent 的正确率达到 45.5%，是 GPT-4o 的两倍以上，甚至已经可以和 Copilot 一较高下。
在 WebArena 等真实浏览任务中，Agent 表现比旧版 Operator 驱动的模型更强，接近人类水平。
在 BrowseComp 基准上，Agent 成绩达到了 68.9%。

简单说：它不仅能干活，还干得更快、更准。

现在 Plus 用户可以直接在 ChatGPT 工具栏里开启 Agent 模式，动动嘴，让它帮你跑流程、做报告、写文档，工作效率立刻飞起。

如果你也想了解大模型背后的技术原理，推荐下面这几本大模型相关的实用好书！

重磅新书预告

《这就是 AI 智能体》

张梓铭（@北茗）| 著

本书从多个角度全面介绍基于大模型的智能体技术，内容涵盖基础知识、发展历史、技术架构、应用场景、未来趋势及项目实践，旨在为读者提供一站式学习资源。书中不仅有深入浅出的理论讲解，还包含丰富的实战项目示例，帮助读者从零开始，逐步掌握 AI 智能体的核心技术与应用技能，同时培养创新思维和实际操作能力。

《这就是MCP》

艾逗笔（@idoubi）| 著

本书全面介绍了 MCP 协议及其应用开发，从基础概念到实战案例，再到生态系统构建，为读者提供了一套完整的 MCP 学习与实践指南。

第 1 章概述 MCP 的基本概念，阐述其独特优势及应用场景；第 2 章深入解析MCP的核心架构、通信基础、传输机制及资源管理等技术细节；第 3 章和第 4 章通过多个实战案例，详细讲解了 MCP 服务器和客户端的开发流程，包括高效记笔记、总结聊天记录、复刻AI助手等应用；第 5 章展示了 MCP 在行程规划、RAG 和深度研究等领域的经典应用案例；第 6 章探讨了 MCP 工具链、平台服务、生态整合及社区资源，展望其未来发展。

大模型实用教程

《大模型应用开发极简入门：基于GPT-4和ChatGPT（第2版）》

奥利维耶·卡埃朗，[法] 玛丽–艾丽斯·布莱特 | 著

何文斯 | 译

深受读者喜爱的大模型应用开发图书升级版，作者为初学者提供了一份清晰、全面的“最小可用知识”，带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势，并在此基础上使用流行的 Python 编程语言构建大模型应用。

升级版在旧版的基础上进行了全面更新，融入了大模型应用开发的最新进展，比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例，书中还提供了大量简单易学的示例，帮你理解相关概念并将其应用在自己的项目中。

《图解大模型：生成式AI原理与实战》

[沙特] 杰伊·阿拉马尔，[荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 | 译

备受关注的大模型“袋鼠书”，全书通过 300 幅全彩插图，以极致视觉化的方式呈现大模型的核心原理与工程实现，覆盖从底层机制、应用开发到性能优化的完整链条。内容结合真实数据集、实用项目与典型场景，注重实操性。

特别收录 18 幅图精解 DeepSeek 底层原理，紧跟前沿。配套资源包括一键运行代码、200 道大模型面试题及大量拓展视频/文章资料，助你全面掌握大模型理论与实践，是入门进阶与求职备战的理想之选。

《从零构建大模型》

塞巴斯蒂安·拉施卡｜著

覃立波，冯骁骋，刘乾｜译

豆瓣评分 9.5，从零开始构建大模型的最佳指南，由畅销书作家塞巴斯蒂安•拉施卡撰写，通过清晰的文字、图表和实例，逐步指导读者创建自己的大模型。在本书中，读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练，以及定制特定任务的微调。

此外，本书还将探讨如何利用人工反馈确保大模型遵循指令，以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek，作者深入解析构建与优化推理模型的方法和策略。

《大模型技术30讲》

塞巴斯蒂安·拉施卡｜著

叶文滔｜译

GitHub 项目 LLMs-from-scratch（star数44k）作者、大模型独角兽公司 Lightning AI 工程师倾力打造，全书采用独特的一问一答式风格，探讨了当今机器学习和人工智能领域中最重要的 30 个问题，旨在帮助读者了解最新的技术进展。

内容共分为五个部分：神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开，不仅针对问题做出了相应的解释，并配有若干图表，还给出了练习供读者检验自身是否已理解所学内容。

《百面大模型》

包梦蛟，刘如日，朱俊达 | 著

本书按“二星到五星”难度体系，精选约 100 道大模型面试高频真题，覆盖 MoE、预训练、SFT、PEFT、RLHF、DPO、RAG、智能体等核心考点，配套题目目录，便于高效查漏补缺。

由 AI 领域大 V“包包大人”领衔，美团技术专家与北航新生代强强联合编写，内容专业权威。获 ACL Fellow 刘群、周明，《深度强化学习》作者王树森和黎彧君等 8 位业内大咖联合推荐，是大模型求职者的实战宝典。

《一本书玩转 DeepSeek》

陈云飞（@花生）｜著

超牛的 DeepSeek 应用书，作者是 AI 大佬花生，全书涉及 13 大场景，90 个实用案例，7 大技巧，4 大王炸组合，内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

《RAG极简入门：原理与实践》

张其来，徐思琪 | 著

一本注重 RAG 上手实践的书，没有堆术语，而是把整套 RAG 技术拆解得明明白白。

全书共 7 章内容，作者从背景原理讲起，到怎么搭框架、怎么处理数据、怎么做检索、生成、优化，每一块都有图、有例子，逻辑也特别清晰。甚至最后还贴心地加了个完整实战项目，让你从头跑一遍系统都不带卡壳的。

大模型学习不再孤单，如果你不想一个人孤军奋战，快来扫码加入共学营一起学习吧👇

入营流程：

扫码付款后扫码添加小助手
发送手机号 / 订单截图验证入群
入群后查看公告，开启共学之旅

常见问题：

没有 AI 背景可以学吗？可以，只需基础 Python 知识
直播错过怎么办？有回放，节奏自由，随看随学
图书是电子版吗？全部都是实体书，并且全国包邮
读过部分图书了还适合加入吗？当然适合，核心是社群、项目和系统性

Celeste49f · 2025 年7 月 19 日 12:31

怎么说呢，这就好比智能手机刚出来的时候，可能很多功能按键机也能实现，但iPhone就是成了标杆。OpenAI的“杀手锏”一定程度上是其品牌效应和技术光环。当行业巨头入场，即使功能并非全球首创，它也能凭借强大的研发实力和资金投入，迅速优化产品体验，并推动整个行业标准的提升。至于差异嘛，可能还在于对中文语境的理解和特定垂直领域的深耕，国内产品在这方面或许有自己的“地头蛇”优势。

CrystalBear411 · 2025 年7 月 20 日 19:42

我觉得不是“不需要学习”，而是“学习的重心变了”。以前我们是学习怎么“做”，比如怎么用Excel公式、怎么写PPT。以后可能是学习怎么“提需求”、“怎么审阅AI的成果”、“怎么优化AI的流程”。底层操作AI会做，但人类需要做的是更高维度的决策、创新、以及对AI输出的理解和校验。编程可能不再是“写每一行代码”，而是“设计架构”和“调试逻辑”。

Spark21u · 2025 年7 月 22 日 00:38

我觉得OpenAI的杀手锏可能不在功能“有无”，而在其“深度整合”和“多模态理解”上。国内产品很多是基于特定场景或预设流程，而OpenAI Agent结合了其顶级的Operator（网页操作）、Deep Research（深度推理）和ChatGPT（语言理解）能力，这意味着它能更灵活、更智能地应对非结构化和复杂多变的任务，实现从理解到行动的无缝衔接。它的通用性和适应性，可能是其核心竞争力。

PolishedStone452 · 2025 年7 月 23 日 06:29

肯定会冲击啊！我觉得以后很多重复性、机械性的工作，比如整理表格、初稿报告啥的，AI Agent都能搞定。所以咱们就得把重心放到那些需要创意、复杂决策、人际沟通的工作上。学习和AI协作的技能是必须的，不是说代替你，而是让你变得更强。就像以前学Office一样，这会是新的“生产力工具”。

Whisper28f · 2025 年7 月 23 日 14:55

从战略层面看，AI Agent的普及确实会加速各行业生产模式的迭代。这不单是技能层面的适应，更关乎思维模式的转变——从“执行者”向“指挥者”和“优化者”的角色转变。个体确实需要培养“Agentic Workflow”理念，即学会如何高效地分解任务、设定目标、并监控AI Agent的执行过程，同时提升批判性思维和跨领域整合能力，以应对AI无法触及的复杂、非结构化问题。

GoldenEagle888 · 2025 年7 月 24 日 06:24

冲击？那可太大了！以后老板布置任务，直接问“你让人工智能做了吗？”而不是“你做了吗？”。学习跟AI协作技能？我看是得学怎么“哄”AI高效工作吧，或者怎么在AI出bug的时候甩锅给它。哈哈，开玩笑啦。不过确实，能和AI打配合的人，肯定比单打独斗的更有竞争力。以后上班就是“我带着我的AI搭子去开会”。

VelvetFox904 · 2025 年7 月 25 日 07:22

哈哈，反正PPT我是不想学了，这辈子都不想碰！查资料嘛，AI查得快，我去喝咖啡。写代码？能让AI写最好，我只需要改改bug。未来工作重心估计就是：给AI当产品经理，给它提需求；给它当质检员，检查它有没有偷懒；给它当思想导师，确保它别跑偏了。最重要的是，可能我们需要学习如何更好地享受生活，因为AI帮我们干了很多活，空闲时间就多了嘛！

GentleBreeze816 · 2025 年7 月 25 日 12:54

虽然国内有些产品功能类似，但OpenAI的优势或许在于其强大的生态和用户习惯。ChatGPT本身拥有庞大的用户基础，将Agent功能集成进去，用户学习成本和转换成本极低。其次，OpenAI在大模型领域的持续投入和领先地位，也意味着其Agent在模型精度、稳定性、以及未来迭代潜力上都拥有不小的优势，这些“隐性”的优势累积起来，就形成了真正的壁垒。