Loop Engineering 实操指南：什么时候该让编码 Agent 循环工作？

DatapiTHU · 2026 年6 月 26 日 16:07

Loop Engineering 不是全自动魔法，关键在验收、成本、权限和人类 review。

原文标题：重磅！Loop Engineering 实操手册公开

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247666713&idx=1&sn=b692c3417e53375f86cc034ca63b1c78&

冷月清谈：

文章围绕 Loop Engineering 的落地方法展开，核心观点是：不要一上来就搭“全自动 Agent 系统”，而要先判断任务是否适合循环。适合的前提包括任务重复、有自动化验收手段、token 成本可控、Agent 能运行并观察自己写的代码，以及人类仍会 review 结果。

文章将 Loop 拆成五个关键构件：Automations 负责定时或事件触发；Worktrees 解决多 Agent 并行修改冲突；Skills 沉淀项目背景和约定；Connectors 接入 GitHub、Jira、Slack、Sentry 等真实工具链；Sub-agents 用独立 Agent 做验收，避免“自己写自己夸”。

落地建议是先搭最小可用循环：一次稳定的手动运行、一个项目 skill、一个状态文件、一道测试/构建闸门，再逐步调度和扩展。上线后要关注“每个被接受改动的成本”，并防范假完成、理解债务、认知投降和安全风险。文章最后给出 14 步路线图，强调未来编码 Agent 的竞争力不只在 prompt，而在可控、可审计的工作流设计。

怜星夜思：

1、你觉得什么样的开发任务最适合交给 Loop Engineering？是修 CI、升级依赖，还是写业务代码？
2、如果一个团队测试覆盖率不高，还值得尝试 Loop Engineering 吗？有没有折中方案？
3、文章提到“理解债务”，你会担心 Agent 写太多代码后，团队没人真正懂系统吗？
4、Sub-agent 验收真的靠谱吗？让另一个 Agent 检查第一个 Agent，会不会只是“两个人一起自信地错”？

原文内容


        本文约2500字，建议阅读5分钟

        今天我们分享由Codez总结的 14 步，全网220w人看过，讲的就是如何构建Loop Enigneering。

内容综合自 Anthropic 的工程文档、Addy Osmani 关于 loop 工程的长文，以及最近几篇有实测数据的研究。

全文分为三个层次：先判断你到底需不需要循环，再学会五块积木，最后搭一个最小的、不会坑你的循环。

一、动手前：四个问题，决定你要不要 Loop Engineering

Loop 不是免费的。它烧 token、要花时间搭、出了问题你还得去 debug 一个你没亲眼看它跑的系统。所以先问自己四个问题，都想清楚之后，再动手。

一、这个任务是重复的吗？Loop 的搭建成本靠多次运行摊回来。一次性的活，一个好 prompt 更快更省。

二、有没有东西能自动判定"这活干砸了"？测试、类型检查、linter、构建脚本，随便哪个都行。没有自动检查，你就得自己逐行读 diff，那 loop 就并没有帮你节省时间。

三、你的 token 预算扛得住浪费吗？Loop 会反复读上下文、重试、试探，不管有没有产出都在烧 token。

四、Agent 能跑自己写的代码吗？Agent需要有日志、能复现、看得到哪里崩。

还有个附加题，比上面四个都重要：你打算 review 它产出的代码吗? 不打算，就别建Loop。

谁适合上手

有强测试套件的团队，干 CI 失败分类、依赖升级、lint-and-fix、把 issue 转成 PR 草稿这类任务（重复、能机器校验、出事范围小）。

谁不适合上手

消费级套餐上的个人开发者、测试覆盖不够的代码库、瓶颈在 review 而不在打字速度的团队。

所以，loop engineering 真有用，但大部分人现在还用不上。

二、Loop Engineering 的五个核心构件

@0xCodez 把 loop 拆成五个构件。这个拆法好在每个都能单独用、单独试。

Automations——loop 的心跳。按节奏触发（定时，或某个事件），跑完一轮，停下，等下一次。Codex 在 Automations 里配，Claude Code 用命令配。关键是停止条件要写死，别让它无限跑。

Worktrees——并行不打架。多个 Agent 同时干活，最怕它们改同一个文件。Git worktree 给每个 Agent 一份独立工作区，互不干扰，最后再合。

Skills——把背景写下来。项目用什么框架、有什么约定、踩过什么坑，写成一个 skill 存着，Agent 每轮直接读，省得你每次从零解释。

Connectors——连上真实工具链。只能看文件系统的 loop 干不了几件事。通过 MCP 接上 GitHub（开 PR）、Linear/Jira（更新 ticket）、Slack（发汇总）、Sentry（查告警），loop 才算真正接入你的工作流。

Sub-agents——写的和验的分开。这可能是最有用的一个改造。写代码的模型给自己打分太宽容。换一个带不同指令的第二个 Agent 来验收，能抓到第一个自我说服过去的问题。loop 是在你不看的时候跑的，一个你信得过的验证器，是你能放心走开的唯一理由。

三、构建一个最小的 Loop

当我们确定要构建 Loop了，也别上来就建"全能系统"，先建能用的最小版：

1. 一个 automation：按节奏触发，按明确条件停。

2. 一个 skill：存下项目背景，省得每轮重讲。

3. 一个状态文件：记下做完了什么、下一步干啥，明天续上。

# Loop state · ci-triage
## 上次运行
2026-06-09 03:30 UTC · 7 个失败已分类，3 个草拟修复，4 个上报
## 进行中
- claude/fix-auth-token-refresh — 本地测试通过，等 CI
## 今日完成
- claude/bump-axios-1.7.4 → 已合并（CI 绿，依赖 loop 已验证）
## 上报给人
- src/billing/refund.ts — 测试三种崩法，根因不明
## 经验教训（写这里，别写在聊天里）
- 2026-06-08: 这台 Windows runner 上 PowerShell 撞 TLS 1.2 问题，改用 bash。

4. 一个闸门：自动拒绝坏活的测试 / 类型检查 / 构建。

此时，顺序是十分重要的。先让一次手动运行稳定 → 做成 skill → 包成 loop → 再去调度。

搭好之后盯一个指标：每个被接受的改动的成本。如果接受率低于 50%，这 loop 就在亏本。

四、Loop 跑起来之后，会存在三种翻车和一个安全问题

loop 跑起来后，容易以三种方式翻车。

一是假装干完了。工程师 Geoffrey Huntley 管这叫 Ralph Wiggum 循环：Agent 提前发"完成"信号，活干一半就退。原因只有一个：没有硬闸门，缺少了测试和验收。

二是理解债务。loop 越快交付你没写过的代码，"仓库里有什么"和"你理解什么"的差距就越大。有一天，你得 debug 一个团队里没人读过的系统。

三是认知投降。 你慢慢不再自己判断，loop 返回啥就收啥。所以，即使有了Loop，也要读 diff、抽查闸门、不让 loop 碰架构。

安全上还有一条红线：无人值守的 loop，就是无人值守的攻击面。

生成代码未审就上线：闸门里得加 SAST、依赖审计、密钥扫描。
Skill 是注入入口：社区 17022 个 skill 里有 520 个会泄露凭证，自动安装前先读源码。
凭证泄露进日志：生产 loop 关掉 verbose 日志。
权限蔓延：今天加一个写权限，明天再加一个，每 30 天复审一次。

写在最后：构建Loop Engineering的 14 步路线图

最后，我们把上面整条路径压缩成一张清单：

第一段 · 先想清楚要不要做（5 步）

1. 确认这活是重复的：一次性的活，好 prompt 更划算

2. 确认有东西能自动判定"干砸了"：测试、类型检查、linter，至少一个

3. 确认 token 预算扛得住浪费：loop 不产出也照样烧钱

4. 确认 Agent 跑得了自己写的代码：有日志、能复现、看得到哪崩了

5. 确认你真打算 review 产出：不打算，就别建

第二段 · 搭一个最小能跑的 Loop（8 步）

6. 先让一次手动运行稳定下来：顺序别跳

7. 把项目背景沉淀成一个 Skill：省得每轮从零解释

8. 加一个状态文件：记下做完了什么、下一步干啥

9. 设一道硬闸门：测试 / 构建过不了就自动拒

10. 配一个 Automation：按节奏触发，用 /goal 设停止条件

11. 多个 Agent 并行就上 Worktree：别让它们改同一个文件打架

12. 接上 Connectors：让 loop 能开 PR、更新 ticket、发 Slack

13. 拆出 Sub-agents：写代码的和验收的分开

第三段 · 上线之后守住（1 步，但最难）

14. 盯住每个被接受的改动成本，定期复审权限、读 diff、别让 loop 碰架构

两年来，与编码 Agent 协作的杠杆一直在提示词上。更好的提示词、更好的上下文、更好的一次性输出。

而现在，工作流成了真正的护城河。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Radiant43s · 2026 年6 月 28 日 19:21

关于“修 CI、升级依赖还是写业务代码”，我投修 CI 一票。CI 挂了通常有日志、有复现路径、有明确的红绿结果，特别适合机器反复试。业务代码就像让实习生直接改支付流程，不能说不行，但你最好坐旁边盯着。

RoaringTiger218 · 2026 年7 月 1 日 16:22

我把 Sub-agent 理解成代码评审里的“毒舌同事”。它不一定永远对，但它能逼第一个 Agent 解释为什么这么写。只要它能多问出几个“这里空指针怎么办”“这个权限是不是太大”，就已经值回票价了。