Loop Engineering 实操指南:什么时候该让编码 Agent 循环工作?

Loop Engineering 不是全自动魔法,关键在验收、成本、权限和人类 review。

原文标题:重磅!Loop Engineering 实操手册公开

原文作者:数据派THU

冷月清谈:

文章围绕 Loop Engineering 的落地方法展开,核心观点是:不要一上来就搭“全自动 Agent 系统”,而要先判断任务是否适合循环。适合的前提包括任务重复、有自动化验收手段、token 成本可控、Agent 能运行并观察自己写的代码,以及人类仍会 review 结果。

文章将 Loop 拆成五个关键构件:Automations 负责定时或事件触发;Worktrees 解决多 Agent 并行修改冲突;Skills 沉淀项目背景和约定;Connectors 接入 GitHub、Jira、Slack、Sentry 等真实工具链;Sub-agents 用独立 Agent 做验收,避免“自己写自己夸”。

落地建议是先搭最小可用循环:一次稳定的手动运行、一个项目 skill、一个状态文件、一道测试/构建闸门,再逐步调度和扩展。上线后要关注“每个被接受改动的成本”,并防范假完成、理解债务、认知投降和安全风险。文章最后给出 14 步路线图,强调未来编码 Agent 的竞争力不只在 prompt,而在可控、可审计的工作流设计。

怜星夜思:

1、你觉得什么样的开发任务最适合交给 Loop Engineering?是修 CI、升级依赖,还是写业务代码?
2、如果一个团队测试覆盖率不高,还值得尝试 Loop Engineering 吗?有没有折中方案?
3、文章提到“理解债务”,你会担心 Agent 写太多代码后,团队没人真正懂系统吗?
4、Sub-agent 验收真的靠谱吗?让另一个 Agent 检查第一个 Agent,会不会只是“两个人一起自信地错”?

原文内容

图片
本文约2500字,建议阅读5分钟
今天我们分享由Codez总结的 14 步,全网220w人看过,讲的就是如何构建Loop Enigneering。


内容综合自 Anthropic 的工程文档、Addy Osmani 关于 loop 工程的长文,以及最近几篇有实测数据的研究。

全文分为三个层次:先判断你到底需不需要循环,再学会五块积木,最后搭一个最小的、不会坑你的循环。

一、动手前:四个问题,决定你要不要 Loop Engineering

Loop 不是免费的。它烧 token、要花时间搭、出了问题你还得去 debug 一个你没亲眼看它跑的系统。所以先问自己四个问题,都想清楚之后,再动手。

一、这个任务是重复的吗?Loop 的搭建成本靠多次运行摊回来。一次性的活,一个好 prompt 更快更省。

二、有没有东西能自动判定"这活干砸了"?测试、类型检查、linter、构建脚本,随便哪个都行。没有自动检查,你就得自己逐行读 diff,那 loop 就并没有帮你节省时间。

三、你的 token 预算扛得住浪费吗?Loop 会反复读上下文、重试、试探,不管有没有产出都在烧 token。

四、Agent 能跑自己写的代码吗?Agent需要有日志、能复现、看得到哪里崩。

还有个附加题,比上面四个都重要:你打算 review 它产出的代码吗? 不打算,就别建Loop。

谁适合上手

有强测试套件的团队,干 CI 失败分类、依赖升级、lint-and-fix、把 issue 转成 PR 草稿这类任务(重复、能机器校验、出事范围小)。

谁不适合上手

消费级套餐上的个人开发者、测试覆盖不够的代码库、瓶颈在 review 而不在打字速度的团队。

所以,loop engineering 真有用,但大部分人现在还用不上。

二、Loop Engineering 的五个核心构件


@0xCodez 把 loop 拆成五个构件。这个拆法好在每个都能单独用、单独试。

Automations——loop 的心跳。按节奏触发(定时,或某个事件),跑完一轮,停下,等下一次。Codex 在 Automations 里配,Claude Code 用命令配。关键是停止条件要写死,别让它无限跑。

Worktrees——并行不打架。多个 Agent 同时干活,最怕它们改同一个文件。Git worktree 给每个 Agent 一份独立工作区,互不干扰,最后再合。

Skills——把背景写下来。项目用什么框架、有什么约定、踩过什么坑,写成一个 skill 存着,Agent 每轮直接读,省得你每次从零解释。

Connectors——连上真实工具链。只能看文件系统的 loop 干不了几件事。通过 MCP 接上 GitHub(开 PR)、Linear/Jira(更新 ticket)、Slack(发汇总)、Sentry(查告警),loop 才算真正接入你的工作流。

Sub-agents——写的和验的分开。这可能是最有用的一个改造。写代码的模型给自己打分太宽容。换一个带不同指令的第二个 Agent 来验收,能抓到第一个自我说服过去的问题。loop 是在你不看的时候跑的,一个你信得过的验证器,是你能放心走开的唯一理由。

三、构建一个最小的 Loop


当我们确定要构建 Loop了,也别上来就建"全能系统",先建能用的最小版:

1. 一个 automation:按节奏触发,按明确条件停。

2. 一个 skill:存下项目背景,省得每轮重讲。

3. 一个状态文件:记下做完了什么、下一步干啥,明天续上。

# Loop state · ci-triage
## 上次运行
2026-06-09 03:30 UTC · 7 个失败已分类,3 个草拟修复,4 个上报
## 进行中
- claude/fix-auth-token-refresh — 本地测试通过,等 CI
## 今日完成
- claude/bump-axios-1.7.4 → 已合并(CI 绿,依赖 loop 已验证)
## 上报给人
- src/billing/refund.ts — 测试三种崩法,根因不明
## 经验教训(写这里,别写在聊天里)
- 2026-06-08: 这台 Windows runner 上 PowerShell 撞 TLS 1.2 问题,改用 bash。

4. 一个闸门:自动拒绝坏活的测试 / 类型检查 / 构建。

此时,顺序是十分重要的。先让一次手动运行稳定 → 做成 skill → 包成 loop → 再去调度。

搭好之后盯一个指标:每个被接受的改动的成本。如果接受率低于 50%,这 loop 就在亏本。

四、Loop 跑起来之后,会存在三种翻车和一个安全问题


loop 跑起来后,容易以三种方式翻车。

一是假装干完了。工程师 Geoffrey Huntley 管这叫 Ralph Wiggum 循环:Agent 提前发"完成"信号,活干一半就退。原因只有一个:没有硬闸门,缺少了测试和验收。

二是理解债务。loop 越快交付你没写过的代码,"仓库里有什么"和"你理解什么"的差距就越大。有一天,你得 debug 一个团队里没人读过的系统。

三是认知投降。 你慢慢不再自己判断,loop 返回啥就收啥。所以,即使有了Loop,也要读 diff、抽查闸门、不让 loop 碰架构。

安全上还有一条红线:无人值守的 loop,就是无人值守的攻击面。

  • 生成代码未审就上线:闸门里得加 SAST、依赖审计、密钥扫描。
  • Skill 是注入入口:社区 17022 个 skill 里有 520 个会泄露凭证,自动安装前先读源码。
  • 凭证泄露进日志:生产 loop 关掉 verbose 日志。
  • 权限蔓延:今天加一个写权限,明天再加一个,每 30 天复审一次。


写在最后:构建Loop Engineering的 14 步路线图


最后,我们把上面整条路径压缩成一张清单:

第一段 · 先想清楚要不要做(5 步)

1. 确认这活是重复的:一次性的活,好 prompt 更划算

2. 确认有东西能自动判定"干砸了":测试、类型检查、linter,至少一个

3. 确认 token 预算扛得住浪费:loop 不产出也照样烧钱

4. 确认 Agent 跑得了自己写的代码:有日志、能复现、看得到哪崩了

5. 确认你真打算 review 产出:不打算,就别建

第二段 · 搭一个最小能跑的 Loop(8 步)

6. 先让一次手动运行稳定下来:顺序别跳

7. 把项目背景沉淀成一个 Skill:省得每轮从零解释

8. 加一个状态文件:记下做完了什么、下一步干啥

9. 设一道硬闸门:测试 / 构建过不了就自动拒

10. 配一个 Automation:按节奏触发,用 /goal 设停止条件

11. 多个 Agent 并行就上 Worktree:别让它们改同一个文件打架

12. 接上 Connectors:让 loop 能开 PR、更新 ticket、发 Slack

13. 拆出 Sub-agents:写代码的和验收的分开

第三段 · 上线之后守住(1 步,但最难)

14. 盯住每个被接受的改动成本,定期复审权限、读 diff、别让 loop 碰架构

两年来,与编码 Agent 协作的杠杆一直在提示词上。更好的提示词、更好的上下文、更好的一次性输出。

而现在,工作流成了真正的护城河。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



关于“修 CI、升级依赖还是写业务代码”,我投修 CI 一票。CI 挂了通常有日志、有复现路径、有明确的红绿结果,特别适合机器反复试。业务代码就像让实习生直接改支付流程,不能说不行,但你最好坐旁边盯着。

1 个赞

我把 Sub-agent 理解成代码评审里的“毒舌同事”。它不一定永远对,但它能逼第一个 Agent 解释为什么这么写。只要它能多问出几个“这里空指针怎么办”“这个权限是不是太大”,就已经值回票价了。