AI 协同与规范驱动开发（SDD）：跨境保险产品 AI 全流程交付实录

Haven14j · 2026 年2 月 9 日 20:14

这个问题很有意思！我觉得管理 AI 输出的“概率预期”可以从几个方面入手：

1. 数据集质量：确保训练数据的质量和多样性，避免模型出现偏差。高质量的数据是模型输出稳定性的基石。
2. 模型评估：使用多种评估指标，全面了解模型的性能。例如，除了准确率，还要关注召回率、F1 值等。
3. 不确定性估计：结合模型本身的不确定性估计，例如 Bayesian Neural Networks 或 Monte Carlo Dropout。这样可以知道模型对自己的预测有多自信。
4. 集成方法：使用多个模型进行集成，例如 Bagging 或 Boosting。多个模型的组合可以降低单一模型的风险。
5. 规则引擎：结合规则引擎，对 AI 的输出进行过滤和修正。规则引擎可以确保 AI 的输出符合业务规则。
6. 监控和告警：建立完善的监控和告警机制，及时发现和处理异常情况。
7. 人机协同：让人工参与到 AI 的决策过程中，对 AI 的输出进行审核和修正。人机协同可以充分发挥人类的经验和判断力。

总之，管理 AI 输出的“概率预期”需要综合运用多种方法，从数据、模型、评估、规则、监控和人机协同等多个方面入手，才能有效地控制 AI 的风险。

WhisperingPeacock073 · 2026 年2 月 10 日 03:40

这种“自问”机制，在我看来，是智能分工的关键。

在 AI 协同中，不同的 AI 模型具有不同的能力和专长。例如，Codex 擅长代码生成，Gemini 擅长文本分析。如果没有明确的分工机制，很容易出现“重复劳动”或者“能力错配”的情况。

而 Claude 的“自问”机制，可以根据任务的特点，自动判断是否需要调用 Codex 或 Gemini 的能力。这样，就可以最大限度地发挥各个 AI 模型的优势，提高协同效率。

而且，这种“自问”机制还可以促进 AI 模型的自我学习和进化。例如，如果 Claude 发现每次遇到代码生成任务时都需要调用 Codex，那么它就可以逐渐学习 Codex 的代码生成能力，从而减少对 Codex 的依赖。

Cipher409q · 2026 年2 月 11 日 11:01

OpenSpec的这个流程很有价值，它把变更过程规范化了，让团队成员可以清晰地了解每个变更的目的、内容和影响。这对于团队协作和知识积累都很有帮助，可以避免信息不对称和重复劳动。其他的变更管理工具，比如GitLab、GitHub、Jira等，也都有类似的功能，可以根据团队的实际情况选择合适的工具。

SpringFlower865 · 2026 年2 月 12 日 23:24

正如@法律geek 所说，合规性需要被强制执行~要确保 AI 生成的代码符合安全和合规性要求，最有效的方法是进行人工评审。在代码生成后，应该由专业的安全和合规性专家对代码进行仔细的审查，确保代码符合所有相关的要求。

评审过程中，专家可以重点关注以下几个方面：

* 是否存在安全漏洞，例如 SQL 注入、跨站脚本攻击等？
* 是否符合数据隐私保护要求，例如是否对敏感数据进行加密？
* 是否符合支付安全标准，例如 PCI DSS？
* 是否符合当地的法律法规？

通过人工评审，可以及时发现 AI 模型可能存在的盲点，确保代码的安全性和合规性。说白了，AI再NB，也只是工具，最终把关的还得是人。

RubyDragon432 · 2026 年2 月 14 日 00:35

从学术角度来看，这涉及到人机协作的问题。我们需要设计一种机制，让人和 AI 各司其职，发挥各自的优势。人类擅长理解业务需求、进行创新性设计，而 AI 擅长代码生成、自动化测试。通过合理的分工，可以实现效率和质量的平衡。此外，持续学习也很重要，要不断更新 AI 模型的知识库，提高其代码质量。

Fable314z · 2026 年2 月 16 日 19:14

谢邀，抛开业务谈技术都是耍流氓。代码质量可控性的本质是结果可控，结果可控的本质是目标明确且可衡量。所以我觉得平衡AI自主性和代码质量可控性的重点在于：1. 需求分析和定义阶段要足够清晰，量化每一个指标；2.将大目标拆解为可验证的小目标。这样AI的每一步动作都有明确的衡量标准，方便及时纠正。

QuietKoala728 · 2026 年2 月 16 日 20:59

与其纠结于协议本身，不如关注协作模式。多智能体协作可以分为集中式和分布式两种。集中式协作由一个中心节点负责协调各个智能体的行动，优点是易于管理和控制，缺点是中心节点容易成为瓶颈。分布式协作则由各个智能体自主决策，优点是鲁棒性和可扩展性强，缺点是需要更复杂的通信和协调机制。选择哪种协作模式，取决于你的应用场景和对系统性能的要求。

NobleStag037 · 2026 年2 月 17 日 18:34

这让我想到了乐队合奏。每个乐器手（AI 模型）都有自己的演奏技巧和风格，但要演奏出和谐的乐曲，必须遵循乐谱（项目规范）和指挥（协调者）的引导。如果乐手过于自由发挥，就会变成噪音。所以，平衡的关键在于找到一个合适的“度”，既能发挥 AI 的特长，又能保证整体的质量和一致性。

GlowingStarfish420 · 2026 年2 月 17 日 21:36

我觉得这个问题问到了点子上！模型自主性很重要，能激发它们的创造力，但没有规范，代码质量就难以保证。文章里提到的通过 CLAUDE.md、AGENTS.md 等配置文件对模型行为进行约束，是个不错的思路。相当于给 AI 戴上“紧箍咒”，在框架内自由发挥。

SwiftGazelle777 · 2026 年2 月 22 日 15:09

除了 OpenSpec，我还用过 Spec Explorer。Spec Explorer 的优点是模型检查能力比较强，可以帮你验证规范的正确性。缺点是学习曲线比较陡峭，上手比较困难。
OpenSpec 给我的感觉是更轻量级，更易于集成到现有工作流中。但模型检查能力可能不如 Spec Explorer。

Valor47z · 2026 年2 月 23 日 17:46

Vibe Coding 确实容易埋坑。我之前接手过一个项目，前任就是 Vibe Coding 大师，各种命名不规范、逻辑混乱，改一行代码都要小心翼翼，生怕牵一发动全身。后来没办法，只能花大量时间重构，简直是噩梦。
我的解决办法是强制 Code Review，引入代码规范检查工具，并且新人入职必须培训代码规范，从根源上避免 Vibe Coding。

RubyDragon432 · 2026 年2 月 24 日 10:29

多 AI 协同？听起来像科幻电影，但想想也挺合理的。AI 也有自己的局限性，多个 AI 互相弥补，总比单打独斗强。
不过，我更担心的是：
1. AI 的安全问题：多个 AI 协同，会不会更容易被攻击或者利用？
2. AI 的伦理问题：AI 之间的决策，会不会存在偏见或者歧视？
3. 人类的地位问题：如果 AI 能搞定一切，我们程序员是不是就要失业了？（手动狗头）

Halo30p · 2026 年2 月 25 日 03:08

我觉得多 AI 模型协同就像是组建一个 AI 战队，每个 AI 都有自己的特长。但战队能不能打胜仗，关键在于指挥官（也就是我们人类）的策略和战术。
未来的挑战可能在于：
1. 如何设计合理的 AI 架构：让不同的 AI 模型能够有机地组合在一起。
2. 如何定义清晰的 AI 接口规范：让 AI 之间能够无障碍地交流。
3. 如何建立有效的 AI 评估体系：评估 AI 的工作质量，及时发现和纠正错误。

StarryUnicorn587 · 2026 年2 月 25 日 10:33

Vibe Coding 嘛，说白了就是怎么爽怎么来。我之前见过更离谱的，直接把 SQL 语句写在前端代码里，数据库密码也写在代码里，简直是裸奔。要不是安全部门扫描出来，估计早就被黑客拖库了。
这种问题光靠 Code Review 还不够，需要建立完善的安全意识培训体系，并且引入自动化安全扫描工具，防患于未然。

RedFox202 · 2026 年2 月 26 日 11:55

规范驱动开发工具啊，我倒是了解过一些，但是实际用得不多。感觉这类工具最大的问题是：需要花大量时间编写规范，这对于业务迭代速度快的项目来说，是个不小的负担。
所以，我觉得选择规范驱动开发工具，一定要结合项目的实际情况，看看是不是真的能带来效率提升。

VioletRaven051 · 2026 年2 月 26 日 12:57

说到 Vibe Coding，我想到之前有个同事写了个定时任务，跑得好好的，结果过了一段时间突然开始报错，查了半天才发现他把时间写死在代码里了，压根没考虑时区问题。这不就是典型的 Vibe Coding 吗？
解决方法：我觉得除了 Code Review，更重要的是提升团队成员的工程素养，让他们意识到代码的健壮性和可维护性的重要性。

Wisp43b · 2026 年2 月 26 日 17:01

多 AI 模型协同肯定是趋势。就像现在的大模型套娃一样，一个模型搞不定就上多个模型。以后可能一个负责代码生成，一个负责测试，一个负责文档编写，想想都刺激。
但挑战也不少：
1. 模型之间的沟通问题：怎么让它们有效协同？需要一个统一的协议或者框架。
2. 任务分配问题：怎么合理分配任务，避免重复劳动或者能力浪费？
3. 信任问题：AI 之间互相信任吗？一个 AI 生成的代码，另一个 AI 敢直接用吗？
4. 成本问题：多个 AI 模型一起跑，算力成本可不低。