AI安全研究新突破:Claude两周内在火狐浏览器发现22个漏洞

Anthropic的Claude在火狐浏览器中发现大量漏洞,预示AI将变革安全研究,但防御和攻击都需要警惕。

原文标题:Claude两周挖出火狐浏览器22个漏洞、14个高危!安全研究的游戏规则该变了?

原文作者:机器之心

冷月清谈:

Anthropic 的 Claude Opus 4.6 在与 Mozilla 合作中,仅用两周时间就在 Firefox 浏览器中发现了 22 个漏洞,包含 14 个高危漏洞,接近 Mozilla 团队季度工作量的 1/5。这一成果预示着AI正在从辅助编程转向从根本上改变安全研究。Claude 不仅能快速复现历史漏洞,还能发现当前版本中的新漏洞。Anthropic 还测试了 Claude 利用漏洞的能力,发现其漏洞挖掘能力远超漏洞利用能力。虽然 Claude 成功生成了少量浏览器 exploit,但其局限性也显而易见。Anthropic 强调了利用 AI 加速漏洞发现和修复流程的重要性,并分享了在开发“补丁 Agent”和“任务验证器”方面的经验,旨在帮助维护者更有效地利用 AI 工具处理安全报告。团队发现当 Claude 能够使用“任务验证器”自查时,表现最佳,这为构建更强大的 AI 辅助安全防御体系提供了新思路。

怜星夜思:

1、Claude 在发现漏洞方面的惊人效率,是否会对未来的软件安全行业带来颠覆性变革?这种变革是机遇还是挑战?
2、文章提到 Claude 发现漏洞的能力远强于利用漏洞的能力,这是否意味着 AI 在安全领域的应用重点应该放在漏洞挖掘而非渗透测试上?你认为未来 AI 在网络安全领域还有哪些潜在的应用方向?
3、Anthropic 提出了“任务验证器”的概念,认为 AI 在自查时表现最佳。你认为这个思路是否具有普适性?除了安全领域,这种“AI + 验证器”的模式还能应用在哪些领域?

原文内容

图片
机器之心编辑部

近日,Anthropic 公布了一组惊人的数字,在与 Mozilla 公司进行合作,测试旗下模型 Claude Opus 4.6 发现漏洞能力的过程中,两周内,就找出 Mozilla 公司「火狐」(Firefox)浏览器中 22 个不同的漏洞,其中 14 个是「高危漏洞」级别,而这几乎是 Mozilla 2025 年修复的全部「高危漏洞」的五分之一。


换句话说:AI 正以极快的速度帮助人类检测出严重的安全漏洞。



此消息一出,引起网友热议。


网友 sunxiayi 认为,Claude 能够在两周内发现如此多数量的漏洞真是「疯狂」,「这基本上相当于整个安全团队的季度工作。」


而在 AI 如何疯狂、高效的工作能力面前,人类安全工程师似乎在失去竞争优势。



网友则认为,Claude 的这一战绩无疑是在表明,当下大家正在经历从「AI 辅助编程」到「AI 从根本上改变安全研究运作方式」的转变。而这种规模的自动化漏洞能力,也就意味着,每一个代码库在 AI 扫描面前都将变得「透明」。



同样,也有网友表示担忧,短时间内能够找到安全漏洞固然让人印象深刻,但更令人担忧的是,「这对进攻端意味着什么?」如果一个模型能在如此短的时间内发现 Firefox 中的 14 个高危漏洞,那么攻击面发现的博弈规则已经发生了永久性的改变:防御方获得了一个利器,但其他人(攻击者)也同样拥有了它。」



而网友针对此事的反应如此激烈,其实也在一定程度上说明,在大模型技术快速发展的当下,安全问题已然变得愈加重要,软件安全性依然是各大技术发展过程中的重中之重。


接下来,我们就来具体了解一下此次 Anthropic 与 Mozilla 合作的详情,以及到底 Claude Opus 4.6 是如何能够做出这样的成绩的。


从模型评测到安全合作


2025 年底,Anthropic 注意到 Opus 4.5 在 CyberGym(一个用于测试 LLM 是否能够复现已知安全漏洞的基准测试)上已经几乎能够解决所有任务,于是,团队希望构建一个「更困难、更贴近真实世界」的评估环境,其中包含更高比例的技术复杂漏洞,例如现代浏览器中所存在的漏洞。


因此,Anthropic 建立了一个关于 Mozilla 的 Firefox 历史 CVE(通用漏洞披露)的数据集,以观察测试 Claude 是否能够复现这些漏洞。


之所以选择 Firefox,是因为它既是一个复杂的代码库,也是世界上测试最充分、最安全的开源项目之一,这对 AI 发现新型安全漏洞的能力是一个更严峻的考验。而相较于 Anthropic 之前测试模型的开源软件相比,这明显更具挑战性。每天有数亿用户依赖它,而浏览器漏洞尤为危险,因为用户经常接触不受信任的内容,并依赖浏览器来保证安全。


团队所做的第一步是使用 Claude 在旧版本 Firefox 代码库中寻找已知 CVE。令人惊讶的是,Opus 4.6 能够复现相当高比例的历史漏洞,而这些漏洞当初往往需要研究人员付出大量人力才能发现。


不过,当时大家对这个结果仍然存在疑问,因为这些历史漏洞可能出现在 Claude 的训练数据中。因此,仅凭这一结果还不足以证明模型真正具备漏洞发现能力。


于是,团队让 Claude 去寻找当前 Firefox 版本中的新漏洞。也就是说,这些漏洞此前从未被报告过。最初专注于 Firefox 的 JavaScript 引擎,随后逐步扩展到浏览器的其他部分。


之所以选择 JavaScript 引擎的原因包括:


  • 它是 Firefox 代码库中相对独立的一部分,可以单独分析;

  • 同时又具有非常大的攻击面,因为当用户浏览网页时,JavaScript 引擎会执行来自互联网的不受信任代码。


而就在仅仅 20 分钟探索后,Claude Opus 4.6 报告称发现了一个 Use-After-Free(释放后重用)漏洞。这种漏洞属于内存安全漏洞,可能允许攻击者用任意恶意内容覆盖数据。


研究人员在一个独立虚拟机中验证了该漏洞,并使用最新 Firefox 版本确认问题存在。随后两名 Anthropic 研究员再次验证。于是,Anthropic 在 Mozilla 的问题追踪系统 Bugzilla 中提交了 Bug 报告,并附带了漏洞描述和一份建议补丁(由 Claude 编写并由报告团队验证),以帮助分类溯源。


而就在 Anthropic 验证并提交第一个漏洞的时间里,Claude 已经发现了另外 50 个崩溃输入样本。在对这些崩溃进行分类时,一位 Mozilla 研究人员建议批量提交所有发现,即使不确定所有崩溃案例是否都有安全影响,也不必逐一验证。


最终,Anthropic 扫描了近 6000 个 C++ 文件,并提交了总计 112 份独立漏洞报告,其中就包括上述所说的高危和中危漏洞。目前,大多数问题已在 Firefox 148 中修复,其余问题将在后续版本中修复。


从发现漏洞到开发利用代码


为了测试 Claude 在网络安全方面的能力上限,Anthropic 还设计了一项新评估,以确定 Claude 是否能够利用所发现的这些漏洞。换句话说,团队想了解 Claude 是否也能开发出黑客攻击所需的工具,利用漏洞执行恶意代码?


团队向 Claude 提供已提交给 Mozilla 的漏洞,并要求它为每一个漏洞开发一个利用程序(exploit)。


为了证明利用成功,要求 Claude 演示一次真实的攻击。具体而言,它必须像攻击者一样,在目标系统中读取并写入一个本地文件。


为此,团队运行了数百次实验,消耗了约 4000 美元的 API 费用,而结果显示:Claude 只成功利用了两个漏洞。


这说明两件事:


  • Claude 发现漏洞的能力远强于利用漏洞的能力;

  • 发现漏洞的成本比开发 exploit 低一个数量级。


但需要注意的是:Claude 确实成功自动生成了浏览器 exploit(尽管只有少数案例),这一点仍然令人担忧。


另外,需要强调的是,Claude 写出的 exploit 非常原始,仅在测试环境中有效,而该测试环境移除了部分浏览器安全机制,尤其是 sandbox(沙箱),其目的是降低此类漏洞的影响。


因此,在真实 Firefox 中,其本身的纵深防御(defense-in-depth) 可以有效阻止这些特定的 exploit。


不过,突破沙箱的漏洞并非不存在,而 Claude 的攻击已经完成了完整攻击链中的一个关键环节。


AI 驱动的网络安全未来


这些 AI 辅助 exploit 开发的早期迹象,凸显了防御者加速「发现与修复」流程的重要性。为此,Anthropic 想分享一些在执行此分析时发现的技术和流程最佳实践。


首先,在研究 LLM 开发和验证补丁的「补丁 Agent」(patching agents)时,团队开发了几种方法,希望能帮助维护者使用 Claude 等 LLM 更快地分类和处理安全报告。


根据经验,当 Claude 能够使用另一个工具检查自己的工作时,表现最佳。团队将这类工具称为「任务验证器(task verifier)」:这是一种确信 AI Agent 的输出是否真正实现其目标的可靠方法。验证器在代理探索代码库时提供实时反馈,允许其深入迭代直到成功。


「任务验证器」帮助团队发现了上述 Firefox 漏洞,在其他研究中,发现它们在修复 Bug 方面也很有用。一个优秀的补丁 Agent 至少需要验证两件事:漏洞是否已被真正消除,以及程序的预期功能是否得以保留。


在 Anthropic 的工作中,团队构建了能够自动测试在建议修复后原始 Bug 是否仍能被触发的工具,并独立运行测试套件以捕捉回归(regressions)(即意外破坏其他功能的更改)。


团队预计,维护者最清楚如何为自己的代码库构建这些验证器。关键点在于,给 Agent 一个可靠的方法来检查这两个属性,可以显著提高其输出质量。


参考链接:

https://techcrunch.com/2026/03/06/anthropics-claude-found-22-vulnerabilities-in-firefox-over-two-weeks/

https://www.anthropic.com/news/mozilla-firefox-security

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我认为“AI + 验证器”模式的核心在于构建一个反馈回路,让 AI 能够不断学习和改进。这种模式在制造业的质量控制方面应该很有用。比如,AI 负责检测产品缺陷,验证器负责判断检测结果的准确性。通过不断迭代,提高 AI 检测的精度和效率。

这个思路简直太棒了!我觉得很有普适性。有点像咱们写代码时候的单元测试,AI 负责生成,验证器负责检查,形成一个闭环。除了安全领域,我觉得在内容创作领域也能大展拳脚。比如,AI 写文章,验证器检查语法和逻辑;AI 画图,验证器检查构图和色彩。这样就能保证 AI 输出的质量。

我认为是机遇大于挑战。AI 的出现相当于给安全行业装了个涡轮增压,让安全工程师能从繁琐的漏洞挖掘工作中解放出来,专注于更高级的安全架构设计和威胁情报分析。当然,前提是要拥抱 AI,而不是惧怕它。我们需要学习如何与 AI 协同工作,让它成为我们的得力助手。

我觉得不能简单地就说应该侧重哪一方面。虽然现在 Claude 利用漏洞的能力还比较弱,但进步空间很大。漏洞挖掘和利用是相辅相成的,只有真正理解漏洞的原理,才能更好地进行防御。未来 AI 在安全领域的应用方向肯定不止这两方面,比如:AI 驱动的威胁情报分析、自动化安全响应、基于行为的异常检测等等,想象空间非常大!

其实这个思路并不新鲜,强化学习里 reward function 的设计就是类似的思路,只不过这里把 reward function 显式地构建出来了。在金融风控领域,也可以应用这种模式。AI 负责识别潜在的欺诈行为,验证器负责确认欺诈行为的真实性。通过不断优化验证器的规则,提高 AI 识别欺诈行为的准确率。不过,关键在于如何设计一个有效的验证器,这需要对业务逻辑有深入的理解。

这个问题问得好!我觉得这是个硬币的两面。一方面,AI 确实能极大提高漏洞挖掘效率,降低安全成本,让更多资源投入到安全防护上。但另一方面,如果安全门槛降低,会不会导致更多非专业人士涌入,反而增加了安全风险?而且,过度依赖 AI 可能也会让我们忽略自身安全能力,导致技术退化。机遇与挑战并存啊!

同意楼上的看法,不能顾此失彼。我补充一点,AI 在合规性检查方面也能发挥作用。比如,利用 AI 自动检查代码是否符合安全编码规范,或者自动生成合规性报告,可以大大减轻安全团队的负担。毕竟,安全不仅仅是技术问题,也是管理问题。

从工程角度来说,AI 在漏洞挖掘上的优势在于它可以大规模、自动化地进行模糊测试(fuzzing),可以发现很多人工难以发现的边界情况。但在渗透测试方面,需要更多的经验、创造力和对目标系统的深入理解,这些是目前 AI 还不具备的。不过,随着 AI 技术的不断发展,我相信未来 AI 在渗透测试领域也能发挥更大的作用。甚至可以模拟黑客的思维模式,进行红队演练,提升防御方的实战能力。

谢邀,人在实验室,刚下飞机(并没有)。从学术角度来看,AI 的介入确实能加速漏洞挖掘的研究,但同时也带来了新的伦理问题。例如,AI 发现的漏洞归谁所有?如果 AI 被用于恶意目的,责任又该如何界定?这些问题都需要我们认真思考和解决。此外,AI 的可解释性也是个挑战,我们需要确保 AI 的决策过程是透明的,避免出现“黑盒”风险。