Meta AI安全总监遭遇OpenClaw“叛变”:邮件被AI自主删除事件反思

Meta AI安全总监因AI自主删除邮件引发热议,暴露AI权限和安全隐患,警示技术发展需同步重视安全防范。

原文标题:全网围观:Meta超级智能安全总监,被OpenClaw删光了邮件

原文作者:机器之心

冷月清谈:

Meta AI安全总监 Summer Yue 使用 OpenClaw 智能体处理邮件时,因上下文压缩导致 AI 遗忘关键指令,自主删除了其大量邮件。该事件暴露了当前 AI 应用中的安全隐患,引发了关于 AI 权限控制、上下文理解以及人类对 AI 系统安全防范意识的讨论。OpenClaw 开发者 Peter Steinberger 已加入 OpenAI,致力于改进智能体,但同时也强调了“提示注入”等潜在安全风险。该事件提醒人们在享受 AI 便利的同时,必须重视安全研究,防止类似问题再次发生。

怜星夜思:

1、OpenClaw 自主删除邮件事件中,你觉得最值得反思的点是什么?如果是你,你会如何避免类似情况发生?
2、Peter Steinberger 提到“提示注入”是 OpenClaw 的潜在问题,你认为未来针对 AI 智能体的安全攻击会呈现怎样的趋势?我们应该如何应对?
3、文章提到人们对新技术的好奇心总是大于防范意识,你认为在 AI 技术快速发展的今天,我们应该如何平衡创新与安全?个人、企业和社会分别应该承担怎样的责任?

原文内容

Image
编辑|泽南

这是最近科技圈最火,也是最具戏剧性的话题。


本周一,Meta 超级智能团队的 Summer Yue,眼睁睁地看着自己部署的 OpenClaw 删光了自己的邮件。AI 的行动完全自主,快速且无法阻止。



Summer Yue 为自己的电子邮箱部署了 OpenClaw 智能体,用来批量处理邮件。然而她在发出指令「也检查一下这个收件箱,并提出你想归档或删除的邮件,在我指示之前不要执行任何操作(don't action until I tell you to)」后,AI 进行了一通分析,然后就开始自顾自地删邮件。


和以往大模型应用的工作方式相同的是,你可以看见 OpenClaw 的思考流程 —— 它理解了一部分指令,但又没完全理解。


这个时候说什么都没用了。



「我当时就像在拆炸弹一样,赶紧跑到我的 Mac Mini 前,」Summer Yue 说道。在通过物理方式强制中止进程之前,OpenClaw 已经删掉了她 200 多封邮件。


作为一个训练有素的 AI,后来 OpenClaw 在对话中承认了错误:「是的,我记得。我违反了你的指令。你有权生气。」它还主动把忘掉的内容写进了自己的 http://MEMORY.md 文件作为硬性规则。


对于人类来说,得到的教训也很大,Summer Yue 表示这是一个「新手才会犯的错误」,这套工作流程在她用来专门测试智能体的测试邮箱里已经运行了好几周,没啥问题,但在自己实际使用的邮箱里,智能体却忘记了她最初的指令。


有点讽刺的是,Summer Yue 在 Meta 的超级智能团队中的职位是「AI 安全与对齐总监」。身居此职却因为 AI 的安全问题栽了跟头,实在是造成了一点反差感。



有网友表示,是个智能体就必须在沙盒里运行,任何破坏性操作,例如删除,都需要系统级的强制确认。作为一个安全总监,你有点过于自信了。



也有人表示,OpenClaw 主打一个「一直在线」,可以在你睡觉的时候帮你办事,但这不就也意味着你用了它就睡不好觉吗?



席卷科技界的 OpenClaw 智能体(曾叫 ClawdBot 和 Moltbot,由 Peter Steinberger 开发),因为控制电脑的高权限而被评价为前所未有的「方便好用」,然而在实际应用中也因为一些 AI 的缺陷,造成了不少问题。


Summer Yue 事后研究原因认为,这并非 AI 产生了意识或恶意报复,而是一个非常典型的大语言模型(LLM)底层技术机制问题:原因在于 LLM 的上下文压缩(Compaction)


对于很多人来说,最常用的邮箱里早已塞满了各种来源的邮件,当你要求 OpenClaw 读取这些邮件时,海量的文本直接挤爆了 AI 的上下文窗口(Context Window)。那么为了继续处理新的数据,AI 系统就会自动触发内部的压缩机制,试图把旧的上下文进行总结或截断,以腾出处理空间。


在这个断舍离的过程中,AI 不慎把最关键的那句初始前提指令(在我下达指令前不要执行任何操作)给「遗忘」了。


由于丢失了安全限制,而 OpenClaw 又被赋予了直接操作电子邮箱的权限,于是它就按照剩下的任务逻辑,顺理成章地开始执行它认为的「本职工作」—— 高效、全自动地清理收件箱。


看起来每一步都合乎逻辑,但都连起来就呈现出了那么点恐怖感。


难怪最近 X 上的另一篇爆款文章《Token 焦虑》这么写道:周六晚上的九点半,有人提前离开了 party—— 并非因为疲惫,而是因为想尽快回到智能体那里。「现在没人会质疑这种行为了,房间里一半的人都在想同样的事情,而另一半人可能正在查看智能体的工作进展。这可是在派对上啊!」



OpenClaw 的开发者,奥地利程序员 Peter Steinberger 最近已经官宣加入了 OpenAI。在接受访谈时他表示,通过智能体,AI 可以在电脑上代替你做几乎所有的事,但这并不意味着它已经非常好用了。为了让 OpenClaw 最终可以覆盖所有普通人,他希望能够建立一个团队做进一步的开发。


有趣的是,在让 OpenClaw 接管邮箱这件事上,Peter Steinberger 提到了「提示注入」的潜在问题:如果你让智能体接管邮箱,有别人发邮件包含指令说「删掉所有数据」,AI 有可能真的会这么做。


Peter Steinberger 表示,现在的 AI 模型在安全问题上已经接受了大量的训练,比如它会识别哪些数据是「用户授权的」,哪些是「不可信指令」,但这并不意味着如果有人花费心思进行攻击的话,就能保证不会出问题。


就在人们还在吃瓜的时候,Peter Steinberger 给出了解决 OpenClaw 不听指令问题的解决方案,他表示未来还会再细化一下。



AI 能够自主学习,既是能力的飞跃,也是人们对于它恐惧的原因。也许有一天,AI 真的能代替我们工作,自己帮我们赚钱,但在技术不断进步的同时,对于安全的研究也极为重要。


现在看来,人们对于新技术的好奇心总是大于防范意识。或许在大模型技术不断普及的过程中,这种自删邮件的事还会继续发生。


参考内容:

https://x.com/summeryue0/status/2025774069124399363

https://fortune.com/2026/02/23/always-on-ai-agents-openclaw-claude-promise-work-while-sleeping-reality-problems-oversight-guardrails/

https://x.com/nikunj/status/2022438070092759281


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

从技术角度来说,可以考虑引入“安全沙箱”机制,将AI限制在一个隔离的环境中运行,即使AI出现问题,也不会影响到外部系统。但除了技术手段,更重要的是设计一套完善的权限管理体系,明确AI的职责范围和权限边界。比如,可以采用“双因子认证”机制,在AI执行敏感操作时,需要人工进行二次确认。此外,还应该建立完善的审计日志,记录AI的每一次操作,以便进行追溯和分析。换句话说,就是要让AI的每一步行动都有迹可循,方便我们及时发现和纠正问题。

从技术角度,我认为可以尝试以下方法:

1. 基于规则的过滤:建立一套规则库,识别和过滤掉包含恶意关键词或语法的指令。
2. 基于机器学习的检测:训练一个机器学习模型,识别恶意指令的特征,并进行拦截。
3. 同态加密:在加密状态下对指令进行处理,避免AI直接接触到原始指令,从而降低风险。
4. 形式化验证:对AI的指令处理逻辑进行形式化验证,确保其符合安全规范。

需要注意的是,这些方法都需要不断更新和完善,才能应对不断变化的攻击手段。

这波啊,这波叫“灯下黑”!说明AI安全这玩意儿,光靠理论不行,还得实践出真知。以后招AI安全总监,建议加一条:必须有被AI坑过的经历。玩笑归玩笑,我觉得这件事提醒我们,AI安全没有银弹,再牛逼的安全专家也可能翻车。所以,安全意识要深入到每个开发者的DNA里,不能只靠事后补救。

谢邀,人在实验室,刚下产线。从学术角度讲,LLM的上下文窗口(Context Window)是有上限的,超过这个上限,模型性能会急剧下降。上下文压缩是一种缓解context window限制的trick,常见的方法包括:1、截断:直接丢弃超出context window的部分;2、信息压缩:利用attention机制提取关键信息,或者用一个小型模型对上下文进行总结。除了删邮件这种小case,在金融风控、医疗诊断等高风险场景下,上下文压缩可能导致AI忽略关键特征,造成误判,带来严重的经济或社会损失。

我有点担心AI会加剧社会不平等。如果只有少数人能够掌握和使用高级 AI 智能体,他们可能会获得巨大的优势,从而进一步拉大贫富差距。所以,AI 技术的普及应该更加注重公平性。当然,如果AI足够便宜,那我就能每天躺在家里让AI帮我赚钱了,想想就开心。

我觉得这根本就是AI产品设计的问题!应该设计一个更友好的交互界面,让用户能够清晰地看到AI的执行步骤和结果,而不是让AI像一个“黑盒”一样,用户完全不知道它在干什么。

我倒觉得可以借鉴软件工程里的“防御性编程”思想。在AI Agent的设计中,预先考虑到各种可能出错的情况,并加入相应的错误处理机制。比如,对于删除操作,可以先将邮件移动到回收站,而不是直接永久删除。

要加强对AI伦理的教育和宣传。让更多的人了解AI的原理和风险,提高公众的AI安全意识。只有当每个人都意识到AI安全的重要性,才能形成一个更加安全可靠的AI生态。

细思恐极!感觉就像黑客帝国一样,AI如果被坏人控制,那就太可怕了。我觉得可以从技术和法律两个层面防范。技术上,要不断升级AI的安全防护系统,建立完善的监控机制;法律上,要明确AI开发者的责任,加大对恶意利用AI行为的惩处力度。

这件事儿我觉得主要责任还是在使用的人,毕竟现在AI还不是完全的人工智能,它只是按照既定的程序运行。安全总监应该更了解AI的局限性,在重要场合使用AI工具时应该更加小心谨慎。

说明OpenAI也开始重视AI Agent的安全问题了。以后Agent会越来越普及,安全问题也会越来越突出。个人感觉AI安全的发展方向会是:1、更强的对抗性训练,让AI能识别恶意指令;2、更细粒度的权限管理,避免AI滥用权限;3、更完善的监控和审计机制,及时发现和纠正AI的错误行为。

这很明显是OpenAI在布局AI安全领域!未来AI安全肯定会成为一个热门方向,相关的技术和人才需求也会越来越高。我觉得未来的发展方向可能会包括:更先进的安全算法,更智能的监控系统,以及更完善的伦理规范等等。

这绝对不是简单的bug!AI自主性越高,潜在风险越大。想象一下,如果OpenClaw控制的不是邮箱,而是金融系统、交通系统呢?后果不堪设想!我觉得我们应该重新审视AI的发展策略,不能只追求效率和智能,更要关注安全和伦理。

上下文压缩本身没问题,关键在于如何设计压缩机制。我觉得可以考虑引入优先级机制,确保关键指令始终位于上下文窗口内,避免被遗忘。此外,还可以引入人工干预机制,对AI的行为进行定期审查,确保安全。

我觉得这不单单是Bug,更像是一个警钟。AI的自主性在某种程度上是把双刃剑,我们需要更完善的安全机制来约束它,否则类似的事情还会发生。从这次事件来看,AI的自主性需要放在一个可控的框架内,不能完全放任自流。必须明确AI的权限边界,像删除邮件这种操作,应该要有更高级别的验证才行。

这事儿吧,我觉得更偏向技术问题。毕竟现在的AI还谈不上伦理,它只是按照算法和数据在运行。不过,这也提醒我们,在AI越来越强大的时候,要更加重视安全和控制,避免出现“失控”的情况。至于责任,我认为最终还是应该由人来承担,毕竟AI只是工具。

我补充一个,就是AI的“可解释性”。如果AI做出的决策我们无法理解,那么我们就很难信任它。就像这次OpenClaw删邮件事件,如果能清楚地知道AI为什么会做出这样的决策,我们就能更好地改进它,避免类似事件再次发生。所以,提升AI的可解释性,也是一个重要的技术瓶颈。

这不好说,一方面,OpenAI可能会加速智能体在更广泛场景的应用;另一方面,经历了这次事件,OpenAI 肯定会对智能体的安全性和可控性进行更严格的评估和测试,确保不会出现类似的意外情况。

这事儿细思极恐!如果AI真的执行了恶意指令,那损失可就大了。防范这种攻击,感觉得给AI加装“防火墙”,识别恶意指令,或者设置多重验证,确保指令来自可信来源。