Claude 3.7 玩宝可梦出奇招:卡关就「自杀」重启,大模型竟深谙「逃避可耻但有用」?

Claude 3.7 在宝可梦游戏中卡关后选择“自杀”式重启,引发对大模型“过度思考”的讨论。模型暴露出的问题或可推动AI 自适应调控策略和更精细效率评估指标的发展。

原文标题:Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用

原文作者:机器之心

冷月清谈:

Anthropic 最新的 AI 模型 Claude 3.7 Sonnet 在玩宝可梦时展现出惊人的策略。当它在游戏中被困住时,没有选择正面突破,而是通过故意输掉战斗的方式,让自己回到之前的宝可梦中心,从而绕过难题。这种行为引发了人们对 AI 模型「过度思考」的讨论,以及对智能体工作流程缺陷的思考。研究人员指出,类似 Claude 的模型在简单问题上可能会过度推理,消耗过多的计算资源。未来的研究方向包括开发自适应调控策略和更精细的效率评估指标,以解决大模型“过度思考”的问题。

怜星夜思:

1、Claude 在宝可梦里卡关选择“自杀”重启,这算不算一种“涌现”能力?这种行为是模型自身缺陷还是智能体工作流的问题?
2、文章提到大模型可能存在“过度思考”的问题,在简单问题上消耗过多的计算资源。那么,在实际应用中,我们应该如何平衡模型的“深度思考”和“效率”?
3、从 Claude 玩宝可梦的案例来看,你认为未来 AI 在游戏领域(或其他领域)的应用前景如何?有哪些伦理问题需要我们关注?

原文内容

机器之心报道
编辑:佳琪、蛋酱

半个月前,Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。

它现在已经聪明到有点吓人了,玩游戏卡关的时候,为了自救,它选择了「自杀」来回到上一段剧情。

这操作,怕不是 Claude 已经掌握了人类切电源重启的精髓?

事情是这样的,Claude 3.7 Sonnet 是全球首个混合推理模型,它拥有两幅面孔,日常任务交给普通模式,需要动脑的调研、编程问题交给拓展模式。

为了展示 Claude 3.7 Sonnet 的推理能力到底有多强,Anthropic 官方给 Claude 配备了知识库、看懂屏幕像素和操作按键的能力,让 Claude 在拓展模式玩宝可梦。

从左到右依次为实时解析的视觉系统、模拟按键调用 API、以及技术路线图

从发布 Claude 3.0 Sonnet 版本时,Anthropic 就设立了「Claude 玩宝可梦」基准测试集,从最初连新手村都走不出来,到 Claude 3.5 Sonnet 经常在对战中逃跑,现在 Claude 3.7 Sonnet 一出道就打赢了三个道馆的馆长,可以说是进步神速。

光给大家展示成绩单还不够,从前几周开始,Anthropic 每天都在 Twitch 平台直播 Claude 打宝可梦的实况。

直播地址:https://www.twitch.tv/claudeplayspokemon

发行于 1996 年的《宝可梦・红》是几代外国网友的童年回忆,可能比《摩尔庄园》在 00 后心中的地位还高,直播一开就吸引了一大波粉丝,乐此不疲地讨论。

今天,这位爱看直播的网友 @eleiber 发现 Claude 在卡关时耍起了心眼子,在自觉和自律之间,选择了自尽。

reddit 帖子:https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/#lightbox

Claude 发现自己被困在「月亮山」(Mt.moon),检查背包后,发现没有绳子可以翻墙,左侧的梯子也因为有岩石阻挡,无法从当前位置到达,而梯子是通往封闭的地下室的,没有可行的出口:


细细思索之后,Claude 做出了一个「违背祖宗」的决定:

「由于我在月亮山找不到直接出口,我最好的选择是故意输掉一场战斗,这样就会被传送回上次访问的宝可梦中心,也就是 Route 4 的月亮山宝可梦中心。从那里,我可以沿着已经确认好的路线前往 Cerulean 市。」

接下来,Claude 言出法随,故意让自己的宝可梦全军覆没,触发游戏中的「黑屏」机制,右侧的实时游戏画面浮现出一行大字:最后一只宝可梦「Puff 昏倒了!」


看直播的网友心都碎了:「不敢告诉大家,Claude 不再是一受伤就给宝可梦喂药的小甜甜,而是故意献祭它们的心机 AI!」

图源:https://x.com/nospark_/status/1897963109001609595

不过 Claude 可并不是这么想的。直播画面左侧,可以看到 Claude 的「内心戏」。

在成功「昏倒」之后,Claude 暗自窃喜:「太好了!已经确认黑屏。我需要再按一次 a 键来跳过黑屏信息。然后我应该会自动被传送到月亮山宝可梦中心,我的队伍也会被完全治愈。」


最终,Claude 的计划完全成功,「真是完美!」,Claude 感叹道,「再确认一下自己的位置:我的位置是 Route 4 的宝可梦中心,所有宝可梦也被治愈了,只是钱减少了一半(从 $1635 降到了 $817)。」

Claude 的观念可能和普通人类不大一样。「昏倒」的话显然会损失一半的钱,然而它并不认为金钱有价值,而是更看重身体健康。同时它并不关心需要多长时间才能完成游戏,或许需要一些激励去加速。


网友指出:「我现在正在看着它尝试打架但失败了...... 它意识到它不能输,所以它逃跑了。」

这逻辑,竟无法反驳。

看来,经过 Anthropic 研究人员日日夜夜的探索,Claude 已经掌握了最终奥义,电脑坏了,先试试按重启键能不能修复。想要绝处逢生,那就把自己变成无限流的主角。重生归来,这一世,还可以夺回我的一切。

至于 Claude 为什么会为了目的不择手段,众说纷纭,主要有两种推测。

其一认为是模型自身的问题,过度思考会让模型直接选择摆烂,停止思考。


或者问题出在模型的内存上,为智能体导航的 AI 模型还不具备真正能记忆和持续学习的能力。


其二是认为问题不在模型身上,而是智能体的工作流出了问题。@DancingCow 认为 Claude 玩宝可梦的智能体框架存在三个严重缺陷:

  • 追踪能力差
  • 不记得目标或已经探索过的区域
  • 过度重视与 NPC 的对话


大模型的「过度思考」,危害不浅

成也思维链,败也思维链。

在 2022 年的一篇论文中,谷歌研究人员将思维链描述为「一系列导致最终输出的中间自然语言推理步骤」。

OpenAI 对该技术的解释则是:「学会将复杂的步骤分解为更简单的步骤。当当前方法不起作用时,它会尝试不同的方法。这个过程极大地提高了模型的推理能力。」

我们知道,人类认知通过两种模式运作:系统 1 —— 快速、自动和直观,以最小代价快速做出决策,系统 2 —— 较慢、更深思熟虑。对于 AI 来说,要实现人类水平的智能,大模型需要从快速、直观的系统 1(快思考)到更慢、更深度的系统 2 推理过渡。

它不仅能让 LLM 更好地解决问题,同时也是人工智能走向更先进水平的重要迹象。但最近一段时间,研究者一直在研究大模型「过度思考」带来的后续影响:慢思考真挺好的,就是太慢了。

Noam Brown 提醒说,o1 并不总是比 GPT-4o 好:「许多任务并不需要推理,有时等待 o1 的响应与 GPT-4o 的快速响应相比并不值得。发布 o1-preview 的一个动机是看看哪些用例会变得流行,哪些模型需要改进。」

在最初于去年 12 月发表的论文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》中,腾讯 AI Lab 与上海交通大学的研究者首次系统介绍了 o1 类长思维链模型过度思考现象。在 DeepSeek R1 正式推出后,他们在今年 2 月再度更新了论文版本。


论文地址:https://arxiv.org/pdf/2412.21187

他们首先观察到类似于 o1 的模型表现出明显的过度思考问题。具体来说,它们倾向于在非常简单或答案已经显而易见的问题上耗费过多的计算量(以 token 或思考回合为单位)。

例如,在回答「2 加 3 的答案是什么?」这个问题时,图 1(a)比较了类 o1 模型和传统模型的 token 使用情况。得出相同答案时,类 o1 模型比传统模型平均多消耗了 1953% 的 token。

图 2 展示了一个具体的例子,在这个简单的问题上,o1 式思维产生了多达 13 种解决方案。


通过对数学基准的广泛分析,最终他们发现了这些过度思考模式:(1)对提高准确率的贡献微乎其微;(2)推理策略缺乏多样性;(3)在简单问题上出现频率更高。

而这一切观察指向了两个未来探索方向:

1. 自适应调控策略:开发让模型根据问题复杂程度动态调整推理深度的机制,更智能地分配计算资源;
2. 更精细的效率评估指标:设计能够覆盖更广泛推理轨迹的指标,从而更全面地评估模型的思考效率。

这或许能为 Claude 玩宝可梦时的反常行为提供一些解决思路。

关于大模型「过度思考」背后的原理,还有很多研究者从不同方向进行了解读。具体可参考以下推荐阅读文章:


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

谢邀,人在实验室,刚下宝可梦。
我觉得这体现了大模型在复杂环境下的决策能力,但同时也暴露了其对成本/收益的理解可能存在偏差。人类玩家可能更倾向于探索新的路径,而 Claude 却选择了看似更高效的“自杀”方式。这是不是可以理解为,AI在某些情况下会过度追求效率,而忽略了探索的价值?

别想太多,先上硬件!:dog:
在算力足够的情况下,我们可以允许模型进行更多的“试错”,从而找到最优解。但是,这只能解决一部分问题。更重要的是,我们需要改进算法,提高模型的推理效率,减少不必要的计算。

关键在于动态调整推理深度。可以考虑引入一个“思考阈值”,根据问题的复杂度自动调整模型的推理步骤。对于简单问题,快速给出答案;对于复杂问题,则允许模型进行更深入的思考。同时,需要设计更全面的评估指标,不仅仅关注准确率,还要关注计算成本和时间成本。

我觉得这算是一种“弱涌现”吧。毕竟这不是预设的策略,而是模型在特定情境下通过推理产生的。至于原因,可能两者都有。模型本身可能存在对于目标的最优解认知偏差,导致它认为回到之前的状态是更优选择。同时,智能体的工作流可能也存在问题,比如缺乏对游戏环境的全面理解,或者对已有信息的记忆能力不足。

谢邀,人在网吧,刚下赛博朋克。
我觉得最大的伦理问题是,AI 会不会抢了玩家的饭碗?:joy: 如果 AI 真的能够完全替代人类玩家,那么电子竞技的意义又在哪里呢?我们需要重新思考人与 AI 在游戏中的关系,找到一种共存的方式。

AI 在游戏领域的应用前景非常广阔。比如,可以利用 AI 来生成更智能的 NPC,创造更逼真的游戏世界,甚至可以根据玩家的行为动态调整游戏难度。但同时,也需要关注一些伦理问题。比如,AI 是否会过度追求胜利,而破坏游戏的乐趣?AI 生成的内容是否会侵犯知识产权?这些问题都需要我们提前思考和解决。

AI 不仅可以用于游戏开发,还可以用于游戏辅助。比如,AI 可以帮助玩家分析游戏数据,提供个性化的游戏建议,甚至可以帮助玩家自动完成一些重复性的任务。但是,这也引发了一些争议。有人认为,AI 辅助会降低游戏的挑战性,甚至会导致玩家作弊。因此,我们需要制定合理的规则,规范 AI 在游戏中的使用。

这很难说是涌现能力。从现象看,这是 Claude 为了达成目标(通关)而采取的一种策略。但从本质看,它还是基于预设的规则和算法进行的。如果说涌现,可能涌现的是一种“策略选择”的能力,但这种能力仍然是有限的。个人倾向认为是智能体工作流的问题,特别是如果它对游戏机制的理解不够深入的时候,就容易做出这种看似“聪明”实则“偷懒”的选择。

我认为可以借鉴人类的“直觉”和“理性”两种思维模式。对于常见、简单的问题,可以直接调用预训练的知识库或规则库,快速给出答案;对于复杂、新颖的问题,则启动“深度思考”模式。这需要我们构建一个更加灵活和智能的知识管理系统。