DeepMind研究揭示大模型决策困境:贪婪、频率偏差与知行脱节

DeepMind研究揭示LLM决策困境:贪婪、频率偏差和知行脱节。强化学习微调(RLFT)能有效提升LLM决策能力。

原文标题:谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

原文作者:机器之心

冷月清谈:

谷歌DeepMind的研究深入探讨了大语言模型(LLM)在决策场景中表现次优的原因,揭示了贪婪性、频率偏差和知 - 行差距这三种常见的失败模式。研究发现,LLM由于过早陷入贪婪策略,导致动作覆盖率停滞,小规模LLM倾向于机械复制高频动作,而大规模LLM虽然能减弱频率偏差,但依然维持贪婪行为。即使LLM能够正确理解任务要求,也常常因为贪婪而无法有效执行。为了解决这些问题,研究者提出了通过强化学习对自动生成的思维链(CoT)推理过程进行微调的方法(RLFT),实验证明RL微调能有效提升LLM的决策能力,增强智能体的探索性行为,缩小知 - 行差距。

怜星夜思:

1、从文章来看,强化学习微调(RLFT)确实能提升LLM的决策能力,那有没有什么场景是RLFT无法有效解决LLM的决策问题?
2、文章提到了“知 - 行差距”,那在现实生活中,你有没有遇到过类似的“知行不合一”的经历?你是如何解决的?
3、文章中指出了LLM的“频率偏差”问题,那除了文中提到的方法,你认为还有什么方法可以缓解或避免LLM的“频率偏差”?

原文内容

机器之心报道

编辑:陈萍

该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。

大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。

然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。

本文,来自谷歌 DeepMind 的研究者系统地研究了为什么 LLM 在决策场景中表现次优的原因。特别是,本文深入研究了三种常见的失败模式:贪婪性、频率偏差和知 - 行差距

在此基础上,本文提出通过强化学习对自动生成的 CoT 推理过程进行微调,以缓解这些不足。实验表明 RL 微调能有效提升 LLMs 的决策能力 —— 既增强了智能体探索性行为,又缩小了知 - 行差距。

  • 论文标题: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities 

  • 论文地址:https://www.alphaxiv.org/abs/2504.16078


方法介绍

本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷:贪婪性策略、频率偏差以及知行差距。分析表明,由于 LLMs 过早陷入贪婪动作选择策略,导致动作覆盖率停滞(最高达 55% 未探索),最终性能持续低于最优水平。

具体而言,本文发现小规模 LLMs(2B)倾向于机械复制上下文中的高频动作(无视其奖励差异),这种现象被定义为频率偏差。

相比之下,大规模 LLMs(27B)虽能显著减弱频率偏差,但依旧维持贪婪行为。

同样值得注意的是,本文通过量化知 - 行差距发现:LLMs 虽能正确理解任务要求,却因执着于贪婪动作而无法有效执行所知方案。

为克服这些缺陷,本文提出在自动生成思维链(CoT)推理的基础上进行强化学习微调方法(RLFT)

RLFT 方法依赖于从环境交互中获得的奖励,对自生成的 CoT 原理进行微调。在 RLFT 过程中,模型会学习迭代地优化其推理过程,从而倾向于选择能够带来更高奖励的 CoT 模式和动作(参见图 1)。本文方法更专注于决策场景。

上下文表示:在步骤 t 时,输入 Token 包括输入指令图片,输出指令图片和最近的交互历史图片。历史表示包含最近 C 个状态、动作和奖励的轨迹图片

微调目标:本文使用 Schulman 等人引入的裁剪目标进行微调,并对参考策略图片进行额外的 KL 约束:

图片

实验结果

比较模型:实验比较了 Gemma2 模型的三种尺寸大小:2B、9B 和 27B 。

环境:多臂老虎机(MAB,Multi-Armed Bandit)以及井字棋游戏。

为什么 LLM 在决策方面表现不佳?

先前的研究发现,LLM 智能体在交互环境中表现欠佳,且探索不足。因此,本文首先研究模型表现欠佳的原因,并确定了三种常见的故障模式:(1) 贪婪,(2) 频率偏差,以及 (3) 知 - 行差距。发现三种故障模式在各个模型尺寸上均持续存在。

贪婪是第一个也是最普遍的故障模式,其特征是 LLM 过度偏向于迄今为止看到的一小部分操作中表现最佳的操作。为了说明这种故障模式,本文展示了 Gemma2 2B/9B/27B 在启用和禁用 CoT 的情况下,在 64 个 MAB(包含 10 个和 20 个分支)上,并且在 50 个交互步骤中实现的平均操作覆盖率(见图 3 a 和 b)。

结果显示模型过早地采用贪婪策略,导致动作覆盖率在 10 步之后停滞不前。增加分支数量会使贪婪更加明显,最大的模型仅覆盖了所有动作的 45%。因此,尽管这些模型比随机智能体有显著改进(参见图 3c),但与 UCB ( Upper-confidence Bound )相比,遗憾值仍然很高。

本文探索的下一个常见故障模式是频率偏差,其特点是模型重复选择上下文中出现频率最高的动作,即使该动作的奖励很低。

结果显示,Gemma2 2B 严重受到重复动作的影响,随着重复次数的增加,熵值不断降低(见图 4a)。相反,27B 模型摆脱了频率偏差(见图 4c)。事实上,对于 2B 来说,频率偏差随着重复次数的增加而不断增加。虽然 27B 摆脱了频率偏差,但它严重受到贪婪的影响。

知 - 行差距。智能体清楚地知道如何解决任务,所有推理中有 87% 是正确的(见图 5)。然而,即使对于正确计算的推理,模型也经常会选择贪婪动作(58%)而不是最优动作(21%)。这种差异凸显了 LLM 在了解算法的情况下采取行动不一的缺陷。

RL 微调的有效性

接下来,本文研究 RLFT 对累积遗憾的影响(相对于最优策略),以及它是否能缓解这些故障模式。

结果显示 RLFT 降低了遗憾值。在各种环境中,LLM 的表现明显优于随机基线,并且 RLFT 降低了 2B 和 9B 的遗憾值。

此外,RLFT 可缓解贪婪性,通过 RLFT,智能体学会了探索,从而缓解了贪婪性。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

可以尝试使用对比学习的方法。通过构造正负样本对,让模型学习区分相似但不同的模式。例如,在 MAB 问题中,可以构造奖励相似但动作不同的样本对,让模型学习到动作的选择不仅仅依赖于频率,还依赖于其潜在的奖励。

我认为可以通过在训练数据中引入更多样化的样本来缓解频率偏差。如果模型接触到的数据中,某些动作或信息的出现频率被人为地降低,那么模型就会更容易克服对高频模式的过度依赖。这就像教孩子认识世界,不能只给他看一种颜色的东西。

这个问题问到我心坎里了。我学了很多时间管理方法,也知道早睡早起对身体好,但就是做不到!我觉得“知行不合一”的根源在于缺乏内在动力。我尝试找到自己真正热爱的事情,把这些事情和早睡早起联系起来,慢慢地,就更容易坚持了。当然,偶尔放纵一下也没关系,重要的是长期坚持。

RLFT主要依赖于环境交互中获得的奖励来优化CoT推理,如果奖励信号非常稀疏或具有欺骗性,RLFT可能难以有效学习。例如,在某些复杂游戏中,早期阶段的行动可能不会立即产生奖励,但对最终结果至关重要,这种情况下,RLFT可能会陷入局部最优解。

我觉得RLFT更像是“扶上马,送一程”,它需要LLM本身具备一定的推理基础。如果LLM对任务的理解存在根本性错误,或者CoT推理过程从一开始就是错误的,那么RLFT可能无法纠正这种偏差。所以,RLFT更适合在LLM已经具备一定认知能力的基础上进行优化,而不是解决LLM完全不理解的问题。

工作上经常遇到啊。开会的时候大家都知道某个方案最好,但实际执行的时候,总会因为各种各样的原因(比如成本、时间、资源限制)而选择一个折中的方案。解决的办法就是尽量把目标拆解成小步骤,每完成一步就给自己一个正向反馈,慢慢克服惰性。

这让我想到了一个段子:一个模型去看心理医生,说自己总是做不好决策。医生问:“那你尝试过RLFT吗?”模型说:“试过了,但奖励函数太主观了,每次微调完我都更焦虑了!” 开个玩笑哈,认真说的话,RLFT的效果高度依赖于奖励函数的设定。如果奖励函数设计不合理,例如过于关注短期利益而忽略了长期目标,那么RLFT可能会导致LLM做出短视的决策。

健身计划!每次都信誓旦旦要练出八块腹肌,然后…然后就只有一块,还是一整块的 所以我的解决方式是找个同伴一起,互相监督,互相鼓励,感觉比自己一个人硬撑着要好很多。

可以使用一些正则化技术,例如 dropout 或 weight decay,来防止模型过度拟合训练数据中的高频模式。这些技术可以迫使模型学习更鲁棒的特征表示,从而减少对特定模式的依赖。