腾讯&复旦联合发布CL-bench:攻克大模型上下文学习难题

腾讯混元团队发布《CL-bench》论文,揭示当前语言模型上下文学习能力不足,即使提供充足信息也难以有效解决问题,未来研究或将聚焦如何使模型持久记忆并自主学习。

原文标题:刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习

原文作者:机器之心

冷月清谈:

腾讯混元团队联合复旦发布论文《CL-bench》,该论文指出,当前语言模型在上下文利用上存在显著短板,即使提供充足的上下文信息,模型也未必能有效解决问题。论文提出了CL-bench基准,用于评测模型从上下文中学习新知识并正确应用的能力。CL-bench包含由领域专家制作的复杂上下文和任务,要求模型学习预训练中不存在的新知识。实验结果表明,现有模型在CL-bench上的表现不佳,表明模型在利用上下文学习方面仍有很大提升空间。论文还探讨了上下文学习的难度与上下文长度和复杂度的关系,并提出了未来研究方向,包括如何让模型记忆从上下文中习得的知识,实现自主学习。

怜星夜思:

1、CL-bench 的提出,是否意味着我们应该重新审视当前大语言模型的训练范式?除了加大预训练数据量,还有哪些可能的优化方向?
2、论文中提到,即使是能够处理长输入并可靠遵循指令的模型,仍然在许多任务上失败。这是否意味着长文本处理能力和指令遵循能力,与优秀的上下文学习能力之间并没有直接的因果关系?那么,优秀的上下文学习能力的核心要素是什么?
3、文章提到,未来人类的角色将从“数据提供者”转变为“context 提供者”。你认为这会对 AI 领域的就业和技能需求产生什么影响?

原文内容

图片
机器之心编辑部

不久前在 前沿峰会上,姚顺雨曾分享过一个核心观点:模型想要迈向高价值应用,核心瓶颈就在于能否「用好上下文(Context)」。


这与最近 OpenAI  Jiayi Weng 在访谈中的看法不谋而合。Jiayi Weng 认为,上下文决定了模型和人类认知的边界。只要信息足够对等,普通人大概也能在 OpenAI 胜任工作,人和人的差距往往只是源于信息的不对称。


而近日,混元团队和复旦联合团队发布了首篇论文《CL-bench》,在「重视上下文」的基础上又往前推了一大步。


值得一提的是,这也是姚顺雨加入腾讯后首次署名的研究论文。



  • 论文题目:CL-bench: A Benchmark for Context Learning

  • 项目主页:www.clbench.com


论文证实了一个更棘手的问题:即便抹平了上下文带来的信息差,模型也未必能解决问题。这说明模型在上下文利用上,依然存在显著的能力短板。


具体来说,作者认为上下文「给到位了」并不等同于任务就能「做对」。这中间考验的是模型的学习能力:就像两个学习天赋不同的人,读的是同一本武功秘籍,有人能瞬息间领悟招式精髓,有人却始终不得要领。


这种差异的本质在于模型的上下文学习能力不同。 如果模型缺乏从上下文中学习新知识、掌握新技能的能力,哪怕解决任务所需的逻辑和范例都近在咫尺,它也依然无从下手。


本文将结合腾讯混元官网首次发表的技术博客《Learning from context is harder than we thought》的中文版,聊聊在上下文学习这件事上,模型面对的真实困境。


  • 博客链接:https://hy.tencent.com/research


从上下文中学习,远比我们想象的要难


我们需要 AI 成为「上下文学习者」(Context learners)


过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的「做题家」:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。


然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作。


回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的「死知识」,而是在实时地从眼前的上下文中学习。


三个人类日常生活和工作场景的例子。这三个例子分别为:(1)面对 SkyNet 无人机 SDK 文档 (~70K 字),将自然语言所表达的飞行请求转成安全、合规的 SDK 伪代码; (2)直接上手玩一款游戏:给定一款新游戏的完整规则 (~15K 字),分析隐藏房间场景并给出可能结果;(3)分析 300 份原始实验日志,验证数据、推导关系式并估计共振常数。


然而,今天的语言模型并非如此。它们主要依赖「参数化知识」—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。


这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己「已知」的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的上下文的任务。


简而言之:我们造出了依赖「过去」的参数推理者,但世界需要的是能吸收「当下」环境的上下文学习者。要弥合这一差距,我们必须从根本上改变模型的优化方向。


语言模型的范式转变。


CL-bench: 衡量模型的上下文学习能力


为了衡量现有模型距离真正的「上下文学习者」还有多远,我们构建了 CL-bench。这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。


CL-bench 包含由资深领域专家精心制作的 500 个复杂上下文、1899 个任务和 31607 个验证标准。CL-bench 只包含一个简单但苛刻的要求:解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。


模型需要学习的知识非常广泛。它包括新的领域知识、不熟悉的规则系统、复杂的产品工作流,甚至是必须从实验数据中推导归纳出的定律或结论。


所有这些知识要么是由领域专家完全新构建的,要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。因此,模型无法通过回忆静态的参数化知识来解决任务,都要求模型从提供的上下文进行学习并应用。


具体来说,CL-bench 涵盖了四种广泛的现实世界上下文学习场景:


CL-bench 的上下文分类体系。


  1. 领域知识推理: 上下文提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。

  2. 规则系统应用: 上下文提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。

  3. 程序性任务执行: 上下文提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。

  4. 经验发现与模拟: 上下文提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。


CL-bench 示例。解决这些任务要求语言模型从提供的上下文中学习。图中这四个案例分别是:(1)在一部长达 2.3 万字、刚刚生效的新法律下判一起真实纠纷;(2)基于一门新设计的教育编程语言规范,实现一个带有时间条件终止的周期性程序;(3)在一套从未见过的编程框架中执行代码;(4)在给定技术规格和长期环境政策情景的条件下,模拟关键技术金属的可持续全球供应。


这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的上下文学习能力。关于 CL-bench 的更多细节,请参阅我们的论文 [1]。


CL-bench 的设计原则和特性


CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从上下文中学习新知识。 CL-bench 中的每个上下文都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在上下文本身之中:不需要外部检索,也不允许隐藏假设。


解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。


为了确保性能真正反映上下文学习,而不是记忆或数据泄露,CL-bench 采用了无污染(Contamination-free)设计:


  1. 虚构创作: 专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。

  2. 现有内容的修改: 专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。

  3. 整合小众和新兴内容: 专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。


在不提供任何上下文的情况下,最先进的模型 GPT-5.1 (High) 仅能解决不到 1% 的任务。这有力地证明了数据是无污染的,模型若不从上下文中学习,几乎完全无法解决这些任务。


此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约 20 小时标注每个上下文,以确保任务构建的质量和深度。


CL-bench 中的每个任务都是完全可验证的。平均而言,每个上下文关联 63.2 个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。


部分实验发现


我们在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。


表:十个前沿模型在 CL-bench 上的任务解决率。所有模型均在推理模式下进行评估,结果报告为三次运行的平均值 ± 标准差 (%)。


平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管上下文中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从上下文中学习。


还有几个额外的现象值得注意:


  • 忽略或误用上下文是导致失败的主要原因。 许多错误并非源于信息缺失,而是源于模型忽视了上下文中的关键细节,或错误地应用了它们。在许多情况下,模型只会利用预训练学习到的静态知识来解决任务,即使上下文明确定义了新的规则、概念或程序,模型也不会学习和利用。


表:各模型错误类型的分布(因为一个 solutions 可能有多种错误原因,所以每行错误率总和大于 100%)。


  • 长上下文推理和指令遵循是必要的,但不是充分条件。 案例分析表明,那些难以跨长上下文追踪依赖关系或难以精确遵循约束的模型,往往表现得更差。然而,即使是能够处理长输入并可靠遵循指令的模型,仍然在许多任务上失败。上下文学习需要的能力,远不止长上下文理解和指令遵循能力。


  • 从实验数据和环境模拟中进行归纳推理比演绎应用更困难。 演绎任务让模型根据 context 中明确给出的规则和流程进行应用,而经验发现和环境模拟类任务则要求 归纳推理 —— 从数据中总结规律或在虚拟环境中探索。模型在这类任务上的表现明显较差,任务解决率通常低于 10%,且结果波动大。这表明发现规律远比应用规则更具挑战性。


GPT-5.1 在高 / 低推理强度设置下,各子类别表现对比。


  • 更高的推理强度通常能提升 context 学习效果。 对部分模型来说,增加 推理强度 可以改善表现,使模型更深入地理解复杂 context 。例如,GPT-5.1 在管理类和实验数据类任务上的表现提升约 6%。但其他模型提升有限甚至可能下降,说明单靠更多推理并不足够,模型还必须能够正确吸收和组织 context 信息。


不同输入长度下模型上下文学习表现的变化趋势。(不同 context 下模型的表现变化呈现相似趋势。)


  • Context 学习的难度与 context 长度相关,但短 context 也可能很复杂。 较长的 context 通常让所有模型的任务更难,这验证了长 context 处理仍是关键瓶颈。然而,即使是短 context ,如果包含信息密集、规则隐含、依赖复杂或约束严格的内容,也依然很具挑战性,说明 context 学习的难度不仅仅来源于长度,也来自于其复杂度。


更多发现请参见我们的论文 [1]。综上所述,CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用上下文,从上下文中学习。


CL-bench 充分解释了语言模型在真实场景中为什么经常出错:即使有了上下文工程,给模型准备好了所需的上下文,模型也会失败。如果模型不能真正从中学习,仅仅提供上下文是不够的。上下文学习作为一项模型基础的学习能力,很大程度上被忽视了。


展望未来


如果上下文学习显著提升,人类在 AI 系统中的角色将发生变化:我们不再是主要的数据提供者(training data provider),而变成了 context 提供者(context provider)。竞争的焦点将从 “谁能把模型训练得更好”,转向 “谁能为任务提供最丰富、最相关的 context ”。


但其实这里还有一个挑战。即便上下文学习足够强大,它目前依然是临时性的(Ephemeral):模型的上下文窗口一旦清空,学到的知识随之消失。因此,我们还要关注如何让从上下文中习得的知识持久化?这种知识不仅是事实,还包括能帮助模型跨任务迁移的技能、经验和模式等。


记忆巩固是语言模型通过上下文学习经验的关键


因此,如何记忆很可能成为 2026 年的另一个核心主题。 要充分发挥语言模型的潜力,可能需要新的架构、新的优化方式来决定「该保留什么」。


一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习:它们将自主准备上下文,从中学习并自我巩固。


这听上去多么令人兴奋!但当下我们的目标很明确:让「上下文学习」真正走向现实!


写于 2026 年 1 月,正值新年来临之际。


[1] CL-bench: A Benchmark for Context Learning

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我来抛砖引玉一下。完全依赖“参数化知识”的模型就像一个记忆力超群的学生,能背诵大量知识点,但在面对需要灵活应变、解决新问题的场景时就会捉襟见肘。例如,在医疗诊断领域,如果只记住教科书上的症状和疾病关系,就很难处理罕见病例或患者的个体差异。个人觉得,未来的大模型应该像一个经验丰富的医生,既有扎实的理论基础(参数化知识),又能根据患者的具体情况(上下文)进行分析判断,所以平衡好这两种知识来源至关重要。

我觉得可以借鉴人类的学习方式,比如建立一个**“认知缓存”**,把最近学到的、最常用的知识放在缓存里,方便快速调用。不常用的知识就逐渐“遗忘”,或者转移到“硬盘”里,需要时再加载。这样可以平衡效率和存储空间。

我觉得这个转变可能会让一些重复性的工作消失,因为AI可以根据我们提供的上下文自主完成任务。但同时,也会创造出一些新的工作岗位,例如“上下文工程师”,专门负责为AI系统设计和提供高质量的上下文。所以,我们可能需要不断学习新的技能,才能适应未来的工作环境。

来点发散思维!我觉得上下文学习有点像“侦探破案”。侦探需要仔细阅读案发现场的各种线索(上下文),然后进行分析、推理,最终找出真凶。所以,我们可以把模型训练成一个“AI 侦探”,让它学习如何从各种复杂的线索中找到关键信息,并进行推理。

我有一个更“接地气”的想法:直接借鉴搜索引擎的 PageRank 算法!我们可以根据用户对不同上下文的点击、使用频率、好评率等指标,来给上下文打分,得分高的上下文自然就是高质量的。然后,优先给模型提供这些高分上下文,或者在模型学习时,给高分上下文更高的权重。

别忘了工业制造领域!现在的智能制造强调柔性生产,需要AI能够快速适应不同的生产流程、工艺参数和设备状态。有了上下文学习,AI就能根据实时的生产数据,动态调整控制策略,优化生产效率和产品质量。举个例子,在半导体制造中,AI 可以学习不同批次晶圆的特性,调整刻蚀、薄膜沉积等工艺参数,提高芯片的良率。

从技术角度来看,如何在神经网络中实现长期记忆也是一个难题。现在的大语言模型主要依赖Transformer架构,它的上下文窗口长度有限,很难记住太久远的信息。而且,即使能记住,如何快速检索和利用这些信息也是一个问题。所以,我们需要新的神经网络架构或者记忆机制,才能更好地实现长期记忆。

我觉得上下文学习的应用场景非常广泛! 除了文章里提到的,在医疗诊断方面,AI可以整合病人的病史、家族史、最新检查结果等上下文信息,辅助医生进行更精准的诊断。在金融风控领域,结合用户的交易记录、信用报告、社交网络等上下文,可以更有效地识别欺诈行为。还有在智能客服方面,结合用户的历史对话、个人偏好等上下文,提供更个性化的服务。 甚至在艺术创作领域,AI 也能通过理解特定文化背景、历史事件等上下文,创作出更有深度的作品。

这其实是一个趋势,AI越来越像一种服务,而不再是单纯的技术。未来的AI工程师可能更像产品经理,需要理解用户需求,设计使用场景,优化用户体验。context engineering可能会成为一个热门的新方向,专门研究如何为模型提供最佳的上下文,以实现特定目标。说不定以后会出现“AI上下文设计师”这个新职业!

这个问题很有意思!一个可能的方案是引入类似人类大脑的“记忆巩固”机制,把短期记忆转化为长期记忆。具体来说,可以在模型中加入一个“知识库”,将模型从上下文中学习到的重要信息存储进去,并在后续的任务中重复利用这些信息。当然,这涉及到如何判断哪些信息是重要的,以及如何有效地组织和检索这些信息。

我认为是规则系统应用。领域知识推理和程序性任务执行,本质上还是在利用已知的知识和模式。而规则系统应用,需要模型理解全新的规则,并灵活运用。这要求模型不仅能记住规则,还要能理解规则背后的逻辑。

说到记忆,我想到一个脑洞大开的想法:能不能把模型的“记忆”外包出去?就像我们人类使用搜索引擎一样,模型可以维护一个外部的知识库,需要时再从知识库中检索相关信息。这样可以大大减轻模型的负担,也方便知识的更新和维护。当然,这需要解决如何高效地组织和检索知识库的问题。

我认为可以尝试利用外部知识库。当模型从上下文中学习到新的知识时,可以将其存储到外部知识库中,并建立起上下文和知识之间的关联。这样,模型在后续的任务中就可以通过检索外部知识库来获取相关的知识,从而提高上下文学习的效果。就好像我们人类会做读书笔记,方便之后查阅。

我觉得这会推动 AI 领域的平民化。以前训练 AI 需要大量的技术知识和计算资源,以后可能只需要具备一定的领域知识和沟通能力,就能参与到 AI 的训练和应用中。这无疑会降低 AI 的门槛,让更多人能够享受到 AI 的红利。

谢邀,只从工程角度提供一个思路。现在搞大模型就像炼丹,玄学成分太高。我的想法是把LLM拆解成多个模块,比方说一个负责信息抽取,一个负责逻辑推理,一个负责知识整合,然后针对每个模块单独优化。这样一来,既能提高模型的可解释性,也能更好地控制模型的行为。

这绝对会带来很大的变革!以后可能需要更多人来做“AI 训练师”,专门负责设计高质量的上下文,引导模型学习和成长。同时,对于领域专家的需求也会增加,因为他们能够提供更专业、更深入的领域知识,帮助模型更好地理解上下文。

个人认为,优秀的上下文学习能力的核心在于『泛化』。模型不仅要能理解当前上下文,还要能将学到的知识迁移到新的、类似的场景中。这需要模型具备强大的抽象和推理能力,能够从具体案例中提取出通用的规则和模式。

我觉得两者之间是必要非充分条件的关系。长文本处理和指令遵循是基础,但更重要的是模型能否理解上下文信息的内在逻辑和关系。就像人类阅读理解一样,光能读懂字面意思还不够,还要能抓住文章的主旨和作者的意图。

作为一个文科生,感觉看到了希望!以前总觉得 AI 是程序员的天下,现在看来,懂业务、会讲故事的人也能在 AI 领域发挥重要作用。以后说不定会出现“AI 上下文设计师”这样的新职业呢!