GEM框架:小样本对齐人类认知,AI告别模仿答案

AAAI'26 Oral论文介绍GEM框架,利用认知科学原理,通过小样本对齐人类认知,提升LLM在专业领域的表现。

原文标题:AAAI'26 Oral:小样本对齐人类认知,LLM不再模仿答案

原文作者:数据派THU

冷月清谈:

南洋理工大学的研究人员提出了GEM框架,旨在解决大语言模型在小样本条件下与人类偏好对齐的难题。该框架受到认知科学的启发,通过模拟人类在决策过程中的多维认知评估,从而更有效地利用少量的人工标注数据。GEM框架包含认知过滤模块和SEGA模块,利用熵的双相性原理对推理链进行筛选和评估,并将筛选后的数据通过群体认知优势整合,转化为隐式奖励,最终形成一个闭环优化架构。实验结果表明,GEM在通用偏好基准和医学偏好数据集上均表现出色,尤其是在医学领域,GEM能够更好地捕捉专业领域的细粒度偏好特征。此外,GEM在下游任务如数学推理、事实性评估和开放式对话中也展现了显著优势,证明了其生成的认知信号具有实际应用价值。GEM的本质是通过将人类标注视为多维认知评估的投影,从而在少量标签中提取隐藏的认知结构,为各类深度学习任务提供低资源的认知增强。

怜星夜思:

1、GEM框架中提到的“熵的双相性”是如何体现在实际的认知过程中的?除了文中的例子,你还能想到其他的例子吗?
2、GEM框架强调从少量数据中挖掘“多维认知评估”,这是否意味着我们未来在进行数据标注时,需要改变策略,不仅仅是标注最终结果,而是要记录下更详细的思考过程?
3、文章提到GEM可能成为一种普适的、跨任务的低资源认知增强框架。你认为GEM在哪些领域最有潜力发挥作用?又可能面临哪些挑战?

原文内容

图片
来源:新智元
本文约3000字,建议阅读5分钟
GEM框架利用认知科学原理,从少量人类偏好中提取多维认知评估,让AI在极少标注下精准理解人类思维,提高了数据效率,在医疗等专业领域表现优异,为AI与人类偏好对齐提供新思路。



在人工智能与人类价值观对齐的宏大命题中,数据效率始终是横亘于理论与实践之间的鸿沟,传统大语言模型偏好对齐范式依赖海量人工标注这在医疗、法律等专业领域近乎奢望

为了在小样本条件下最大化每条人类偏好的信息利用,南洋理工大学的研究人员提出一种认知启发的解决方案:「人类偏好不仅反映最终选择,更折射出其背后的多维认知评估过程」。

论文链接:https://arxiv.org/abs/2511.13007

代码开源:https://github.com/SNOWTEAM2023/GEM

基于这样的认知理论基础,他们将Nature最新研究揭示的神经决策中熵的双相性引入偏好对齐模型用于对多维认知评估的精准提取,提出了用于在少量偏好样本下精准实现大语言模型对齐的GEM框架。

从更宏观的维度思考,GEM的本质思路可以更广泛地应用于所有依赖少量人工标注的深度学习算法之中,而「GEM」的命名恰好与在极端自然条件下形成的宝石相呼应,即将极稀少的偏好数据提炼为高价值的认知对齐指导,以实现大型语言模型的协调统一,研究成果已被AAAI 2026 AI Alignment Track录取为Oral论文。

GEM研究方法

图1: GEM框架的整体Pipeline

如图1所示,GEM主要是由两个核心模块形成的一个基于熵的闭环认知优化框架。对于每个人类偏好数据对,「认知过滤模块」中的反思推理引擎  会生成多条详尽的推理链(CoTs)以扩大人类偏好数据的认知深度和广度。

然后,这些多维度细粒度偏好数据推理链会用一个二元熵指导的打分机制进行打分,用以提取高质量的推理链。

最后,经过筛选的推理链会由「SEGA」模块基于群体认知的优势整合原理将熵评分转化为隐式奖励,并通过认知反馈回路进行加权策略更新,形成一个无需外部奖励模型的迭代认知反馈闭环。

认知过滤模块

首先,为了在少量的偏好对中挖掘出尽可能多维度细粒度的「认知信号」,研究人员提出了「熵引导的认知过滤机制(Cognitive Filtering)

在信息处理的微观层面, Nature最新研究揭示的神经决策中熵的双相性引入偏好对齐模型:即判断决策关键决策节点呈现高熵特征(探索不确定性),而结论形成阶段则趋向低熵(认知收敛)

研究人员将这一这一理论引入偏好对齐模型:面对一组偏好数据,模型通过链式思考(CoT)采样生成  条差异化推理路径(reasoning chains)。

研究人员设计的双阶段熵评分函数精准捕捉了高质量认知的特征:其中首项奖励确定性结论(低熵终态),次项鼓励关键推理节点的探索性思考(高熵分叉点)。这种评分不是简单启发式,而是对认知科学中"发散-收敛"双过程理论的数学具象化。

SEGA模块

然后,研究人员将筛选后的多维度细粒度偏好数据输入SEGA(Self-Evaluated Group Advantage)模块,该模块将熵评分转化为隐式奖励 ,并基于「群体认知的优势整合原理」计算每个成员相对于群体均值的优势值。不同于传统成对比较,SEGA将每组  个选视为认知群体,计算每个成员相对于群体均值的优势值值。

这一设计源于三个深刻洞见:

(1)群体内相对评估比绝对评分更稳定,解决小样本下的奖励过优化问题;

(2)优势函数的零均值特性确保梯度更新的方差最小化,符合强化学习理论中的最优基线准则;

(3)多路比较保留了认知过程的连续性,避免成对方法的信息损失。

值得注意的是,SEGA不仅是工程技巧,而是对Bradley-Terry偏好模型的群论扩展,具有严格的收敛性证明。

因此,整个GEM形成一个Entropy-Guide的「认知过滤-群体认知优势整合-认知反馈」闭环优化架构。

在这个循环中,熵既是评估标准(指导筛选),也是梯度方向的调控信号,用于在策略更新中压制噪声性探索,从而实现信息论对偏好学习过程的约束

GEM实验结果
数据集

为了系统地评估 GEM 在偏好建模与下游任务中的有效性,研究人员使用了两个具有代表性的数据设置:一个是通用偏好基准(general preference benchmarks),研究人员从公开数据集中选取了3,000条高质量偏好对(包括 UltraFeedback、PKU-SafeRLHF、RewardBench 中无重叠的采样),覆盖了helpfulness、safety、factuality、reasoning以及对齐偏好等多维度标准。

另一个是医学偏好数据集,包含3,500个专业医学QA对,覆盖慢性病管理、药物咨询以及临床决策等主题,由资深医生标注真实偏好,重点考察GEM在专业场景下的对齐能力、稳健性与可解释性。

定量性能

表1给出了GEM在三个通用偏好基准上的表现。实验结果显示:与传统奖励模型 + PPO 的 RLHF 模式相比,GEM 在仅使用约十分之一训练数据的情况下即可超越其性能。

表1:通用偏好基准上的定量性能比较

此外,在医学偏好验证集上(表 2),GEM达到78.2%的专家一致性(expert agreement),显著高于传统监督(65.3%)和DPO(70.1%),说明 GEM 能有效捕获专业医学中的细粒度偏好特征。

表2:医学专家偏好一致性

下游能力评估

除了偏好建模本身,研究人员进一步在多个下游任务上验证 GEM 生成的认知信号是否具有实际作用,包括数学推理(GSM8K、MATH)、事实性评估(TruthfulQA)以及开放式对话能力(MT-Bench)。实验结果显示了GEM 在这些任务上的显著优势。

表3:下游任务表现

总结与讨论

整体来看,GEM在极少偏好监督下,仍能借助熵引导的认知过滤和SEGA,从少量偏好中提炼高价值的多维度细粒度的认知信号进行稳定、有效的对齐,并普遍提升推理质量、减少幻觉,并增强大语言模型的稳健性。

从更宏观的维度思考,GEM的本质思路有潜力更广泛地应用于所有依赖少量人工标注的深度学习算法之中。

传统监督学习将人类标注视为「单点决策」,只记录最终答案,而GEM将标注重新解释为「多维认知评估的投影」——即每一个标签实际上隐含着人类在判断过程中经历的多维度、多阶段的推理、权衡与不确定性处理。

通过熵的双相性原理,GEM提供了一种将这种隐藏的认知结构从极少量标签中提取出来的通用范式。

因此,无论是分类、序列标注、推荐系统、图神经网络任务、医学影像诊断、知识图谱补全,乃至更复杂的规划、强化学习策略优化、可解释AI,都可以将GEM的「认知过滤—优势整合」机制作为外层结构嵌套进去,让模型在极少标注条件下主动生成、评估并提炼潜在的认知信号,从而实现对有限标注信息的放大。

换言之,GEM有潜力成为一种普适的、跨任务的低资源认知增强框架:将「标签」从静态信息转化为动态认知轨迹,将「学习」从模仿答案转化为提取人类思维结构。

作者信息

论文的第一作者是赵依洋, 他在新加坡南洋理工大学计算与数据科学学院攻读硕士研究生期间完成这项工作,目前在复旦大学攻读博士学位。第二作者是南洋理工大学计算与数据科学学院的硕士研究生白惠予。

该研究的通讯作者赵雪娇博士在百合卓越联合研究中心(LILY Research Centre)担任瓦伦堡–南洋理工大学校长博士后研究员期间完成这项工作,目前她任职于阿里巴巴—南大全球数码可持续发展联合实验室(Alibaba-NTU Global e-Sustainability CorpLab, ANGEL)担任研究科学家。

参考资料:https://arxiv.org/abs/2511.13007

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我持谨慎乐观态度。记录思考过程无疑会增加数据的信息量,但也要考虑实际操作的可行性。如果思考过程过于主观和个性化,可能会引入更多的噪声,反而降低模型的性能。我认为更合理的做法是,针对特定的任务和领域,设计合理的标注规范,引导标注者提供有价值的认知信息,而不是无差别地记录所有的思考过程。

我觉得是很有可能的!现在很多标注工作确实只关注最终结果,但是GEM框架的思路告诉我们,中间的思考过程可能蕴含着更大的价值。如果能把思考过程也记录下来,模型就可以更好地理解人类的决策逻辑,而不仅仅是模仿答案。

不过,这也会带来一些问题,比如标注成本会大大增加,而且如何有效地记录和利用这些思考过程也是一个挑战。

赞同楼上的观点!这让我想起心理学研究中常用的“出声思考”技术,让参与者在解决问题的过程中大声说出自己的想法。如果能将这种技术应用到数据标注中,就可以获得更丰富的认知信息。但是,如何保证标注质量和一致性,以及如何处理大量的文本数据,都是需要考虑的问题。

楼上说的周末出去玩的例子很形象!我补充一个学术点的例子:科学研究中的假设验证过程。科学家在提出一个假设初期,会广泛查阅资料、进行实验,探索各种可能性,这个阶段熵值较高。当实验结果逐渐支持某个假设,并排除其他可能性时,科学家的认知逐渐收敛,熵值降低,最终形成结论。

除了医疗,我觉得在法律领域也很有前景。法律条文非常复杂,需要专业的知识和经验才能理解。如果能用GEM框架训练出一个能够理解法律逻辑的模型,就可以帮助律师和法官更高效地处理案件。

不过,法律领域的挑战在于如何保证模型的公平性和公正性,避免出现歧视和偏见。

如果从更哲学一点的角度看,这不就是所谓的“试错”吗?先发散思维,尽可能尝试各种可能性,然后在不断试错中找到最优解,最终收敛到正确的道路上。我觉得这个理论不仅仅适用于AI,对我们人类的学习和成长也很有启发。

这个问题很有意思!“熵的双相性”说的是我们在做决策的时候,关键节点会呈现高熵(犹豫不决,各种可能性),但最终决定要做的时候,熵又会降低(认知收敛,确定性)。

文章举的例子是偏好对齐,我想到一个更贴近生活的例子:比如你周末要不要出去玩。一开始你会想去哪里玩、和谁玩、做什么等等,脑子里一团乱麻(高熵),各种可能性都有。但最终,你决定去某个地方,比如去看电影,那你的选择就收敛了(低熵)。

我觉得这个理论挺有意思的,能解释很多认知现象。