斯坦福UQ:让大模型挑战人类未解之谜,探索AI评估新范式

斯坦福UQ新范式,让大模型挑战500个真实未解问题。AI评估不再是刷题,而是直面人类知识前沿,推动AI能力持续进化。

原文标题:从刷题到未解之谜:斯坦福 UQ 如何把LLM推向未知边界

原文作者:数据派THU

冷月清谈:

斯坦福大学提出了一项名为UQ的全新评估范式,旨在检测大型语言模型(LLMs)解决真实世界未解难题的能力。这套体系颠覆了传统的“刷题”式基准测试,转而让AI直接挑战人类尚未解决的问题,从而更真实地反映其前沿能力。

UQ系统包含三个核心部分:首先是精心筛选的UQ-Dataset,一个收录了500个高质量、来源于Stack Exchange等平台的未解问题集。这些问题经过严格的规则过滤、LLM质量判断和人工复审,覆盖科学、技术、生活等多个领域,确保了其高难度和真实性。

其次是UQ-Validators,一套基于LLM的自动化评估策略。该策略利用了模型“验证答案比生成答案更强”的关键洞察,设计了分层验证机制,包括低层(事实/逻辑检查、循环一致性)、中层(重复采样、迭代反思)和高层(多数表决、流水线验证)策略。尽管自动化验证能有效筛选,但仍面临精确度不高、模型自我偏好以及排名不稳定等挑战。

最后是UQ-Platform,一个开放的在线社区平台。它将UQ-Validators的初步筛选结果展示给用户,并邀请领域专家进行最终的人工审核、评分和评论,实现了AI自动化与人类智慧相结合的持续评估闭环。

初步实验结果显示,即使是顶级LLM,在UQ上的自动化通过率也仅有15%,而经人类验证的正确答案更是稀少(仅10个),充分证明了数据集的极高挑战性。UQ不仅提供了一套评估工具,更重要的是,它为AI在没有明确标准答案、难以验证的复杂领域中扩展能力指明了新的研究方向,致力于实现AI能力评估与人类知识前沿的共同进化。

怜星夜思:

1、UQ机制里,模型“验证答案的能力远强于其生成正确答案的能力”。你们觉得这个现象在日常生活中是否有对应的体现?比如,人类在哪些方面也是“看懂比说出更容易”?这给AI发展带来了什么启示?
2、UQ-Dataset的题目来自Stack Exchange等平台,是人类真实遇到的未解问题。如果把这个思路推广到更广阔的科研领域,比如让LLM辅助解决生物学、物理学甚至哲学上的开放性难题,你们觉得AI目前最大的瓶颈会是什么?是数据量、推理能力还是创新意识?
3、UQ平台最后还是需要人类专家进行最终验证。你们觉得随着AI技术发展,未来是否存在一个节点,让AI验证的准确率无限接近甚至超越人类专家?或者说,人类在“判断答案正确性”这个任务上,有没有AI无法复制的独特优势?

原文内容

图片
本文约3700字,建议阅读7分钟

本文介绍斯坦福 UQ 评估范式,含数据集、验证器与平台,测 AI 解未解难题能力。


当前,人工智能(AI)领域的发展日新月异,大型语言模型(LLMs)的能力突飞猛进。然而,如何准确、公正地评估这些“前沿模型”的真实能力,却成了研究者们面临的一大难题。现有的主流评估方法主要分为两种:一种是“考试式”基准测试(如MMLU、GPQA),题目虽难,但往往是人为设计的、已有标准答案的题目,脱离了真实世界的问题场景;另一种是“用户查询式”基准测试(如Chatbot Arena),问题虽然真实,但容易偏向高频、简单的问题,模型很快就能达到性能上限。


  • 论文:

    UQ: Assessing Language Models on Unsolved Questions

  • 链接:

    https://arxiv.org/pdf/2508.17580


这篇斯坦福大学论文,提出了一种新评估范式:与其绞尽脑汁设计越来越难的人造考题,不如直接让AI模型去挑战那些人类自己也尚未解决的、自然产生的真实问题。




这篇论文不仅提出了理念,还系统地构建了一个名为UQ的测试平台,它包含一个精心筛选的未解决问题数据集(UQ-Dataset)、一套在无标准答案情况下评估模型回答的自动化策略(UQ-Validators)、以及一个汇聚社区力量进行最终验证的开放平台(UQ-Platform)。



初步实验表明,即使是最强的AI模型,在UQ上的通过率也仅为15%,充分证明了其挑战性。这项工作为评估AI在开放、真实、高难度问题上的解决能力指明了新方向,意义重大。


UQ概览


UQ的核心理念非常直观且有力:真正的进步应该体现在解决那些我们真正关心但尚未解决的难题上。这类问题天然具备两个理想评估基准的关键属性:1) 高难度:因为尚未解决;2) 高真实性:因为它们源于真实的信息需求,解决它们能直接产生价值。


为了将这一理念落地,UQ被设计成一个由三个紧密协作部分组成的有机整体:

  1. UQ-Dataset (数据集) :一个包含500个高质量、未解决问题的精选集,是模型接受挑战的“考题库”。

  2. UQ-Validators (验证器) :一套基于LLM的自动化策略,用于初步评估和筛选模型生成的候选答案,充当人类专家的“助理考官”。

  3. UQ-Platform (平台) :一个开放的在线平台(uq.stanford.edu),用于展示问题、答案、验证结果,并允许社区专家进行最终的验证和讨论,是完成评估闭环的“裁判中心”。


这三部分共同作用,使得对前沿模型的评估不再是发布时的一次性快照,而是一个持续、演进、并由社区驱动的动态过程。


UQ-Dataset:高质量未解决问题库的构建


构建一个高质量的未解决问题库是UQ的基石。论文作者从庞大的Stack Exchange网络(包含Stack Overflow等众多问答网站)中进行了艰巨的筛选工作。


数据来源与筛选流水线:

整个过程如同一个精密的漏斗,从超过300万个初始的“未接受回答”的问题开始,通过三层严格的过滤:


1.规则过滤 (Stage 1) :应用一系列启发式规则筛选出可能的高质量候选。例如,问题必须至少存在2年以上(给足被解答的时间)、有足够的浏览量和点赞数(代表关注度和价值)、在同类未解决问题中排名前10%、并且没有任何回答(不仅仅是未被采纳)。


2.LLM质量判断 (Stage 2) :采用“双模型”策略。首先用GPT-4o尝试回答问题,然后用一个更擅长推理的模型(o4-mini)根据生成的答案来评估问题本身的属性。评估五个关键维度:

  • 是否定义良好 (Well-defined) :问题是否清晰、无歧义。

  • 通过答案正确性评估难度:GPT-4o的尝试答案正确的概率(越低越好)。

  • 通过专家可解性评估难度:领域专家能解决该问题的概率(越低越好)。

  • 是否可解 (Approachable) :问题在原则上是否逻辑自洽、可解决。

  • 答案是否客观 (Objective) :问题的正确答案是否客观、可验证。


3.人工评审 (Stage 3) :通过前两轮筛选后的问题,最后由博士级别的研究员进行最终审核,确保其质量,并剔除重复、琐碎或离题的问题。


UQ-Dataset创建流水线示意图


经过这个流程,最终得到了500个难题。分析表明,这些问题涵盖了科学、技术、生活与艺术等多个领域,从复杂的数学证明、理论计算机科学问题到需要大量文献检索的科幻小说辨识、历史考据等。

UQ-Dataset的问题构成


UQ-Validators:无标准答案下的评估策略


UQ最具挑战性的部分在于:如何评估一个没有标准答案的问题的解答? 传统的精确匹配(exact-match)或多项选择评分完全失效。UQ-Validators的目标就是解决这个“无解之解”的评估难题。


核心洞察:生成-验证差距 (Generator-Validator Gap)

论文首先发现了一个关键现象:对于难题,模型验证一个答案的正确性的能力,远强于其生成一个正确答案的能力。并且,这种“验证强于生成”的能力可以从一个有标准答案的替代数据集(如Humanity's Last Exam, HLE)迁移到UQ数据集上。

左图展示了随着模型能力增强,其验证精度比生成精度增长更快;右图表明在HLE上观察到的生成-验证差距模式可以迁移到UQ的保留开发集上


验证器设计:一个分层策略

基于此,研究者设计了一个分层的验证策略空间:


  • 低层策略 (Low-level) :针对答案本身的基本属性进行检查。

    • 正确性 (Correctness):答案是否准确且完整。

    • 事实/逻辑检查 (Fact/Logic Check):答案中是否存在事实性、算术或逻辑错误。

    • 循环一致性 (Cycle Consistency):从答案反推它要回答的问题,并与原问题对比,检查答案是否切题。

  • 中层策略 (Mid-level) :通过冗余和自我审查来提高判断的稳健性。

    • 重复采样 (Repeated Sampling):让模型多次判断,减少随机性。

    • 迭代反思 (Iterated Reflection):让模型重新评估并可能修正其最初的判断。

  • 高层策略 (High-level) :将多个判断汇总成一个最终裁决。

    • 多数表决 (Majority Vote) / 全体一致表决 (Unanimous Vote):基于多次采样结果进行投票。

    • 流水线验证 (Pipeline Verification):将不同的检查策略组织成多个阶段(或回合),答案只有通过前一阶段才能进入下一阶段。一个表现良好的验证器通常是这些策略的复杂组合。


默认的性能良好的UQ-Validator流水线示意图


主要发现与局限性

论文通过大量实验得出了多个重要结论:

  1. 复合策略远优于简单提示:复杂的多阶段流水线验证器能显著提升评估的准确率和精确度。

  2. 实现高精确度极其困难:即使最好的验证器,其精确度(Precision)也仅在40%左右(即通过验证的答案中仍有一大半可能是错的)。这主要是因为问题极难,模型能答对的真阳性案例太少。

  3. 验证器存在自我和同源模型偏好:简单使用时,LLM会高估自己或来自同一开发商模型的答案质量。

  4. 复合策略能有效缓解偏见:复杂的验证流水线可以大幅减少这种自我偏好,使评估更公平。

  5. 模型排名不稳定:使用不同强度或不同家族的验证器,得到的模型性能排名差异很大,甚至会出现剧烈波动。这表明不能完全依赖自动化验证器来构建模型排行榜,人类验证的最终环节必不可少。

  6. 更好的生成模型不一定是最好的验证模型:生成能力和验证能力并非完全正相关。


不同模型和不同验证策略在准确率、精确度、召回率上的详细性能对比


UQ-Platform:社区驱动的持续评估平台


UQ-Validators虽然强大,但终究无法完全替代人类专家的判断。UQ-Platform就是为了完成这“最后一公里”而设计的。


它是一个活的、开放的平台(https://uq.stanford.edu),其主要功能包括:


  • 浏览与提交:用户可以浏览所有UQ问题,模型开发者可以提交新模型的答案。

  • 验证与评论:平台集成显示了UQ-Validators的自动验证结果,同时允许用户(尤其是领域专家)对答案进行人工评审、评分和评论。

  • 透明度与可复现性:要求提交答案时提供完整的提示词(prompt)和模型信息,确保可复现。

  • 动态排名:模型根据其被人类验证为解决的问题数量进行排名。


这个平台的设计巧妙地将AI自动化与人类智慧相结合。UQ-Validators充当了高效的“预筛器”,将明显错误的答案过滤掉,极大降低了人类专家的工作量,让他们能专注于审查那些最有潜力的候选答案。随着模型进步和社区验证的进行,平台上的数据、验证器和排行榜都会持续更新,真正实现了持续评估的愿景。


实验结果与发现


论文评估了多个顶尖模型在完整UQ数据集上的表现。


模型表现:

  • 自动化验证通过率低:性能最好的模型(o3-pro)在500个问题中,也只有75个(15%)通过了复杂的3阶段UQ-Validator流水线。其他模型如Gemini 2.5 Pro、o4-mini通过率仅为5%。

  • 人类验证正确率极低:在通过自动化验证的144个答案中,研究者设法对其中91个进行了初步人类验证。发现仅有10个答案被确认为正确!其中o3-pro贡献了4个正确解答,成为了首个在该项目早期“破零”的模型。


各类模型在完整UQ数据集上的性能表现


这些结果强有力地证明了UQ数据集的极高难度和现实价值。模型生成的答案中常见的失败模式包括虚构不存在的文献引用(这是当前验证器还难以完全察觉的)。同时,那10个被人类验证正确的答案也表明,UQ平台确实有潜力成为发现AI解决真实难题的“宝地”。


结论与展望


UQ是一项雄心勃勃且极具创新性的工作,它试图为AI评估建立一种全新的范式。其核心贡献在于:

  1. 理念创新:从在“已解难题”上测试,转向在“未解真问题”上评估,从根本上解决了评估的难度与真实性的矛盾。

  2. 体系创新:构建了集数据集 (Data)、自动化评估工具 (Tool)、社区平台 (Platform) 三位一体的完整体系,而非只是一个静态的数据集。

  3. 技术贡献:深入探索并系统评估了在无标准答案情况下使用LLM进行自动化验证的一系列策略,发现了许多重要现象(如生成-验证差距、自我偏见等),为后续研究奠定了坚实基础。


UQ的价值不仅在于其当前提供的500个难题和一个排行榜,更在于它提供了一套方法论和一个基础设施,使得对AI能力的评估能够成为一个与AI共同进化、不断追逐人类知识前沿的动态过程。随着模型能力的提升,UQ数据集可以持续更新引入更难的题目。未来,UQ可能会纳入更多来源的未解决问题,甚至直接挑战科研级别的开放难题。


这项工作清晰地表明,AI的评价体系需要与时俱进。UQ为未来在那些没有明确奖励信号、难以验证的困难领域(oracle-free, hard-to-verify domains)中扩展模型能力的研究,提供了一个坚实而富有启发性的基础。


编辑:于腾凯

校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU