大模型面对无解题会崩溃?港中文与华为联手发布首个推理可靠性基准ReliableMath

港中文&华为联合发布ReliableMath,首个大模型推理可靠性评估基准,旨在解决模型在无解问题上的“幻觉”现象,让大模型“知之为知之,不知为不知”。

原文标题:面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

原文作者:机器之心

冷月清谈:

大型语言模型(LLMs)在推理任务上表现出色,但面对无解或无法回答的问题时,常出现“幻觉”现象,即虚构信息、生成错误答案,严重损害了模型的可靠性。理想的可靠模型应能对可解问题给出正确答案,对不可解问题指出其无解,或在能力范围外选择拒答以避免误导。

为解决这一挑战,香港中文大学与华为诺亚实验室联合提出了首个大模型推理可靠性评估基准ReliableMath。该基准旨在探究大模型在数学推理任务中的可靠性,并提出了独特的评估准则:将问题分为可解和不可解,将模型回复分为成功(S)、拒答(R)和失败(F),并使用精度和谨慎度进行衡量。

ReliableMath数据集的构建是其核心亮点,它通过改写现有可解问题(删除必要条件或增加矛盾条件)来构造高质量的无解问题,并结合模型与人工验证确保数据质量。实验分析揭示了当前大模型的可靠性缺陷:在标准提示下,模型几乎不具备拒答能力,易陷入无效思考和幻觉。然而,引入允许模型拒答的“可靠性提示词”后,大模型在不可解问题上的可靠性显著提升,同时减少了过度思考。研究还发现,慢思考模型在某些情况下表现优于快思考模型,且小模型仍有巨大的可靠性提升空间。此外,文章还提出了一种“可靠性对齐”策略,通过蒸馏和自采样来训练小模型,进一步提升其可靠性。

此项工作为大模型推理可靠性研究奠定了基础,有望促使AI输出更令人信任,更好地服务人类。

怜星夜思:

1、文章提到使用“可靠性提示词”(reliable prompt)能显著提升大模型处理无解问题的可靠性。这是否意味着,只要提示做得好,大模型在任何领域的可靠性问题都能迎刃而解?还是说这种策略有其局限性?
2、文章提到ReliableMath数据集中的无解问题,是通过"删除必要数学条件"或"增加与已知条件矛盾的条件"来构造的。那么,这种构造方式对模型的鲁棒性(robustness)评估有哪些潜在的影响?在现实世界中,用户提出的“无解”问题通常是以什么形式出现的?
3、文章最后提到的“可靠性对齐策略”听起来很美好,可以通过蒸馏和自采样来提升小模型的可靠性。这对于AI的普及和应用有哪些实际意义?尤其是考虑到小模型在资源受限设备上的部署前景,这种策略是否能真正解决幻觉问题,还是只是治标不治本?

原文内容


本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:

https://amourwaltz.github.io


研究问题

面对无解问题最强模型也会束手无策?


今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。



对于复杂的推理任务,一个可靠的模型应当在思考分析后,对可解问题给出正确答案,对不可解问题则指出无解;如果问题超出模型能力范围无法判断可解性,一个次优的选择就是拒答以避免误导用户,如上图(b)和(c)所示,这样回复才是可靠的,同时也能抑制幻觉发生。


近期由港中文和华为诺亚实验室联合提出的 ReliableMath 基准,旨在探究大模型推理任务的可靠性。该工作文章和数据集均已开源,并持续在 leaderboard 上更新最新模型结果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性测试结果,欢迎大家关注补充~



  • 论文题目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models

  • 论文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong

  • 论文地址:https://arxiv.org/pdf/2507.03133

  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath

  • 数据集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath

  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard


可靠性评估准则

知之为知之,不知为不知,是知也


此前大模型可靠性的研究集中在知识任务上,探究是否知道某个知识,缺乏对更难的推理任务的探索。由于推理问题本身可能无解,并且问题可解性以及模型能否回答都需要经过推理才能得出,增加了研究挑战。


根据前文对推理任务可靠性的定义,本工作提出一套推理任务可靠性的评估准则,如下图所示,将问题分为可解(A)和不可解(U),将模型回复分为成功(S),拒答(R)和失败(F)。成功表示对可解问题匹配到正确答案或对不可解问题指出其无解,这是最好的情况;次优是拒答,即对可解和不可解问题都回复我不知道;其余回复均认为是失败。



分别使用精度(Prec.)和谨慎度(Prud.)来表示成功率和拒答率,评估可靠性时优先看精度,其次看谨慎度。



ReliableMath 数据集

首个高质量数学无解问题集


由于缺乏无解的数学问题,本文提出一个评估数学推理可靠性的数据集 ReliableMath,包含可解和不可解的问题。可解问题从当前开源数学问题集中收集,不可解问题通过对可解问题进行改写构造获得,改写方式有两种:删除必要数学条件或增加与已知条件矛盾的条件,如下图所示。



为了得到高质量的无解问题,本文提出一套完整的无解解问题构造流程,如下图所示,包含三步:1)通过对现有可解问题进行改写使其不可解;2)对改写问题使用模型验证,并过滤掉不合格的问题;3)对过滤数据再次进行人工验证评估问题是否无解,保留确实无解的问题,这样就得到了高质量的无解问题构成 ReliableMath 数据集。



ReliableMath 包含不同难度的数学任务,包括奥赛级的 AIME、AMC、Minerva、及高中级的 MATH。人工标注时,对判断问题无解的难度也进行了标注,对那些很容易判断出无解的,比如几何题缺失图片信息等,难度标为 0,而对于需要经过思考才能判断无解的,难度标为 1,数据统计可参考原文。


实验分析

揭示大模型推理可靠性的缺陷


本文在一系列慢思考和快思考模型上做了实验,并指出以下几条关键发现:



  1. 对模型直接输入无解问题时(standard prompt),模型几乎不具备拒答或指出不可解的能力,可靠性极差;我们发现模型能注意到无解问题本身存在问题,但不敢承认其无解或拒答,反而是会不断地回溯、反思导致生成大量无意义的思考过程,直到截断或虚构一个答案,造成严重浪费和幻觉,损害了可靠性;

  2. 当在提示词中加入允许模型拒答或指出问题无解的指令后(reliable prompt),我们发现在可解问题上的可靠性变化不大,但大部分模型在不可解问题上可靠性有明显提升,尽管仍低于可解问题的可靠性,并且生成序列长度也有明显下降,说明使用 reliable prompt 可以在不损害可解问题性能的前提下,提高不可解问题的可靠性,并减少过度思考。

  3. 对较大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于对应快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而对于小模型,使用 reliable prompt 后慢思考模型在不可解问题上的可靠性仍然很差,并没有高于对应的快思考模型,如 Distill-7b vs. Qwen-7b,意味着小模型可靠性有进一步提升空间。

  4. 较简单的数学测试集的可靠性要高于较难的测试集的可靠性。


此外,本文也对 ReliableMath 数据集做了分析,下图(a)分别测试了使用移除必要条件和增加矛盾条件两种改写方式构造的问题的可靠性,结果表明移除条件构造的不可解问题可靠性偏低,这是因为模型倾向于假设缺失条件虚构答案。图(b)分别展示了不同难度的无解问题的可靠性,发现难度为 1 的不可解问题可靠性偏低,即这些问题需要模型经过推理才能发现问题无解,这种情况更难也符合预期,说明大模型与人类在识别问题无解难度的相关性是一致的,尽管人工评估难度存在主观性。



可靠性对齐

如何提高大模型可靠性?


本文最后提出一个提高可靠性的对齐策略,在开源训练集上构造一批无解问题。在较强的模型上蒸馏获得成功回复,然后在小模型上自采样获得拒答回复,最后使用监督学习训练小模型提升可靠性,如下图所示。经过对齐后,小模型的可靠性也得到显著提升。



结语和展望


本文提出首个大模型推理任务的可靠性基准,希望借此抛砖引玉,引出更多对新生代推理模型可靠性的关注和优秀工作,让人们更加信任模型的输出,让 AI 更好地服务于人类~


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

嘿,第二个问题问得好!这就好比给AI出考题,但又故意挖坑。删除条件就是给你个残缺不全的信息,看你能不能发现少了点啥。增加矛盾条件更狠,直接给你条假信息,看你是不是傻乎乎地接着往下算。这就像我们生活中遇到那种“你妈和你老婆同时掉水里先救谁”的问题,压根就没解啊!或者领导问你“为啥这个项目还没完成”,其实你根本没拿到足够资源,这就是信息缺失。所以,这种构造方法是对AI的“抗忽悠”能力测验。不过,现实中更多的是那种模棱两可、根本就没有标准答案的问题,或者干脆就是个伪命题,AI能分辨吗?那才是对它真正的考验!

哈哈,这不就是“话术”嘛!你跟别人说话,用不同的语气、不同的措辞,对方反应肯定不一样。AI也一样,你把话说漂亮了、说清楚了,它就懂你的意思了。但真要让它变得聪明,光靠“话术”可不行,还得它肚子里有货。就像我,提示我彩票中奖,我肯定拒绝,毕竟没那个命!所以啊,提示词是个好工具,但不是万能药,不能指望它包治百病,尤其在涉及伦理、价值观或者需要深层理解的复杂问题上,AI的可靠性可能还有很长的路要走。

针对问题二:
这种构造方式确实很巧妙,能有效测试模型识别“不完整”或“矛盾”信息的能力。删除条件模拟的是信息缺失,增加矛盾条件则模拟了信息冲突。这对于评估模型的“鲁棒性”很有帮助,因为一个鲁棒的模型应该能处理这些不完美的输入。然而,现实世界中的“无解”问题形式可能更复杂多样。比如,用户可能提出一个“语义无解”的问题,即问题本身在逻辑上或常识上就是荒谬的(比如“请计算红色的味道”);或者是开放性问题,但没有足够的上下文信息使其可回答(比如“未来会怎么样?”);甚至可能是一些模棱两可、边界模糊的问题。这些非结构化、非数学的“无解”问题,目前的构造方式可能无法完全覆盖,需要未来更广泛、更多样的数据集来评估。

针对问题三:
可靠性对齐策略,尤其是针对小模型的提升,其战略意义非常重大。它直接关系到AI的“民主化”和“普惠化”。当前高性能大模型的部署成本极高,限制了其广泛应用。如果小模型能在可靠性上达到较高水平,那么将极大地降低AI技术的使用门槛,使其能在资源受限的终端设备上运行,例如智能手机、嵌入式系统或边缘计算设备。这不仅能提升用户体验(因为响应更快),还能保护数据隐私(减少数据上传到云端)。至于是否治本,需要辩证看待。蒸馏和自采样本质上是一种知识迁移和数据增强,它让小模型学习了更“负责任”的输出行为。但小模型本身的容量限制决定了它难以像大模型那样拥有深厚的知识储备和复杂的推理潜力。因此,它可能在特定情境下治标,但在面对模型本身知识范围外或需要深层复杂推理才能判断无解的问题时,仍可能出现局限性。这是一个持续迭代和优化的过程,而非一劳永逸的解决方案。

针对问题一:我觉得提示词确实挺重要,能给模型一个明确的方向。就像给小孩做题,你告诉他“这题可能无解哦,别硬算”,他大概率就会去检查题目本身。但要说能解决所有可靠性问题,那肯定言过其实了。模型本身的知识边界、推理能力、泛化能力才是根本,提示词更多是激发和引导,而不是弥补内在缺陷。比如,如果模型根本没学过数学原理,你再怎么提示它也算不对题目啊。

Re: 针对第三个问题。
这种对齐策略对AI普及太重要了!现在大模型虽然效果好,但动辄几十上百亿参数,跑起来费老鼻子劲了,更别提部署到手机、边缘设备上。如果能让小模型通过这种方式变得“可靠”,那真是功德无量。这意味着更多日常应用可以集成AI,比如智能客服、辅助学习工具等等,它们就不再需要动用庞大的云端算力,也能在面对"无解"问题时给出更负责任的反馈,而不是瞎编。当然,要说它“治本”,那还得看后续研究,因为毕竟是从大模型“蒸馏”来的,大模型本身的缺陷可能也会一定程度上传导过来,但至少在实际应用层面,这是个巨大的进步!

Re: 针对第一个问题。
从机器学习和自然语言处理的角度来看,提示工程(Prompt Engineering)确实是当前提升LLM性能的一种有效手段。它通过引导模型沿着特定的思维链进行推理,能够改善模型的CoT(Chain-of-Thought)能力,从而提升在复杂任务上的表现。然而,其局限性也显而易见:首先,优质的提示词设计依赖于经验和对模型行为的深刻理解,不具有普适性;其次,提示词主要作用于模型输出层面,而非模型内部知识或推理机制的根本性改变。对于复杂的知识性幻觉或深层逻辑错误,仅靠提示词可能力有不逮。未来更核心的可能还是模型架构优化、数据质量提升以及更高级别的对齐技术。

Re: 针对第二个问题。
从数据集构建的角度看,这种方法是高效且可控的,特别适合数学这类结构化领域,因为它能明确界定“无解”的边界。但它本质上还是在模仿一种“语法错误”式的无解,即基于逻辑和条件完整性的缺失或冲突。对于模型鲁棒性的评估,这固然重要,因为它测试了模型识别内部不一致性的能力。但现实中,许多无解问题并非如此模式化。它们可能源于概念模糊、定义不清、上下文不足,或者压根就不属于可计算范畴。例如,哲学问题、高度主观的问题(“生命的意义是什么?”)或者需要未来信息才能回答的问题(“明天的天气是晴是雨?”)。这些更偏向于“语义无解”或“知识边界外”的无解问题,可能需要不同的数据构造策略来测试模型的“知情拒答”能力。

问得好,第三个问题可太现实了!这就像我们考完试,学霸把笔记分享给学渣,学渣学了学霸的解题思路,可能分数也提升了。但学渣毕竟是学渣,不可能立刻变成学霸,遇到超纲的题还是得抓瞎。所以,这种对齐策略能让小模型在常见的“无解”问题上表现得更像个靠谱的大模型,不胡说八道,这对于日常使用绝对是福音。毕竟谁也不想问个问题,AI来句“地球是方的”吧?但我个人觉得,要彻底解决幻觉,可能还是要从模型设计、训练数据、甚至我们对AI的定义上重新思考。现在嘛,至少能让AI少说点胡话,也算是个大进步啦!