原文标题:真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
原文作者:机器之心
冷月清谈:
- 大模型在数学推理任务中普遍存在死记硬背和知识掌握不足的问题,GPT-4o在综合表现上领先其他模型。
- 随着模型包含知识点数量的增加,作答准确率呈下降趋势,反映出大模型推理能力的局限。
- 引入知识描述策略KCA可以有效缓解知识掌握不足问题,但对解决推理泛化能力不足问题帮助不大。
创新点:
- 基于人类解题思维模式,构建WE-MATH基准,细粒度评测大模型在数学推理中的作答机制。
- 提出四维度量标准(知识掌握不足、推理泛化能力不足、完全掌握、死记硬背),对大模型推理过程进行更全面的评估。
- 实验证明GPT-4o在减少死记硬背方面表现突出,推理泛化能力有待进一步提升,为后续研究指明方向。
讨论话题:
- 如何进一步提升大模型在推理泛化能力方面的表现?
- 大模型在死记硬背和知识掌握不足之间的平衡对推理能力的影响是什么?
- KCA策略在缓解大模型推理问题的有效性如何,是否有其他改进方法?
怜星夜思:
2、如何进一步提升大模型在推理泛化能力方面的表现?
3、KCA策略在缓解大模型推理问题的有效性如何,是否有其他改进方法?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
-
题目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
-
论文:https://arxiv.org/pdf/2407.01284
-
主页:https://we-math.github.io/
-
代码:https://github.com/We-Math/We-Math
-
数据集:https://huggingface.co/datasets/We-Math/We-Math
-
知识掌握不足 (IK): 模型无法作答出复杂问题,并在子问题中出现错误,我们推测模型无法作答出复杂问题的原因是因为对知识点掌握不足所导致的。
-
泛化能力不足 (IG): 模型无法作答出复杂问题,但是所有的子问题中均回答正确,我们推测模型无法作答出复杂问题的原因是因为缺少综合运用能力(泛化能力)。
-
完全掌握 (CM): 模型可以作答出复杂问题,并且可以作答出所有的子问题,这种现象是合理且被期望得到的。
-
死记硬背 (RM): 模型可以作答出复杂问题,但在子问题中出现错误,这与人类的逻辑思维相悖,如果一个模型可以解决复杂的多步问题,但无法作答出解答过程中所需的单步问题,我们认为这种情况是不合理的,考虑模型存在机械记忆的情况。
-
模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系,即题目包含的知识点越多,模型作答情况越不理想。我们也提议可以通过题目包含的知识点数量对题目的难易度进行建模。
-
模型在与计算相关的知识点下表现较好,在细粒度视觉问题上表现欠佳。也进一步表明 LMMs 在应用公式上较为擅长,但在理解和综合应用知识方面仍有局限。
-
GPT-4o 表现最佳,在包含不同知识点数量的题目中均保持领先,并在不同的知识点下基本保持领先。
-
LMMs 展现了一定的参数压缩潜力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表现最接近 GPT-4。而令人惊喜的是,尽管参数规模较小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表现也展现出了较好的表现。
-
多数模型存在 “知识掌握不足” 和 “死记硬背” 的问题,尤其是在较小的模型中更加明显。并且,“知识掌握不足” 仍是大多数模型的主要问题。
-
GPT-4o 在 “死记硬背” 的衡量维度上大幅领先于其他模型,进一步说明 GPT-4o 更贴近于人类的解题方式,其所呈现的结果更加可靠,意味着模型真正的学到了知识,而不是 “死记硬背”。
-
GPT-4o 在 “知识掌握不足” 这个衡量维度上大幅领先于其他模型,已经逐渐迈向下一阶段,需要进一步提升 “知识泛化能力”。
-
模型在 KCA 策略下整体表现有所提升。如上图所示,不同参数规模的 LMMs 在引入 KCA 策略后,在严格和宽松指标上均表现出一致的性能提升。
-
KCA 策略显著缓解了 IK 问题,但对 IG 问题的改善并不明显。这与人类直觉一致,因为知识描述主要解决的是推理知识的缺口。然而,要解决 IG 问题,需要全面提升 LMMs 的知识泛化能力,这也为未来研究指明了方向。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]