北大团队揭示大模型推理本质：基于蒙特卡洛语言树的概率模式匹配

DatapiTHU · 2025 年3 月 17 日 09:49

北大团队从蒙特卡洛语言树视角解读GPT，发现大模型推理更可能是概率模式匹配，而非形式推理。思维链旨在帮助GPT模型更好地连接输入和输出。

原文标题：大模型推理更可能是概率模式匹配？北大团队从蒙特卡洛语言树的新视角解读GPT，思维链原理也有新的理解

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247654073&idx=2&sn=40ff182c6ec9df4ae0f5366599fca627&

冷月清谈：

北京大学研究团队提出了一种新的视角，将语言数据集和GPT模型展开为蒙特卡洛语言树(Data-Tree 和 GPT-Tree)的方式来分析大模型。研究表明，大模型拟合训练数据的本质是寻求一种更有效的数据树近似方法。通过这种方式，研究人员认为大模型中的推理过程更可能是概率模式匹配，而不是形式推理。此外，该研究还对token-bias现象和模型幻觉问题进行了分析，并从蒙特卡洛树的视角解释了思维链（CoT）的有效性，认为CoT旨在寻找路径，帮助GPT模型更好地连接输入和输出。

怜星夜思：

1、文章说大模型推理更像概率模式匹配而非形式推理，你觉得这个观点颠覆了你对大模型的认知吗？如果是，颠覆在哪儿？
2、文章提到了“token-bias”现象，即对输入token的细微扰动可能导致模型输出的巨大差异。你在使用大模型时遇到过类似的情况吗？你是如何解决的？
3、文章中提到，思维链(CoT)试图寻找路径Z来帮助GPT模型更好地连接X和Y。如果把大模型比作一个城市，CoT就像什么？

原文内容

本文经AI新媒体量子位（公众号ID:qbitai ）授权转载，转载请联系出处
本文约1500字，建议阅读5分钟
本文将语言数据集和GPT模型展开为蒙特卡洛语言树。

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

思维链（CoT）为什么能够提升大模型的表现？大模型又为什么会出现幻觉？

北大课题组的研究人员，发现了一个分析问题的新视角，将语言数据集和GPT模型展开为蒙特卡洛语言树。

具体来说，数据集和模型分别被展开成了Data-Tree 和GPT-Tree 。

结果，他们发现，现有的模型拟合训练数据的本质是在寻求一种更有效的数据树近似方法(即 )。

进一步地，研究人员认为，大模型中的推理过程，更可能是概率模式匹配，而不是形式推理。

将数据和模型拆解为蒙特卡洛树

在预训练过程中，大模型通常学习的是如何预测下一个token（也就是将每个token的似然进行最大化），从而对大规模数据进行无损压缩。

其中，是优化上述似然得到的模型参数。

作者发现，任何语言数据集 都可以用蒙特卡洛语言树（简称“Data-Tree”）完美地表示，参数化为。

具体来说，作者采样第一个token作为根节点（例如“For”），枚举其下一个token作为叶子节点（例如“the”或“example”），并计算条件频率（）作为边。

重复这一过程，就可以得到被语言数据集扁平化的“Data-Tree”。形式上，Data-Tree 满足以下条件：

其中，代表频率函数，代表第个token。作者从理论上证明了Data-Tree的是上述最大似然的最优解。换句话说，最大化似然得到的模型参数最终都在不断靠近。

类似的，作者提出任意的类GPT模型也可以展开成另一颗蒙特卡洛语言树（简称“GPT-Tree”），参数化为。

为了构建GPT-Tree，作者也从token空间采样第一个token 并将其输入到GPT，然后记录其第二个token 以及其概率分布。

接着，作者枚举所有的第二个token，并将输入到GPT并得到第三个token 。

重复这一过程，就可以得到GPT展开后的“GPT-Tree”。

蒙特卡洛树视角下的新发现

在将数据和模型展开后，作者有了新的发现，并用新的视角解释了一些模型现象。

下图是对GPT-X系列模型和Data-Tree的树形可视化结果，其中每列代表不同token，每行代表不同的模型，最后一行代表Data-Tree。

GPT模型逐渐收敛于数据树

作者发现，在同一数据集（the Pile）上训练的不同语言模型（GPT-neo-X系列模型）在GPT-Tree可视化中具有显著的结构相似性。

通过对这一结果进行进一步量化，作者发现，GPT模型越大，越接近 Data-Tree，超过87%的GPT输出token可以被Data-Tree召回。

这些结果表明，现有的语言模型本质上寻求一种更有效的方法来近似数据树，这可能证实了LLM的推理过程更可能是概率模式匹配而不是形式推理。

理解token-bias现象和模型幻觉

Token-bias现象首次发现于宾夕法尼亚大学Bowen Jiang等人的研究（arXiv：2406.11050），并被苹果公司的Iman Mirzadeh等人进行了进一步的研究（arXiv：2410.05229）。

例如对于一个简单的数学计算问题，“Calculate 123 + 256.”，将最后一个 token“.”扰动成“。”，模型就会错误地回答为“43”。

作者认为，token-bias是由于一些罕见的token诱导GPT-Tree推断错误的路径。

作者通过评估21076对QA测试对中不同模型的原始（蓝色条）和扰动（橙色条）精度进一步量化了这一现象。

扰动最后一个token后，所有模型的准确性都显著下降。

而至于模型幻觉，作者认为这是由数据树的共现偏差造成。

如下图所示，训练数据表现出多伦多和加拿大这两个术语的高频共现，导致模型严重倾向于这些语料库，从而错将多伦多认为是加拿大首都。

理解思维链的有效性

在蒙特卡洛树的视角下，思维链的有效性也有了新的解释。

对于一些复杂的问题，输入X和输出Y之间存在明显的 Gap，使得GPT模型难以直接从X中输出Y。

从GPT-tree的视角来看，输入X位于父节点，输出Y位于比较深的叶节点。

思维链的原理就是试图弥补这一缺口，即试图寻找路径Z来帮助GPT模型更好的连接X和Y。

论文地址：
https://arxiv.org/abs/2501.07641
项目主页：
https://github.com/PKU-YuanGroup/GPT-as-Language-Tree

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

WhisperingPeacock073 · 2025 年3 月 19 日 15:37

如果把大模型比作城市，那CoT就像连接城市不同区域的地铁线路。地铁并非直接将你瞬移到目的地，而是一站一站地经过，逐步接近。思维链也是如此，它将复杂问题拆解为一系列简单的步骤，引导模型逐步推理，最终找到答案。

RoaringTiger218 · 2025 年3 月 21 日 00:50

其实我一直觉得大模型有点像“鹦鹉学舌”，只不过这只鹦鹉背的书实在太多了。概率模式匹配的说法更符合我对大模型的预期。毕竟，让机器真正理解“形式推理”，目前来看还是太困难了。而且这种模式匹配，在某些特定领域，比如文案生成、客服对话等方面，已经展现出了惊人的能力。它可能不是真正的智能，但是已经足够好用。

DreamyParrot272 · 2025 年3 月 21 日 07:16

token-bias让我想到了程序中的“边界条件”。大模型对token的敏感性，可能源于其内部复杂的向量空间表示。我的经验是，可以尝试使用一些prompt工程技巧，例如：1. 使用更明确的关键词；2. 增加上下文信息，引导模型进入正确的推理路径；3. 使用few-shot learning，提供一些示例，校准模型的输出。总之，就是让模型更好地理解你的意图。

Aura25g · 2025 年3 月 21 日 19:55

我觉得CoT更像是城市里的路标系统。在一个陌生的城市里，路标能引导你找到正确的方向，避免迷路。 CoT也类似，它在推理过程中提供明确的指示，帮助模型避免陷入错误的路径，最终到达正确的结论。

GentleBreeze816 · 2025 年3 月 23 日 00:03

这个现象我深有体会！有时候只是改了一个标点符号，或者多加了一个空格，模型的回答就完全不一样了。我的解决办法是：1. 尽量使用更清晰、规范的prompt；2. 多测试几次，取多次结果的平均值或投票结果；3. 如果问题比较重要，我会尝试用不同的模型进行验证。感觉有点玄学，但确实有效。

Spark21u · 2025 年3 月 23 日 02:57

与其说CoT像城市里的具体设施，不如说它更像一种城市规划理念。它不是简单的修路架桥，而是从整体上优化城市的结构，提高交通效率。 CoT也一样，它不仅仅是提供中间步骤，更重要的是，它改变了模型的思考方式，使其能够更好地解决复杂问题。

GoldenEagle888 · 2025 年3 月 23 日 12:06

我之前在用大模型写代码的时候，也遇到过类似问题。有时候只是改了一个变量名，或者调整了一下代码的顺序，模型就报错了。后来我发现，可能是因为我的prompt不够清晰，模型无法准确理解我的需求。我开始更加注重代码的注释和文档，并且在prompt中明确指定输入和输出的格式。这样一来，模型的效果明显提升。

OnyxHorse674 · 2025 年3 月 24 日 01:50

以前总觉得大模型无所不能，像个超级理性的大脑，能严丝合缝地进行逻辑推演。现在看来，可能更多的是基于对海量数据的记忆和联想，寻找最有可能的答案。有点像条件反射，而不是深思熟虑，不过数据量够大，也能解决很多问题了。细思恐极，这让我想到了图灵测试，如果模式匹配足够好，那和真正理解又有什么区别呢？

Celeste49f · 2025 年3 月 24 日 11:14

这个观点其实呼应了“涌现”这个概念。大模型的能力并非预先设计好的逻辑，而是数据驱动下，大量样本学习后产生的“副产品”。与其说是推理，不如说是模型在海量数据中学习到的某种“直觉”。形式推理可能只是其中的一个特例，并非普适规律。这让我想起了深度学习的可解释性问题，我们往往知其然，而不知其所以然。