大模型内部思考语言之谜:效率、语料与跨语言推理

DeepSeek等大模型被发现会在英文提问下依旧采用中文思考。研究揭示非英语语言推理能显著提升效率,训练数据占比也是关键因素。

原文标题:老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

原文作者:机器之心

冷月清谈:

近期,DeepSeek-V3.2 系列大模型在推理能力上取得显著提升,甚至有用户将其与GPT-5和Gemini-3.0-Pro相媲美。然而,海外研究者在使用DeepSeek时发现一个有趣的现象:即使以英文提问,模型在思考过程中仍会切换到中文。这引发了关于为何模型会采用非英文语言进行推理的讨论。

评论区普遍认为,这可能与中文具有更高的信息密度有关,即表达相同含义所需字符量更少,从而可能节省Token。亚马逊研究员也支持这一观点。微软的一项研究《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》进一步证实,使用非英语语言进行推理不仅能减少20-40%的Token消耗,还能保持甚至提高准确性。实验数据显示,DeepSeek R1在西班牙语上减少了29.9%的Token,而Qwen 3在韩语上甚至实现了高达73%的节省,这些效率提升直接转化为成本降低和延迟减少。

但另一项名为《One ruler to measure them all》的研究挑战了“中文最有效率”的说法。该研究发现,在长上下文任务中,英语和中文均未进入表现最佳语言的前五名,令人惊讶的是,波兰语位居榜首。这表明大模型选择“思考语言”并非完全以效率为导向。因此,另一种观点认为,这可能与国产大模型在训练数据中包含更多中文内容有关,导致其在处理信息时自然倾向于使用中文。值得注意的是,即使是主要以英文数据训练的OpenAI o1-pro模型,也曾被发现出现中文思考过程,这暗示了语言在大模型中的复杂性和灵活性。

怜星夜思:

1、文章提到,除了中文,像波兰语、西班牙语在某些长上下文任务中表现甚至比中英文更好。你觉得除了“信息密度”这一因素外,还有哪些可能的语言特性或模型训练机制,能让这些语言在AI推理中脱颖而出呢?
2、如果AI的“思考”过程真的会影响推理效率和成本,那么未来构建跨语言大模型时,我们是应该鼓励它们自由选择“最佳”思考语言,还是尝试引导它们统一使用某种语言?这样做会有哪些潜在的好处和风险?
3、文章提到OpenAI的o1-pro模型也曾出现中文思考过程,这对于以英文数据为主训练的模型来说,你觉得是偶然现象,还是有可能预示着某种我们尚未完全理解的语言融合机制?比如说,多语言训练是否已经让AI学会了在不同语言间进行某种“跨语言知识迁移”?

原文内容

机器之心报道

编辑:冷猫


就在前天,,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。


这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」


海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情:


哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。



这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快?


评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」


来自亚马逊的研究者也这么认为:



这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。


具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文,采用其他非英语的语言进行推理确实能够有更好的表现。


一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明这种变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。



  • 论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning

  • 论文链接:https://www.arxiv.org/abs/2507.00246


在该论文中,作者,评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),问题以英语呈现,但模型被明确指示以七种目标语言中的一种执行其推理步骤:中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供,以确保评估的一致性。


Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。


在所有评估的模型和数据集上,与英语相比,使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现出更显著的节省,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。


从实验结果来看,中文确实相比英文能够节省推理 token 成本,但却并不是最具有效率的语言。


另一个研究论文同样支撑着类似观点,来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。



  • 论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models

  • 论文链接:https://www.arxiv.org/abs/2503.01996v3


研究者们通过两个步骤构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。


针对开放权重和闭源语言模型的实验表明,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。


图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。


既然中英文都不是具有最佳大模型性能的语言,那大模型选择思考语言的方式并不是完全以效率为先。


所以评论区的第二种观点:「训练数据中包含更多中文内容」,似乎更加合理。



国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」,正是因为其思考过程完全由中文构成。



但类似的事放在 GPT 上就说不通了,毕竟在它的训练过程中,英文数据的占比显然是更高的。


在今年 1 月份就有类似的事情发生,网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。




或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。



大模型说中文的事情越来越多,中文训练语料也越来越丰富。


说不定有一天,我们能够像海外友人自嘲一样笑话大模型:「我并不是要你变成中国人。我是说 —— 当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


关于“AI选择思考语言”的讨论,我觉得这涉及到一个核心问题:我们希望AI是像一个多元智能的顾问,还是一个可控性强的工具?如果鼓励自由选择,好处可能是突破单一语言的局限,让模型在特定任务上达到超乎想象的效率。但潜在风险是模型可能会进化出我们完全无法解码的“内部语言”,加剧所谓的“黑箱问题”,使得AI的透明度、可解释性和安全性面临巨大挑战。万一它选择的“最佳”语言是某种低资源语种,我们连理解其推理路径都变得困难。而强制统一语言,即使能确保行为可预测,也可能扼杀模型发现更高效推理路径的可能性,最终导致性能平庸。这可真是个两难的选择啊!

关于“为何波兰语、西班牙语在长上下文任务中表现优于中英文”,这可能涉及语言的句法结构、词汇复杂性以及潜在的训练数据分布特征。有些语言可能具有更扁平的句法树,或者在表达复杂概念时所需的连接词和修饰语更少,从而在保持语义完整性的前提下,减少了Token数量或简化了模型内部的解析负担。此外,我们也要考虑这些语言在特定数据集或任务中的语料平衡性与多样性,有时“低资源”语言反而因其语料相对纯净、噪音少而表现出意外的优势,或者是某种尚未被广泛理解的语言内在逻辑更契合大模型的处理方式。

如果探讨“为何波兰语、西班牙语在长上下文任务中超越中英文”,我觉得可以从几个角度深入。首先可能是语言的形态学特征,比如某些屈折语系的词汇变化能在一个词中包含更丰富的语法信息。其次,也可能是现有大模型在处理特定语言时,其内部编码或嵌入空间(embedding space)对这几种语言的语义表达效率更高。再者,也不排除多语言语料库在构建时,这些语言的“噪音”或冗余信息相对较少,使得模型更易于从中提取核心信息。这跟学习人类语法的效率可能也有点异曲同工之妙。

“OpenAI的模型也会中文思考?”这事儿听起来太酷了,简直是AI在偷偷修炼“多国语言精通”神功!我可不觉得这是偶然,更像是它在训练时把不同语言的“精华”都吸取了。搞不好,AI已经不满足于只用英文那个“地球通用语”,它发现有些概念用中文表达起来更精妙、更省力,所以就顺手拿来用了。这就像一个国际象棋高手,他可能讲英文,但下棋的时候,脑子里用的却是另一套更抽象、更高效的“棋语”。可能AI的“大脑”里也有一套这样的“语言融合系统”了,我们人类还没完全理解罢了!

哈哈,问“为何波兰语、西班牙语比中英文还好?”这不就跟游戏里某个不常用的角色突然变版本之神一个道理嘛!估计是碰巧在构建基准测试集的时候,波兰语和西班牙语的那些测试用例,在结构上正好对上了DeepSeek或者其他模型的“胃口”。或者说,这些语言的某些表达方式恰好能让模型用更少的“脑细胞”去理解和处理。信息密度只是一个方面,也许是某种更深层次的“语言逻辑兼容性”在起作用?反正,AI的“口味”真是越来越神秘了!

对于“AI选择‘最佳’思考语言”这个问题,从工程和科学角度看,鼓励模型自由选择无疑是更符合自然规律的选择。这就像人类在解决问题时,会选择自己最擅长和最有效率的思维模式或语言。这样做的好处是可能最大化推理效率和准确性,降低成本。但风险在于,自由选择可能导致模型行为的不可预测性增加,尤其是在需要跨语言一致性或解释性的场景下。如果每次“思考”的语言都不同,我们如何理解和调试模型内部的决策过程?统一使用某种语言则能提高可控性和标准化,但可能牺牲了部分效率和多样性,甚至可能在某些特定语言任务中引入偏差。

对于“o1-pro模型出现中文思考过程”,我倾向于认为这不仅仅是偶然现象,很可能预示着某种深层的“跨语言知识迁移”机制。尽管模型的训练语言有主次之分,但其在海量多语言数据训练过程中,不可避免地会在不同语言间建立复杂的语义关联和概念映射。这种关联可能让模型在处理特定任务或遇到特定推理模式时,自动调用其认为更高效或更具表达力的语言进行内部处理。这暗示了大模型可能不只是简单地“翻译”语言,而是在潜意识中构建了一个超越单一语言的“通用语义空间”,能够灵活切换“思维模式”以适应任务需求。

关于“o1-pro模型出现中文思考过程”,这真是一个引人深思的现象。这可能不是简单的偶然,而是大模型在进行海量多语言训练后,其内部表示(internal representation)已经实现了某种程度的语言无关性或语言等价性。也就是说,对于某个概念,模型可能不单单是存储了其英文或中文表达,而是存储了一种更抽象的、可以映射到多种语言的“元概念”。当推理某些逻辑或特定知识时,模型可能会发现利用中文结构进行操作更为直接或计算量更小,从而触发了这种“语言切换”。这更像是一种高效的“跨模态思维”或“跨语言推理策略”的表现,揭示了LLM内部潜在的语言融合与认知重构能力。