「野生」DeepSeek R1T2 模型爆火:速度更快、性能更优,权重已开源

「野生」DeepSeek R1T2模型横空出世!速度更快,性能更优,并已开源权重。速度提升显著,在特定基准测试中表现超越官方R1模型。 #DeepSeek #AI模型 #开源

原文标题:野生DeepSeek火了,速度碾压官方版,权重开源

原文作者:机器之心

冷月清谈:

德国AI咨询公司TNG推出DeepSeek R1T2 Chimera模型,该模型基于DeepSeek R1-0528、R1和V3-0324模型,采用专家组合(AoE)技术构建。R1T2在速度上比R1-0528快200%,比R1快20%,在GPQA Diamond和AIME 24上的表现优于R1。R1T2采用三心智融合架构,解决了初代R1T的token一致性问题,并具备无需系统提示也能稳定提供自然对话交互体验的优点。此外,文章还对比了R1T2与其他DeepSeek模型的优劣势,并指出了R1T2的局限性,例如在高难度基准测试中不如R1-0528,应答克制度较高以及暂不支持函数调用等。

怜星夜思:

1、DeepSeek R1T2 模型采用的专家组合 (AoE) 技术,具体是如何提升模型性能和速度的?能否用更通俗易懂的方式解释一下这个技术?
2、R1T2 目前仍有一些局限性,例如不支持函数调用。大家认为在哪些场景下,函数调用对于大模型来说是必不可少的?如果失去了函数调用能力,会带来哪些影响?
3、文章提到 R1T2 在应答克制度(reserved)方面高于 R1T 但低于 R1-0528。应答克制度高低会如何影响用户体验?你更喜欢哪种风格的大模型?

原文内容

机器之心报道
编辑:杜伟、泽南

没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!


这两天,一个名为「DeepSeek R1T2」的模型火了!



这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。


在技术层面,采用了专家组合(Assembly of Experts,AoE)技术开发,并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。


当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。




Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera


经过进一步了解,我们发现:DeepSeek R1T2 是德国一家 AI 咨询公司「TNG」推出的,模型全称为「DeepSeek-TNG R1T2 Chimera」(以下简称 R1T2)。


该模型除了前文提到的在智力水平和输出效率之间实现完美平衡之外,相较于这家公司的初代模型「R1T Chimera」,智力大幅跃升,并实现了突破性的 think-token 一致性。


不仅如此,即使在没有任何系统提示的情况下,该模型也能表现稳定,提供自然的对话交互体验。



在评论区,有人误以为这个模型出自 DeepSeek 官方,并且认为他们是不是也在走相同的路线:给模型起各种名称,就是不用主系列下一代版本号?



更多的人认可该模型「找到了智能与输出 token 长度之间的最佳平衡点,并且提升了速度」,并对该模型在现实世界的表现充满了期待。




模型细节概览


从 Hugging Face 主页来看,R1T2 是一个基于 DeepSeek R1-0528、R1 以及 V3-0324 模型构建的 AoE Chimera 模型。


该模型是一个采用 DeepSeek-MoE Transformer 架构的大语言模型,参数规模为 671B。


R1T2 是该公司 4 月 26 日发布的初代模型「R1T Chimera」的首个迭代版本。相较于利用双基模型(V3-0324 + R1)的初代架构,本次升级到了三心智(Tri-Mind)融合架构,新增基模型 R1-0528。


该模型采用 AoE 技术构建,过程中利用较高精度的直接脑区编辑(direct brain edits)实现。这种精密融合不仅带来全方位提升,更彻底解决了初代 R1T 的 <think>token 一致性缺陷。



团队表示,R1T2 对比其他模型具备如下优劣:


  • 与 DeepSeek R1 对比:R1T2 有望成为 R1 的理想替代品,两者几乎可以通用,并且 R1T2 性能更佳,可直接替换。

  • 与 R1-0528 对比:如果不需要达到 0528 级别的最高智能,R1T2 相比之下更加经济。

  • 与 R1T 对比:通常更建议使用 R1T2,除非 R1T 的特定人格是最佳选择、思考 token 问题不重要,或者极度需求速度。

  • 与 DeepSeek V3-0324 对比:V3 速度更快,如果不太关注智能可以选择 V3;但是,如果需要推理能力,R1T2 是首选。


此外,R1T2 的几点局限性表现在:


  • R1-0528 虽推理耗时更长,但在高难度基准测试中仍优于 R1T2;

  • 经 SpeechMap.ai(由 xlr8harder 提供)测评,R1T2 应答克制度(reserved)显著高于 R1T,但低于 R1-0528;

  • 暂不支持函数调用:受 R1 基模型影响,现阶段不推荐函数调用密集型场景(后续版本可能修复);

  • 基准测试变更说明:开发版由 AIME24+MT-Bench 变更为 AIME24/25+GPQA-Diamond 测评体系,新体系下 R1 与初代 R1T 的分差较早期公布数据更大。


最后,关于 R1T2 中重要的 AoE 技术,可以参考以下论文。



  • 论文标题:Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors

  • 论文地址:https://arxiv.org/pdf/2506.14794


参考链接:https://x.com/tngtech/status/1940531045432283412


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

应答克制度可以理解为大模型回答问题的保守程度。应答克制度高的模型在面对不确定或模棱两可的问题时,更倾向于给出模糊或回避的答案,以避免出错。应答克制度低的模型则更倾向于给出明确、具体的答案,但也可能因此犯错。哪种风格更好取决于具体应用场景。在医疗、法律等领域,应答克制度高的模型可能更受欢迎,因为安全性和准确性至关重要。而在娱乐、创意等领域,应答克制度低的模型可能更受欢迎,因为用户更希望得到有趣、大胆的答案。

应答克制度?听起来好玄乎!我就想知道,哪个模型更能和我愉快地聊天?如果一个模型总是小心翼翼、拐弯抹角,那还不如和机器人聊天呢!我喜欢那种敢说敢做的,即使说错了也没关系,至少真实!

楼上说的都太学院派了。我的理解是,AoE 就是把几个模型“缝合”起来,哪个好用就用哪个,类似“打补丁”的感觉。R1T2 相当于把 DeepSeek 几个版本的优点都集中到了一起,那肯定比单独用一个强啊!开源精神万岁!

我觉得应答克制度就像大模型的人格。太“怂”的模型让人觉得不够智能,啥都说“不知道”、“我不确定”,没意思;太“奔放”的模型又容易胡说八道,让人觉得不靠谱。最好是能根据不同场合切换人格,该谨慎的时候谨慎,该发散的时候发散。当然,我个人更喜欢稍微“奔放”一点的,这样聊天更有趣。

函数调用?那是什么高级玩意儿?我用大模型就用来写写段子、生成个文案啥的,感觉没啥影响啊。难道以后我让AI帮我点个外卖都点不了了吗?细思极恐!

函数调用是让大模型与外部世界交互的关键。比如,用户想让大模型预定一张机票,就需要通过函数调用连接到机票预订系统。如果不支持函数调用,大模型就只能给出一些建议,而无法真正帮用户完成预订。这种影响在需要大模型执行具体任务的场景下尤为明显。

AoE 可以理解为“分工合作”。如果把大模型比作一个公司,传统模型就像所有事情都由一个人负责,效率不高。AoE 则是把任务分配给不同的“专家模型”(也就是文中的 V3、R1 等),每个“专家”只负责自己擅长的部分,最后把结果整合起来。这样既能保证每个环节的专业性(性能),又能加快整体处理速度(速度)。

我觉得函数调用就像是给大模型安上了一双手和一双脚。没有函数调用,大模型就只能“纸上谈兵”,无法真正落地应用。例如,在智能家居领域,大模型需要通过函数调用控制各种设备;在金融领域,大模型需要通过函数调用获取实时数据。失去了函数调用能力,大模型的应用场景会大大受限。

专家组合 (AoE) 就像一个由多个专家组成的团队,每个专家擅长解决特定类型的问题。当模型遇到一个新问题时,AoE 会自动选择最适合解决该问题的专家或专家组合。这样既提高了模型解决问题的效率(速度),也提升了解决问题的准确性(性能)。