Mistral 发布 Magistral 系列模型:开源强推理,速度提升10倍

Mistral AI 发布 Magistral 系列模型,开源版本推理速度提升10倍,多种语言推理能力优秀,或将加速大模型在强推理上的应用。

原文标题:Mistral的首个强推理模型:拥抱开源,推理速度快10倍

原文作者:机器之心

冷月清谈:

Mistral AI 发布了全新的 Magistral 大语言模型系列,包含专有模型 Magistral Medium 和开源模型 Magistral Small。Magistral 模型在推理能力上表现出色,Magistral Medium 在 AIME2024 上的得分高达 73.6%。Magistral 模型擅长多种语言的高保真推理,尤其适合英语、法语、中文等语言。借助 Le Chat 中的 Flash Answers,Magistral Medium 还能实现比大多数竞争对手快 10 倍的 token 吞吐量,非常适合需要长时间思考和更高准确度的通用任务。Magistral 采用了自主研发的可扩展强化学习流水线,并发现基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力,通过指定格式和语言要求,甚至能用用户相同的语言进行推理。Mistral 正在把 Magistral Medium 模型应用于包括 Amazon SageMaker 在内的主流云平台,Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也将紧随其后。在定价上,Magistral Medium 虽然比 Mistral Medium 3 价格有所上涨,但与 OpenAI 和 Gemini 相比仍具有竞争力。Mistral 的目标是从此版本开始快速迭代模型。

怜星夜思:

1、Mistral 强调 Magistral 使用与用户相同的语言进行推理,这在技术上是如何实现的?除了奖励机制,还有什么其他因素会影响模型的多语言推理能力?
2、Magistral Medium 的定价策略虽然比自家老款有所上涨,但相比 OpenAI 和 Gemini 仍然具有竞争力。你认为这种定价策略背后,Mistral 最大的底气是什么?
3、Magistral 采用了自主研发的可扩展强化学习流水线,并发现基于文本的强化学习能够提升多模态理解。这对其他大模型厂商有什么借鉴意义?

原文内容

机器之心报道

编辑:泽南

强推理终于要卷速度了。


大模型强推理赛道,又迎来一位重量级玩家。


本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。


此次发布包含两个版本:面向企业客户的大型专有模型 Magistral Medium,以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可,可以自由使用、商用化;Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。


  • 直接使用:https://chat.mistral.ai/chat

  • 模型开源:https://huggingface.co/mistralai/Magistral-Small-2506

  • 论文:https://mistral.ai/static/research/magistral.pdf


在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64%,得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。



新模型在一些其他高要求测试中也表现出色,包括研究生水平的问答基准测试 GPQA Diamond 和用于编程挑战的 LiveCodeBench。


Mistral 进一步展示了一些实际使用的案例。


图片

Magistral Medium 展示了自身的编程能力,一次生成输出的代码就能模拟出重力、摩擦力。


除了通过 Benchmark 和编程等「必考题」,Magistral 模型还擅长在多种语言中保持高保真推理。它尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等语言的推理。


图片


借助 Le Chat 中的 Flash Answers,Magistral Medium 还能实现比大多数竞争对手多达 10 倍的 token 吞吐量。Mistral 称,这基本可以实现大规模的实时推理和用户反馈。


图片


因为以上一系列特性,Mistral 认为 Magistral 非常适合需要长时间思考和更高准确度的通用任务,相比非推理类的大模型,提升更为明显。


在技术报告中,Mistral 表示 Magistral 应用了自主研发的可扩展强化学习流水线,其并非依赖现有实现和从先前模型中提炼出的强化学习痕迹,而是采用自下而上的方法,完全依赖自己的模型和基础设施。


在 Magistral 工作中研究人员发现,基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。


有趣的是,Magistral 的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。在没有语言限制的初步实验中,Mistral 工程人员也经常观察到混合英语、中文和俄语单词的输出。虽然这些输出是连贯的,但为了避免语言切换,他们在计算对话(由问题、想法、答案组成)的奖励时,首先通过删除 LaTeX 内容和代码块对这三个部分进行归一化,然后对每个部分应用 fastText 分类器。如果分类器指示所有三个部分都使用相同的语言,则会额外给予 0.1 的奖励。


这样简单的修改足以使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。尽管只将原始英语问题翻译成几种语言,但我们能观察到 Magistral 模型能够成功生成任意语言的思维链、系统提示。


Mistral 进一步在系统提示中指定了格式和语言要求,如下图所示。实验发现强化学习训练对这些系统提示非常敏感。例如,系统提示中的「尽可能随意,尽可能长」部分增加了模型的熵,从而改善了模型的探索能力。



Mistral 正在把 Magistral Medium 模型应用于包括 Amazon SageMaker 在内的主流云平台,Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也将紧随其后。


在使用成本方面,Mistral 把 Magistral Medium 定位为一款独特的高端产品,因此价格也是大幅上涨。


它的每百万输入 token 价格为 2 美元,每百万输出 token 是 5 美元,相比老款 Mistral Medium 3 价格大幅上涨,后者输入成本仅为 0.4 美元,输出成本为 2 美元。


然而,与外部竞争对手相比,Magistral Medium 的定价策略却显得极具竞争力。它的输入成本比 OpenAI 最新型号便宜,与 Gemini 2.5 Pro 的价格处于同一水平,输出成本也远低于这两款产品。


看起来,推理速度比竞品快 10 倍的竞争优势确实很大。


Magistral API 与其他领先 LLM 的推理成本对比。


在 Magistral 推出之后,Mistral 的目标是从此版本开始快速迭代模型。


参考内容:

https://mistral.ai/news/magistral

https://venturebeat.com/ai/mistrals-first-reasoning-model-magistral-launches-with-large-and-small-apache-2-0-version/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得 Mistral 的底气主要来自两个方面:

1. 技术优势:文章提到了 Magistral 在推理速度上比竞品快 10 倍。这意味着用户可以在相同时间内完成更多任务,或者在更短时间内获得结果,从而降低了总体成本。这种效率优势是可以转化为价格优势的。
2. 开源生态:Mistral 一直积极拥抱开源。开源模型可以吸引更多的开发者参与,形成一个活跃的社区,不断改进和优化模型。这种开源生态可以降低 Mistral 的研发成本,并提高模型的竞争力。

当然,品牌、市场定位等因素也会影响定价策略,但技术和开源应该是 Mistral 最核心的竞争力。

看到这个问题,我就想到之前用过的某些翻译工具,有时候翻译出来的东西虽然语法没问题,但是总感觉怪怪的,不够“地道”。Mistral 强调使用相同语言进行推理,是不是也能避免这种“翻译腔”?如果真是这样,那在一些需要高度本地化的场景下,Magistral 就很有优势了。

咱就说,有没有可能 Mistral 其实是在赔本赚吆喝?先用低价吸引用户,抢占市场份额,等用户形成依赖后,再慢慢涨价?毕竟互联网公司都喜欢玩这一套。

我觉得这个发现也提醒我们,不要忽视文本的力量。现在很多人都在研究多模态,但文本仍然是人类知识的主要载体。通过对文本进行深入的分析和学习,可以提升模型的多模态理解能力。

当然,多模态肯定是未来的趋势。但我们应该把文本作为基础,而不是把它抛弃。

关于 Mistral 使用与用户相同语言进行推理的技术实现,文章提到了奖励机制,通过对问题、想法和答案进行语言分类,奖励那些使用相同语言的部分,从而避免了推理过程中的语言切换。但我觉得这可能只是冰山一角。更深层的原因可能包括:

1. 预训练数据: 模型在训练时接触了大量的多语言数据,使其具备了初步的多语言理解和生成能力。
2. 模型架构: 像 Transformer 这样的架构,本身就对语言的顺序不敏感,更容易捕捉不同语言之间的共性。
3. 微调策略: 除了强化学习,可能还使用了其他微调方法,例如多语言对比学习,来增强模型的多语言一致性。
4. Prompt 工程: 通过精心设计的 Prompt,引导模型使用特定的语言进行推理。

当然,这只是我的猜测,具体实现可能更加复杂。

其他厂商:学到了,这就把强化学习工程师的工资砍一半,让他们多试错!:dog_face: