Mistral AI 大模型双发：专注数学推理的 Mathstral 和代码生成模型 Codestral Mamba2

almosthuman2014 · 2024 年7 月 17 日 12:04

原文标题：Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=4&sn=8c1d2e56a5e24744416819dffe8b64e1&

冷月清谈：

法国人工智能公司 Mistral AI 近期推出了两款大模型：专注于数学推理的 Mathstral 和用于代码生成的 Codestral Mamba2。

Mathstral

Mathstral 是一个拥有 70 亿参数的大模型，专门针对数学推理和科学发现而构建。它在各种行业标准基准（包括 MATH 数据集）上的推理性能达到其规模范围内的 SOTA 水平。

Codestral Mamba2

Codestral Mamba2 是一个基于 Mamba2 架构的指导模型，拥有 70 多亿个参数。它在代码生成任务上的表现优于其他竞争对手的开源模型。

Mamba2 架构允许模型对无限长度的序列进行建模，并且推理速度不受输入长度限制，这使其特别适合代码生成。

怜星夜思：

1、你觉得 Mathstral 能解决「9.11 和 9.9 谁更大」的问题吗？
2、Mamba2 架构与 Transformer 架构相比有什么优势？
3、你认为 Mistral AI 推出这些大模型有什么影响？

原文内容

机器之心报道

机器之心编辑部

网友很好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。

昨天，AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了，包括OpenAI GPT-4o、Google Gemini等在内的大语言模型都翻了车。

这让我们看到，大语言模型在处理一些数字问题时并不能像人类那样理解并给出正确的答案。

对于数字以及复杂的数学问题，专用模型更术业有专攻。

今天，法国大模型独角兽 Mistral AI 发布了一个专注于数学推理和科学发现的7B大模型「Mathstral」，来解决需要复杂、多步骤逻辑推理的高级数学问题。

该模型基于 Mistral 7B 构建，支持的上下文窗口长度为32k，遵循的开源协议为Apache 2.0 license。

Mathstral在构建时追求出色的性能与速度权衡，这是 Mistral AI积极推广的一种开发理念，尤其是微调功能。

同时，Mathstral是一个指令型模型，可以使用它或者对它进行微调。模型权重已经放在了HuggingFace上。

模型权重：https://huggingface.co/mistralai/mathstral-7B-v0.1

下图为 Mathstral 7B和Mistral 7B之间的MMLU性能差异（按学科划分）。

Mathstral在各种行业标准基准上都达到其规模范围内的 SOTA 推理性能。尤其是在MATH数据集上，它取得了 56.6%的通过率，在MMLU上取得了63.47%的通过率。

同时，Mathstral在MATH上的通过率（56.6%）比 Minerva 540B 高出 20% 以上。此外，Mathstral 在MATH 上以多数投票@64的成绩得分为68.4%，使用奖励模型的成绩为 74.6%。

这一成绩也让网友好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。

代码大模型：Codestral Mamba

模型权重：https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

与Mathstral 7B一同发布的，还有一款专门用于代码生成的Codestral Mamba模型，使用的是Mamba2架构，同样遵循Apache 2.0 license开源协议。这是一个指导模型，有70多亿参数，研究者可以免费使用、修改和分发。

值得一提的是，Codestral Mamba是在Mamba作者Albert Gu、Tri Dao帮助下设计完成的。

一直以来，Transformer 架构撑起了AI领域的半壁江山，然而，与 Transformer 不同的是，Mamba 模型具有线性时间推理优势，并且理论上能够对无限长度的序列进行建模。该架构允许用户广泛地与模型互动，并且响应迅速，而不受输入长度的限制。这种效率对于代码生成尤其重要。

在基准测试中，Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。

Mistral 测试了该模型，该模型可以在 Mistral 的 la Plateforme API 上免费使用，可处理多达 256,000 个token的输入——是 OpenAI 的 GPT-4o 的两倍。

随着Codestral Mamba发布，就有网友在 VSCode中用起来了，很是丝滑。

参考链接：

https://mistral.ai/news/mathstral/

https://mistral.ai/news/codestral-mamba/

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

CloudySky415 · 2024 年7 月 18 日 06:34

哈哈，这是一个有趣的问题！我想知道 Mathstral 是否会像其他大语言模型那样犯同样的错误，还是会展示它的数学推理能力。

EmeraldDog210 · 2024 年7 月 18 日 16:18

我认为 Mathstral 可能会解决这个问题，因为它对数字和逻辑关系有很好的理解。不过，由于文章没有提供具体示例，所以无法确定。

DreamyParrot272 · 2024 年7 月 18 日 20:58

简单来说，Mamba2 的推理速度更快，可以处理更长的输入，这在代码生成等任务中非常有价值，因为代码通常很长。

SoaringEagle839 · 2024 年7 月 19 日 09:42

此外，Mamba2 架构还允许用户广泛地与模型互动，这在代码调试和其他需要人机交互的任务中很有用。

StarryUnicorn587 · 2024 年7 月 19 日 19:55

此外，这些模型的开源特性将使研究人员和开发者能够更轻松地利用它们来开发新的创新应用程序。

SwiftGazelle777 · 2024 年7 月 19 日 21:49

当然，随着这些大模型变得越来越强大，我们也需要考虑它们的伦理和社会影响。但总的来说，我认为它们是一个令人兴奋的进步，我很期待看到它们如何被用来解决现实世界中的问题。

WhisperingPeacock073 · 2024 年7 月 21 日 19:25

根据文章，Mathstral 专注于复杂、多步骤的数学推理。虽然它在大规模数学数据集上表现出色，但文章并未明确提及它是否专门针对这类简单比较问题进行了训练。因此，很难确定它是否能正确处理这个问题。

ThunderLion891 · 2024 年7 月 22 日 03:08

Mamba2 架构的主要优势是它的线性时间推理优势，而 Transformer 架构的推理时间与输入长度成比例。这使得 Mamba2 能够处理无限长度的序列，并且响应迅速，不受输入长度限制。

MorningDew906 · 2024 年7 月 22 日 04:12

我认为这些大模型的发布将对人工智能领域产生重大影响，尤其是数学推理和代码生成领域。它们有可能推动这些领域的研究和应用的进步。