Mistral 开源 Devstral:性能超越 GPT-4.1-mini,笔记本电脑也能跑

Mistral 开源 Devstral,240 亿参数,性能超 GPT-4.1-mini,能在笔记本上运行,Apache 2.0 协议,免费商用。

原文标题:性能碾压GPT-4.1-mini!Mistral开源Devstral,还能在笔记本上跑

原文作者:机器之心

冷月清谈:

法国 AI 初创公司 Mistral 与 All Hands AI 合作,推出了开源语言模型 Devstral,该模型拥有 240 亿个参数,可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,非常适合本地部署和设备端使用。Devstral 旨在解决现实世界的软件工程问题,在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,优于其他大型模型,甚至超过了 GPT-4.1-mini 20 多个百分点。Devstral 现已根据 Apache 2.0 许可证免费提供,可通过 Mistral 的 Le Platforme API 访问。

怜星夜思:

1、Devstral 在 SWE-Bench Verified 基准测试中表现优异,这意味着它在解决实际编程问题上更有效。你认为在哪些特定场景下,Devstral 的优势会更加明显?是否可以在这个基础上,展望一下未来AI模型在软件开发领域会发挥什么样的作用?
2、文章提到 Devstral 可以在 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,这大大降低了使用门槛。如果让你用 Devstral 搭建一个本地的 AI 编程助手,你会考虑实现哪些功能?
3、Mistral 选择开源 Devstral,并采用 Apache 2.0 许可证,这对于开发者和整个 AI 社区意味着什么?你认为开源对于 AI 技术的发展有哪些积极影响和潜在风险?

原文内容

机器之心报道

编辑:陈陈

Devstral 是本地部署和设备端使用的理想之选。


法国 AI 初创公司 Mistral 强势回归,再次大力投身开源 AI 社区。先前,其因未开源 Medium 3 大模型而受到开发者广泛批评。


刚刚,该公司宣布,他们与开源初创公司 All Hands AI(Open Devin 的创建者)合作,发布了 全新的开源语言模型 Devstral,拥有 240 亿个参数 —— 比许多竞争对手的模型小得多,所需的算力也低得多。


因而,Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,是本地部署和设备端使用的理想之选。



值得一提的是,该模型现已根据宽松的 Apache 2.0 许可证免费提供,允许开发者和组织不受限制地部署、修改和商业化。


Mistral 表示,虽然典型的 LLM 擅长编码任务,例如编写独立函数或代码补全,但它们难以解决现实世界的软件工程问题。在现实世界中,需要在大型代码库中对代码进行上下文关联,以识别不同组件之间的关系,并识别复杂函数中的细微错误。


Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题;还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。


在顶级 SWE 基准测试中,Devstral 表现优于其他大型模型。


具体而言,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,领先于先前发布的所有开源模型,并领先于包括 GPT-4.1-mini 在内的多个闭源模型,它比 GPT-4.1-mini 高出 20 多个百分点。


注:SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试,主要测试 AI 模型在真实 GitHub 代码库问题(如 bug 修复、功能实现)上的表现。



在相同的测试框架(OpenHands,由 All Hands AI 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。 



最后,Devstral 可通过 Mistral 的 Le Platforme API 访问,型号为 devstral-small-2505,定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。


很多网友已经用起来了!


图片

图片


大家使用效果如何,欢迎评论区留言。


参考链接:

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

如果我用 Devstral 搭建本地 AI 编程助手,我首先会考虑代码自动补全、语法检查和错误提示这些基本功能,然后会加入代码重构建议和安全漏洞扫描,最好还能根据我的编程习惯进行个性化提示。

开源就像一把双刃剑。一方面,它可以促进技术的快速发展和普及;另一方面,也可能被滥用。特别是 AI 这种具有强大能力的技术,如果被用于恶意目的,后果不堪设想。如何平衡开源和安全,是我们需要认真思考的问题。我觉得应该加强监管,建立完善的伦理规范。

SWE-Bench 主要考察的是 bug 修复能力,Devstral 能超过 GPT-4.1-mini 这么多,说明它的代码理解能力确实很强。不过,实际软件工程不仅仅是修 bug,还有需求理解、架构设计、团队协作等等。所以我觉得它在目前阶段,更多的是能辅助开发者,而不是完全替代开发者。

我比较关注代码生成方面的应用。我会尝试让 Devstral 根据自然语言描述生成代码片段,或者根据现有的 API 文档自动生成调用代码。这样可以大大提高开发效率。

我觉得 Devstral 在需要理解大型代码库和复杂逻辑的场景下会更突出,比如代码审查、自动化测试,甚至辅助架构设计。未来 AI 模型,可能是软件开发者的超级助手,提高效率的同时,也能降低出错率。

我可能会把它打造成一个智能的 debug 工具,让它能够分析代码的运行状态,找出潜在的 bug,甚至给出修复建议。如果能跟 IDE 深度集成,就更好了。

我觉得 Mistral 这一步棋很高明!开源可以吸引更多的开发者参与进来,帮助完善和优化模型。Apache 2.0 许可证也很宽松,更加有利于商业化应用。不过,开源也意味着模型会被更多的人研究,可能会发现一些安全漏洞。所以,开源的同时也要加强安全防护。

同意楼上的观点,Devstral 的优势在于理解和处理大型代码库。我认为在复杂bug修复、遗留系统维护这种场景下尤其有用。未来AI可以深度参与软件开发的整个生命周期,从需求分析到部署运维,想想就激动!但是,安全性也是一个巨大的挑战。

开源 Devstral 对开发者来说绝对是福音,这意味着我们可以免费使用、修改和商业化这个模型,大大降低了学习和使用的成本。对于 AI 社区来说,开源有助于技术的传播和创新。大家可以基于 Devstral 进行二次开发,推动 AI 技术的进步。

积极影响:促进技术创新、加速技术普及、提高技术透明度。

潜在风险:代码质量难以保证、可能被用于不良用途、商业利益受损。