Pixtral 12B 发布:Mistral 开放多模态模型,助力易用且有用的 AI

原文标题:?Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

原文作者:机器之心

冷月清谈:

**Pixtral 12B关键信息:**
  • 模型名称:Pixtral 12B
  • 参数量:12B
  • 层数:40
  • 隐藏维度:14,336
  • 注意力头:32
  • 词汇表大小:131,072
  • 特点:支持1024×1024图像,高级图像处理,庞大细腻的语言理解和生成能力

性能表现:

  • 全面胜过 Claude-3 Haiku 和 Gemini-1.5 8B
  • 在开放多模态模型中表现最佳
  • 在多模态知识和推理、多模态问答、多模态指令遵从和文本理解能力上领先

应用案例:

  • OCR转录科学公式
  • 识别潦草手写内容
  • 图像信息提取和内容理解
  • 复杂图像信息提取和关键信息分析
  • 考试题解答
  • 基于手绘草稿生成HTML代码

Mistral的愿景:

  • 简化用户使用流程,降低使用成本
  • 将用户交互应用于AI模型的持续训练
  • 持续将新软件整合进AI的工具箱,提升其能力

Mistral团队特色:

  • 专注模型开发,淡化营销宣传
  • 10万关注者仅关注0人,仅发10条推文发布新模型



怜星夜思:


1、Pixtral 12B相比其他开源多模态模型,有什么优势和劣势?
2、根据Pixtral 12B的特性,你觉得它在哪些行业或应用场景中具有潜力?
3、如果我有兴趣使用Pixtral 12B,有哪些建议或注意事项?

原文内容

机器之心报道

编辑:Panda

训练完就直接上模型。


我们都知道,Mistral 团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。


解析一下这个链接,可以看到大小共 23.64 GB,其中包含 4 个文件,其中最大的文件是一个封装的多模态大模型。

图片


动作快的非官方 Mistral 社区已经将该模型上传到了 Hugging Face。

  • 磁力链接:magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910
  • Hugging Face 地址:https://huggingface.co/mistral-community/pixtral-12b-240910

这一发布引来如潮好评,有人将其与近日经常出现在话题热榜中的 Reflection 模型做了对比,更是尽显 Mistral 团队踏实做事的风格:

图片


Pixtral 12B 的规格和性能

该模型的名字为 pixtral-12b-240910,从名字也能看出,该模型的参数量为 12B。

其中 params.jsom 列出了该模型的相关参数:


可以看到,该模型有一个视觉编码器,其支持 1024×1024 大小的图像,有 24 个隐藏层,支持高级图像处理。

该模型的层数为 40、隐藏维度大小为 14,336,注意力头有 32 个。

此外,Pixtral 12B 的词汇库有 131,072 个不同的 token,可以说相当庞大,因此能实现非常细腻的语言理解和生成。

从这些参数和配置也能看出,Pixtral 12B 至少有能力处理文本和图像数据,实现多模态处理。

Pixtral 12B 的发布广受好评,这是因为人们一直在期待开放模型社区也能获得好用易用的多模态模型。Mistral 这条磁力链接将我们向这个方向推进了一步。

不过由于该模型才刚发布,其效果究竟如何还尚未可知,但好在我们也不是完全没有线索。就在昨天,Mistral 低调地举办了一场峰会 Mistral AI Summit,演讲者包括 Mistral CEO Arthur Mensch 以及英伟达 CEO 黄仁勋等。

几位参与者在社交网络上分享了一些现场照片,让我们可以一窥 Pixtral 模型的性能。


在这张幻灯片中,我们可以看到 Pixtral 12B 支持任意大小的图像和 128k 的上下文窗口。另外,该模型也能处理同时包含文本和图像的大型文档。

具体性能指标上,Pixtral 12B 的表现虽不及 GPT-4o 和 Claude-3.5 Sonnet,但在各基准上全面胜过了 Claude-3 Haiku 和 Gemini-1.5 8B。


而在几个开放多模态模型中,Pixtral 在大多数基准上都表现最佳,仅在 DocVQA 上略低于 Qwen2 7B。


Mistral 展示了 Pixtral 的一些具体应用案例。

通过 OCR 将包含数学公式的科学文章图片转录成 Markdown 格式?毫无压力!


识别潦草的手写内容,也不在话下。


提取图片信息和描述图像内容?这已经算是多模态模型的基本能力,那就更无问题了。



不仅如此,Pixtral 还能理解更加复杂的图像,并从中提取出关键信息和见解:


Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。


多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。


比如它能根据 DNA 图像分析出该图像是在解释 DNA 的结构(相信这个能力很适合用于学习新知识):


也能基于手绘的潦草网页设计草稿推理生成 HTML 代码:


拍一拍考试卷让其解答数学选择题,也轻轻松松就能完成:


至于 Pixtral 是否支持视频,Mistral 在问答环节分享说他们还未测试过视频帧,但已经尝试过 PFF(点特征融合),并且他们表示 Pixtral「128k 的上下文应该能处理视频」。此外,Pixtral 也能泛化用于卫星图像。

至于如何使用 Pixtral 12B,如果你的硬件性能足够,当然可以自己部署;但 Mistral 的开发者关系负责人 Sophia Yang 也表示,未来会通过 Mistral 的 Le Chat 和 La Platforme 提供该模型。


Mistral 的愿景:让 AI 好用且有用

根据网友们分享的消息,在 Mistral AI Summit 上,该公司分享了他们的愿景。

他们认为,要让 AI 有用,最关键的其实是系统问题。

图片


但对不懂相关技术的普通用户来说,这个系统显得非常复杂。Mistral 想做的就是简化用户的使用流程,降低用户的使用成本。他们想把复杂的技术部分都整合进 La Platforme,让用户只需进行简单的配置就能享受 AI 带来的便利和效率。


此外,为了让 AI 有能力解决复杂问题,将用户交互用于 AI 模型的持续训练是很有必要的。同时还需要持续地将新软件整合进 AI 的工具箱,提升其能力。

目前,Mistral 的模型矩阵中已经包含了用于通用任务和科研任务的多种免费模型。


另外,该公司还为编程任务开发了 Codestral 模型,支持 80 多种编程语言并且性能优秀。不过需要指出,虽然 Mistral 允许研究者基于研究和测试目的免费使用 Codestral,但若想将其投入商业应用,则需要向其购买商用权限 —— 这也算是该公司为数不多的盈利项目之一。


今年 6 月份,Mistral 以 60 亿美元的估值获得了 6.4 亿美元投资,之后不久便发布了该公司的旗舰模型 Mistral Large 2。

Mistral Large 2 的参数量为 123B,支持多语言和函数调用,具备强大的推理和代码能力,整体性能虽不及当前最佳的 GPT-4o 和 Claude-3.5 Sonnet,但却超过了 405B 参数的 Llama 3.1。同样,Mistral Large 2 也免费开放给非商业用途。


Mistral 团队绝对算是 AI 模型开发领域的一股清流。在 AI 领域普遍关注营销宣传的如今,Mistral 的 Twitter 虽有 10 万关注者却并未关注任何一个人,其仅有的 10 条推文也几乎都是在发布新模型,其 CEO Arthur Mensch 的个人账户也毫不活跃。

Mistral AI 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。一个有趣的小知识是因为该公司来自法国,所以 Le Chat 的意思其实就是「猫」,这也是其 Logo 之所以像一只猫的原因。


Mistral AI 曾在 2023 年 6 月获得了创纪录的 1.18 亿美元种子轮融资(据称是欧洲历史上最大的种子轮融资)。当然,这个纪录在前些天已经被 打破。

参考链接:

https://x.com/MistralAI/status/1833758285167722836

https://x.com/swyx/status/1833926630861070359


早鸟开售|「端侧 AI 大模型开发与应用实践」技术论坛·上海

端侧AI爆发元年,企业如何紧抓端侧大模型的机遇,探索行业应用,实现业务增长?研发人员如何提升技能,将大模型应用于PC、手机、家居、智能穿戴、安防、机器人等终端设备?

10月26日,论坛汇聚端侧大模型领先技术及应用企业代表,从理论到实践,助您全方位掌握端侧大模型部署应用,开启AI技术升级之路,抢占智能终端新机遇!

立即行动,扫码即刻享受限时早鸟优惠!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

需要注意的是,虽然Pixtral 12B免费开放,但它的训练和部署成本并不低。因此,在投入生产环境之前,需要评估模型的性价比。

相比之下,Pixtral 12B更适合学术研究和个人开发者使用,而GPT-4o和Claude-3.5则更适合追求极致性能的企业和组织。不过,随着开源模型的快速发展,Pixtral 12B的性能差距可能会逐渐缩小。

建议:

  • 明确你的使用目的,选择合适的部署方式
  • 充分利用Mistral提供的配套工具和文档
  • 积极参与社区讨论,获取最新资讯和技术支持

注意事项:

  • Pixtral 12B是一个大模型,对硬件和算力要求较高
  • 对于商业用途,需要购买授权
  • 模型可能存在一定的偏差和局限性,需要谨慎使用

在使用Pixtral 12B之前,建议先通过Hugging Face等平台对其基本功能和性能进行初步测试。了解模型的优缺点,可以帮助你更好地设计和开发应用。

Pixtral 12B最大的优势不在于参数量或性能,而在于Mistral团队的低调务实。他们专注于模型开发,不炒作概念,踏踏实实地为用户提供好用易用的AI工具,这一点难能可贵。

优势:

  • 免费开放,降低研究和开发成本
  • 参数量相对较小,更容易部署和使用
  • 支持高级图像处理,图像多模态能力优秀
  • 在开放多模态模型中综合性能表现最佳

劣势:

  • 与GPT-4o和Claude-3.5等顶级商业模型相比,性能还有一定差距
  • 商业应用需要购买权限,限制了部分用户的使用

**教育:**辅助教学、个性化学习、智能批改
**医疗:**疾病诊断、药物研发、医疗影像分析
**金融:**金融风险评估、投资分析、智能客服
**零售:**个性化推荐、图像搜索、商品分类
**制造:**工业质检、故障诊断、预测性维护

作为一个程序员,我特别期待Pixtral 12B在代码领域的应用。它不仅能识别和理解代码,还能根据需求生成代码,这将极大地提高开发效率。

Pixtral 12B在任何需要处理多模态数据(文本、图像、代码等)的领域都有广阔的前景。比如,它可以用来开发智能客服,同时处理文字信息和用户的语音或视频输入。