Mistral重磅升级le Chat,推出Pixtral大型模型,全方位超越ChatGPT

Mistral AI发布了新的多模态模型Pixtral Large,并对le Chat进行了全面升级,引入多项新功能。

原文标题:发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

原文作者:机器之心

冷月清谈:

Mistral AI近期发布了新的多模态模型Pixtral Large,具备124B开放权重和出色的图像理解能力,能处理文档、图表及自然图像。同时,Mistral还对其聊天机器人le Chat进行了全面升级,增加了图像生成、网络搜索和交互式画布功能,以更好地满足用户在学习、研究和工作中的需求。Pixtral Large在多项基准测试中表现出色,尤其在图表理解和文档分析任务中超越了竞争对手。此外,Mistral AI的开源政策也让最先进的人工智能技术更为普及,提升了整体AI社区的兴奋度。作为商业实验和测试的基础模型,Pixtral Large和le Chat的进步为用户提供了更多的可能性,进一步推动了AI工具在各个领域的应用。

怜星夜思:

1、Pixtral Large在实际应用中有哪些潜在优势?
2、le Chat的升级会对AI聊天机器人市场造成怎样的影响?
3、开源模型和闭源模型的竞争格局会如何演变?

原文内容

机器之心报道

编辑:蛋酱、陈陈


一觉醒来,Mistral AI 又发力了。


就在今天,Mistral AI 多模态家族迎来了第二位成员:一个名为 Pixtral Large 的超大杯基础模型。


这是一个基于 Mistral Large 2 构建、124B 开放权重的多模态模型,具备顶尖的图像理解能力 —— 能够看懂文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解能力。


除了发布新模型,Mistral AI 还进一步升级了免费聊天机器人 le Chat,增加图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT


所有这些功能,统统以免费测试版的形式开放。



Mistral AI 的每一次更新,都会让整个 AI 社区兴奋起来。

有人感叹:「六个月前,开源模型和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。」


到底有多强?

接下来,让我们看看发布细节吧。

开源多模态大模型 Pixtral Large

Pixtral Large 可根据 Mistral 研究许可证 (MRL) 用于研究和教育用途,同时根据 Mistral 商业许可证用于商业目的的实验、测试和生产。

Pixtral Large 前身是 2024 年夏季发布的 Mistral Large 2,以及 9 月份发布的首个多模态模型 Pixtral 12-B。关于将多模态模型扩展到 1240 亿参数的出发点,Mistral AI CEO 是这么说的:「我们越来越意识到,要创造最佳的 AI 体验,需要共同设计模型和产品界面。Pixtral 在训练时就考虑到了高影响力的前端应用,是一个很好的例子。」

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。

在性能方面,该模型在包括 MathVista、DocVQA 和 VQAv2 在内的多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。


具体而言,在 MathVista 基准上,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。在 ChartQA 和 DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。


在图像理解方面,Pixtral Large 也表现优异。比如上传一份账单,询问该模型:「我买了咖啡和香肠,外加 18% 的小费。我该付多少钱?」


Pixtral Large 会非常有条理地给出总消费金额,先是计算了咖啡和香肠的费用,2 杯拿铁玛奇朵、 1 份香肠 ,然后计算 18% 的小费 ,最后给出总金额。


Pixtral Large 也能准确理解并分析图表。比如对于下面的训练损失曲线图,问 dark dragon 模型什么时候开始出现问题。

Pixtral Large 分析的也很准确:「在达到 10,000 step 时,训练损失开始出现不稳定…… 随后,这种不稳定性持续存在,并在 20,000step 附近出现了另一个大的峰值……」


在接下来的示例中,上传一张图片,问 Pixtral Large 哪些公司使用 Mistral AI 模型?


Pixtral Large 也能根据图片提供的信息给出准确的结果,回答过程如下。


除了 Pixtral Large,Mistral AI 最先进的文本模型 Mistral Large 也迎来了一次更新。该模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。

Mistral Large 24.11 将首先在 Google Cloud 和 Microsoft Azure 上推出,预计一周内即可使用。

  • 模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
  • 试用地址:https://chat.mistral.ai/chat

对标 ChatGPT 大升级
le Chat 已经强得可怕

Pixtral Large 的发布,也让 le Chat 的能力上升到了一个新的高度。

le Chat 现在可以处理大型、复杂的 PDF 文档和图像,比如一篇理论文献的所有内容 —— 图形、表格、图表、文本、公式、方程式。

下面的例子展示了爱因斯坦、波多尔西和罗森于 1935 年撰写的著名量子纠缠论文的信息提取、总结和语义理解。


此外还有两项新能力登陆 le Chat:

首先是实时的网络搜索。这是一项关于生产力的升级,Mistral AI 表示,le Chat 的大部分用户来自学生和专业人士,而这些用户非常看重其在学习、研究和工作中的作用。

下面是一位营销类专业人士使用 le Chat 来评估医疗保健人工智能市场:


然后是新的 Canvas 界面。当用户需要暂时离开对话进行构思时,它会弹出到 le Chat  窗口中,随后用户可以和 Mistral LLM 合作完成共享输出。

从此,我们和聊天机器人的互动不再局限于双向对话。借助 LLM 强大的推理能力,Canvas 可以用来创建文档、演示文稿、代码、模型等,亮点在于「就地修改」内容,无需重新生成回复、版本控制草稿并预览设计。

比如在下方演示中,是一个产品团队为准备推出 Canvas 而创建产品指标仪表板的反应模型的视频。


Mistral AI 与 SD 作者团队成立的 Black Forest Labs 也达成了合作,因此 le Chat 拥有了高质量的图像生成能力。

最后,如果你想马上体验到 Mistral AI 最新放送的搜索、PDF 上传、编码、图像生成等所有功能,请访问:http://chat.mistral.ai/

参考链接:
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

它不仅能理解文本,还能处理高分辨率图像和图表,并在MathVista基准上实现了69.4%的准确率,优于所有其他模型。

Pixtral Large在文本和视觉理解上都很优秀,在图表解释、文档分析和图像理解等任务上超越了领先的OpenAI GPT系列模型。

le Chat可以处理大型PDF文档和图像,并提供实时网络搜索,方便用户查询信息。

此外,Mistral AI致力于将最先进的AI技术通过免费测试版向公众开放,这使其成为研究人员和开发人员宝贵的资源。

Mistral AI的技术优势还在于其创新的产品界面,例如le Chat的Canvas功能,它无缝地集成了模型和用户交互。

它可以根据图像中的信息准确回答问题,比如分析账单或图表中的训练损失曲线。总之,它的多模态能力非常令人印象深刻。

它还新增了交互式画布功能,允许用户与Mistral LLM协作创建文档、演示文稿等内容。

我觉得对于数据科学家来说,Pixtral Large无疑是个好帮手。能分析文档和图表,对于数据报告的生成会更加高效。

我觉得两者之间的竞争不会太明显,因为不同的用户需求会促使他们选择不同的模型,真正的挑战在于如何平衡用户体验与技术投入。

现在开源模型的快速进步让训练和使用变得越来越方便,之后可能会逼迫闭源模型也要加快更新频率,否则用户会转向开源解决方案。

对普通用户来说,Pixtral Large可能还是有点高大上,不过如果能进行更友好的日常应用推广,对我们这些非专业用户反而会有助益。

其实Pixtral Large最大的优势在于它的多模态处理能力,可以同时理解文本和图像。这对于需要同时分析图文信息的领域,比如教育和医疗,都是非常有用的。

le Chat的升级明显提高了其竞争力,特别是在处理复杂文档和图像方面。如果能持续增强这种能力,将可能吸引更多对专业知识有需求的用户群体。

不过,开源模型确实更具透明性和可控制性,未来可能会吸引更多的开发者加入,使得这个领域进一步繁荣。

我觉得le Chat的升级感觉像是在给ChatGPT打了一针强心剂,确实会让用户分流,大家都想尝试更好的选择。

不过,我依然认为市场上有太多人不完全了解这些工具的具体应用,如何提升用户的认知也非常重要。