通义千问Qwen2.5-VL-32B开源:视觉推理更强,或成多模态Agent部署优选

阿里开源Qwen2.5-VL-32B,视觉推理能力大幅提升,数学能力增强,或成多模态Agent部署优选。

原文标题:阿里深夜开源Qwen2.5-VL新版本,视觉推理通杀,32B比72B更聪明

原文作者:机器之心

冷月清谈:

阿里通义千问团队开源了Qwen2.5-VL-32B-Instruct模型,该模型在回复人类偏好、数学推理能力和图像细粒度理解与推理方面都有显著提升。它优化了输出风格,使回答更详细、格式更规范,更符合人类偏好;复杂数学问题求解的准确性显著提升;在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。相较于72B模型,32B版本可能是在多模态AI Agent部署实践中的最佳选择。在性能测试中,Qwen2.5-VL-32B-Instruct在多模态任务中表现突出,甚至超越了更大规模的72B模型,同时在纯文本能力上也达到了同规模的最优表现。官方Demo展示了其在细粒度图像理解与推理、数学推理以及图片内容识别等方面的能力。

怜星夜思:

1、Qwen2.5-VL-32B既然在某些方面超越了72B模型,那么模型参数量越大越好这个说法还成立吗?我们应该如何理解模型参数量和模型性能之间的关系?
2、Qwen2.5-VL-32B在数学推理能力上有所提升,这对实际应用有什么意义?除了做题以外,还有哪些场景能用到这种能力?
3、通义千问团队下一步将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。你认为在实现这个目标的过程中,会遇到哪些挑战?有什么可能的解决方案?

原文内容

机器之心报道
机器之心编辑部


就在 DeepSeek V3「小版本更新」后的几个小时,阿里通义千问团队也开源了新模型。

择日不如撞日,Qwen2.5-VL-32B-Instruct 就这么来了。


相比此前的 Qwen2.5-VL 系列模型,32B 模型有如下改进:

  • 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。

  • 数学推理能力:复杂数学问题求解的准确性显著提升。

  • 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。


对于所有用户来说,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B,即可体验:https://chat.qwen.ai/


32B 版本的出现,解决了「72B 对 VLM 来说太大」和「7B 不够强大」的问题。如这位网友所说,32B 可能是多模态 AI Agent 部署实践中的最佳选择:


不过团队也介绍了,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力,但主要还是基于「快速思考」模式。

下一步,通义千问团队将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

32B 可以比 72B 更聪明

先来看看性能测试结果。

与近期的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 等模型相比,Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 72B 模型。


如上图所示,在 MMMU、MMMU-Pro 和 MathVista 等多模态任务中,Qwen2.5-VL-32B-Instruct 均表现突出。

特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。

视觉能力的进步,已经让用户们感受到了震撼:


除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。


实例展示

或许很多人还好奇,32B 版本的升级怎么体现呢?

关于「回复更符合人类主观偏好」、「数学推理能力」、「图像细粒度理解与推理」这三个维度,我们通过几个官方 Demo 来体会一番。

第一个问题,是关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?


显然,从人类的角度去快速判断,在限速 100 的前提下,卡车无法在 1 小时内抵达 110 公里之外的地方。

Qwen2.5-VL-32B-Instruct 给出的答案也是「否」,但分析过程更加严谨,叙述方式也是娓娓道来,我们可以做个参考:


第二个问题是「数学推理」:如图,直线 AB、CD 交于点 O,OD 平分∠AOE,∠BOC=50.0,则∠EOB=()


答案是「80」:



第三个题目的数学推理显然更上难度了:


模型给出的答案特别清晰,解题思路拆解得很详细:




在下面这个图片内容识别任务中,模型的分析过程也非常细致严谨:




关于 Qwen2.5-VL-32B-Instruct 的更多信息,可参考官方博客。

博客链接:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


同意楼上!参数量和性能之间并非简单的线性关系。想象一下,一个臃肿的胖子和一个精壮的运动员,虽然胖子体重更大(参数量更大),但论灵活性和爆发力肯定不如运动员。模型也是如此,参数量过大可能导致过拟合、训练困难等问题。有效的模型架构和训练策略才能充分利用参数量,实现更好的性能。所以,以后面试再有人问你是不是模型越大越好,直接把这个例子甩给他!

除了技术上的挑战,我认为数据也是一个很大的问题。训练一个能够进行复杂视觉推理的模型,需要大量的、高质量的、标注详尽的数据。而这种数据的获取成本非常高昂。可能的解决方案包括:利用自监督学习和无监督学习技术来降低对标注数据的依赖、采用数据增强技术来扩充训练数据集、以及利用合成数据来模拟各种场景。让AI能够从更少的数据中学到更多的知识!

从理论上讲,更大的参数量可以提供更大的模型容量,从而有潜力学习更复杂的模式。但实际效果还取决于优化算法、数据质量和正则化等因素。Qwen2.5-VL-32B的成功可能归功于其更高效的模型结构或者更优化的训练方式,使得它在较小的参数量下也能达到更好的性能。这提醒我们,不能唯参数量论,而要综合考虑各种因素。就好比同样多的零件,有些人能组装成航母,有些人只能拼成自行车。

我觉得除了记忆问题,另一个挑战是如何保证推理过程的可靠性和可解释性。模型在执行多步骤推理时,每一步都可能出错,导致最终结果偏差很大。而且,我们很难知道模型到底是怎么得出结论的,这在一些高风险领域(例如医疗、金融)是不可接受的。可能的解决方案包括:引入注意力机制来追踪模型的推理过程、采用符号推理和神经推理相结合的方法、以及设计可解释的损失函数来约束模型的行为。让AI的思考过程变得透明可控!

我更倾向于从更底层的角度来看待这个问题。数学推理本质上是一种符号推理能力,而这种能力是实现通用人工智能(AGI)的关键。Qwen2.5-VL-32B在这方面的进步,意味着我们朝着AGI又迈进了一步。未来,AI可以像人类一样进行抽象思考、逻辑判断和知识推理,从而更好地理解世界和解决问题。这是一个激动人心的未来!

数学推理能力提升的意义太大了!不仅仅是解题,更是逻辑思维能力的体现。在实际应用中,可以用于金融分析(预测趋势、风险评估)、科学研究(数据建模、实验分析)、智能决策(优化策略、资源分配)等等。说白了,就是让AI更聪明,能更好地理解和解决复杂问题。想象一下,一个可以帮你分析财务报表、预测市场走势的AI,是不是很酷?

问题问的好!参数量并非决定模型性能的唯一因素。Qwen2.5-VL-32B超越72B表明,模型架构设计、训练数据质量、训练方法等对性能至关重要。参数量大只是提升性能的潜在因素之一,更需要合理的模型设计和训练策略。简单来说,并非越大越好,而是越适合越好。如同盖房子,地基不稳,钢筋水泥再多也是空中楼阁。

最大的挑战应该是如何让模型记住并理解长序列的信息。就像人一样,看一篇文章太长了,前面讲了啥后面就忘了。模型也面临着“记忆衰退”的问题。可能的解决方案包括:引入更先进的记忆机制(例如Memory Network、Transformer-XL)、采用层次化的推理结构(将复杂任务分解为多个子任务)、以及利用外部知识库来辅助推理。总而言之,让AI拥有更强的记忆力和思考能力!

除了楼上说的那些高大上的应用,我觉得数学推理能力在日常生活中也有用武之地。比如,可以用来优化购物策略,计算最佳折扣方案;或者用来规划旅行路线,选择最省时的交通方式。甚至可以用来玩德州扑克,计算胜率和赔率(虽然不提倡赌博)。总之,只要涉及到逻辑推理和量化分析,数学推理能力就能派上用场。以后要是AI能帮我算彩票中奖号码就好了!