Qwen3.7-Plus上线:强化多模态、编程与Agent闭环执行能力

Qwen3.7-Plus上线,重点升级多模态、编程和Agent闭环执行能力。

原文标题:Qwen3.7-Plus上线千问云,多模态智能体能力再升级!

原文作者:阿里云开发者

冷月清谈:

阿里云发布千问3.7系列新模型Qwen3.7-Plus,并上线千问云与阿里云百炼,开发者可通过API调用。该模型主打多模态智能体能力,支持文本、图片、视频输入,并在视觉理解、代码生成、工具调用、GUI感知、自主测试与迭代等环节形成闭环。文章展示了其复刻macOS股票应用、自动开发英语学习App、浏览器内完成云服务器采购等案例。评测方面,Qwen3.7-Plus在Vision Arena中进入全球前五、中国第一;相比上一代,在编程、Agent、数学推理、长上下文、视觉推理、搜索增强问答和GUI操控等指标上均有提升。模型兼容OpenAI标准协议,并支持思维链模式,官方建议在Agent任务中开启。

怜星夜思:

1、多模态Agent从“看懂界面”到“自己操作”,离真正可用还差哪些关键能力?
2、文章里提到模型能连续运行十几个小时写代码和测试,这类AI编程Agent会优先改变哪些开发岗位或工作流?
3、Qwen3.7-Plus强调兼容OpenAI协议和支持API调用,开发者在选模型时应该更看重榜单分数、价格,还是生态适配?
4、让Agent直接操作云控制台、下单资源这类场景,应该怎样设计权限和安全边界?

原文内容

Agentic时代,AI从“对话”走向“干活”。

今天,千问3.7系列最新多模态大模型Qwen3.7-Plus正式发布,并已上架千问云和阿里云百炼,开发者可通过API直接调用。

Qwen3.7-Plus文本和视觉能力均大幅提升,在第三方权威榜单Vision Arena中跻身全球前五、中国第一。该模型实现了多模态混合智能体的新突破——不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将“看、想、写、做、验”整合进统一的智能体工作流。

第三方权威榜单Vision Arena显示,阿里凭借Qwen3.7-Plus位列全球前五、中国第一

该模型实现了多模态混合智能体的新突破——不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将“看、想、写、做、验”整合进统一的智能体工作流。

从“看懂”到“做完”:多模态混合智能体

传统多模态模型的能力往往止步于“理解”。Qwen3.7-Plus将视觉感知与代码生成、工具调用、GUI操控深度融合,支持在单一智能体循环中闭环执行复杂任务。

在一项桌面端应用复刻测试中,Qwen3.7-Plus基于GUI感知能力,模拟人与示例股票应用自主交互,理解UI布局和功能细节,自动生成SwiftUI代码并接入实时行情API获取真实数据,自主执行并通过了10项核心功能测试,完成了对原生macOS Stocks应用的高保真复刻。

在另一项英语词汇学习APP的完整开发测试中,Agent连续稳定运行超11小时,自动完成从需求文档生成、代码编写、安装部署、测试用例创建到多场景测试的全流程,累计生成超10,000行代码,触发超1,000次Agent调用,覆盖了软件研发全生命周期的核心阶段。

文本能力接近旗舰

编程与Agent能力显著提升

Qwen3.7-Plus是千问3.7系列的最新模型,纯文本能力可接近旗舰模型Qwen3.7-Max的水平,涌现出Plus级别模型中较强的编程、Agent、推理及通用能力:

• 编程:在Terminal Bench 2.0-Terminus、SciCode等评测中,较上代Qwen3.6-Plus提升约9分

• Agent:在评估通用Agent能力的Skillbench评测中提升10.2分;在MCP-Mark、Deep-Planning等评测中表现突出

• 推理:在数学推理Apex评测中,取得近3倍于上代模型的性能评分

• 长上下文:MRCR-v2 128K得分91.7,长文本理解能力表现优异

Qwen3.7-Plus主要评测得分

视觉能力系统性增强

Qwen3.7-Plus围绕智能体的实际需求,对视觉能行了系统性增强:

• 视觉推理:纯视觉推理BabyVision评测得分从上代的37.4提升至64.7,泛化能力大幅提升

• 搜索增强问答:在SimpleVQA、MMSearchPlus、MMBC等评测中,较上代性能提升最高超2倍。给一张工厂里模糊的专业机械图,千问3.7可以将该设备的功能、参数剖析准确

• GUI感知与操控:ScreenSpot Pro从上代68.2提升至79.0,AndroidWorld得分81.0,支持理解和操作真实用户界面

• 视觉编程:从一张照片、截图、草图或一段视频出发,可通过“视觉编程”交付完整的SVG动画或网页

在视频理解和驾驶场景理解方面,千问3.7对视频中的事件、动作、时序和语义关系,以及真实世界的动态场景、交通参与者和空间关系的理解能力均有增强,为多模态智能体在自动驾驶、具身智能等场景中的应用奠定基础。

工具使用能力拓展

集成CI代码解释器后,Qwen3.7-Plus可以将找不同、华容道、迷宫等视觉任务转化为可计算的问题并自主求解。接入搜索增强后,可结合视觉线索与外部知识,回答仅凭图像内容无法解答的开放性问题。

基于 Qwen3.7-Plus 还可以构建浏览器智能助手,面对非科班用户“采购一台最便宜 ECS 服务器”的需求,Agent 能够直接进入云控制台,完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作,并在价格变化、库存限制或购买受阻时主动反思和调整策略。

现已上架千问云和百炼

Qwen3.7-Plus目前已上线千问云和阿里云百炼,支持通过API调用,接受文本和图片/视频双模态输入,兼容OpenAI标准协议。模型支持思维链(enable_thinking)模式,建议在Agent任务中开启。

• 千问云API:https://www.qianwenai.com/models/qwen3.7-plus

• 百炼平台API:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus

• 技术博客详细解读:https://qwen.ai/blog?id=qwen3.7-plus

扫描下方二维码,可直达千问云进行体验

/ END /

点击阅读原文即可体验!

关于多模态Agent可用性,我更看重“可验证”。它做完一件事之后,必须能证明自己真的做对了,比如日志、截图、测试结果、订单确认信息都能对上。不然它说完成了,用户还得人工复查一遍,那效率就打折了。

3 个赞

回答“选模型看什么”:如果是个人项目,我会先看价格和调用方便程度;如果是公司项目,我会优先看稳定性、SLA、数据合规和生态适配。榜单分数只能说明上限,不一定代表你的业务场景好用。

3 个赞

我觉得榜单可以当入场券,但不能当最终答案。比如视觉榜很强,不代表它在你的后台系统截图里就一定识别准确。最好还是拿自己的数据跑一轮小评测,哪怕只测二三十个真实case,也比只看宣传图靠谱。

1 个赞

关于“Agent操作云控制台的安全边界”,我觉得必须最小权限。能查价格就别给购买权限,能创建测试资源就别给生产权限,而且所有高风险动作都要人工确认。

2 个赞