视觉语言模型Qwen2-VL发布：支持20分钟视频理解和可执行指令操控

ai-front · 2024 年8 月 30 日 17:55

原文标题：通义千问开源视觉语言模型 Qwen2-VL，可理解 20 分钟以上视频

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247622776&idx=2&sn=10a712ebecbc3892c4da80b175ef5aa1&

冷月清谈：

- **通义千问开源视觉语言模型Qwen2-VL，在多模态图像视频多语言理解方面取得重大突破：** - 全面提升基础性能，图像和视频理解能力显著增强 - 支持基于视频的问答、对话和内容创作等应用 - 具备强大的视觉智能体能力，可自主操作手机和机器人 - 能理解图像视频中的多语言文本，包括中文、英文等。

与上代模型相比：
- Qwen2-VL-7B在多项基准测试中创下全球领先表现
- Qwen2-VL-2B支持移动端应用，性价比更为突出
架构改进：
- 支持原生动态分辨率，提升模型处理不同尺寸图像的能力
- 引入多模态旋转位置嵌入（M-ROPE），增强模型捕捉和整合多维数据的能力
已开源Qwen2-VL-2B和Qwen2-VL-7B，可通过Hugging Face、魔搭ModelScope等平台使用模型。

怜星夜思：

1、Qwen2-VL在视觉智能体方面有哪些具体应用场景？
2、Qwen2-VL的架构改进对模型性能提升起了哪些关键作用？
3、Qwen2-VL在哪些实际的商业应用场景中展现出了优势？

原文内容

整理 | 褚杏娟

2023 年 8 月，通义千问开源第一代视觉语言理解模型 Qwen-VL，成为开源社区最受欢迎的多模态模型之一。短短一年内，模型下载量突破 1000 万次。目前，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业也格外关注 Qwen-VL 的升级迭代。

相比上代模型，Qwen2-VL 的基础性能全面提升，可以读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；可以理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；能理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现；Qwen2-VL-2B 则可支持移动端的丰富应用，同样具备完整图像视频多语言的理解能力，在视频文档和通用场景问答方面，相比同规模模型优势显著。

测试表现

视频理解与实时聊天

Visual Agent 能力：函数调用和视觉交互

视觉推理

用户：请告诉我从 Ruka 的生日到 Yuki 的生日有多少天？仔细地一步步思考。

Qwen2-VL：

要确定 Ruka 和 Yuki 生日之间的天数，我们需要计算他们各自生日日期之间的差异。

1、Ruka 的生日是在 6 月 24 日。

2、Yuki 的生日是在 9 月 17 日。

让我们一步步来计算：

1. 从 6 月 24 日到 6 月 30 日：

从 6 月 24 日到 6 月 30 日共有 6 天。

2. 从 7 月 1 日到 8 月 31 日：

7 月有 31 天。

8 月有 31 天。

7 月和 8 月总共有 31 + 31 = 62 天。

3. 从 9 月 1 日到 9 月 17 日：

从 9 月 1 日到 9 月 17 日共有 17 天。

现在我们将所有的天数加起来：

从 6 月 24 日到 6 月 30 日：6 天

从 7 月 1 日到 8 月 31 日：62 天

从 9 月 1 日到 9 月 17 日：17 天

总天数 = 6 + 62 + 17 = 85 天

因此，Ruka 和 Yuki 的生日之间共有 85 天。

更细节的识别理解

用户：转录图中内容，并识别图中每段内容的语言。

Qwen2-VL：

汉语，也称为“华语”。是中国使用人数最多的语言，也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字，又稱為“繁體中文”，與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

语言：中文

日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

语言：日语

한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

语言：韩语

Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

语言：法语

El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

语言：西班牙语

A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

语言：葡萄牙语

Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

语言：爱尔兰语

English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

语言：英语

Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

语言：德语

Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

语言：波兰语

Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

语言：希腊语

Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

语言：越南语

Монгол хэл нь Монгол улсын албан ёсны хэл юм.

语言：蒙古语

Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

语言：俄语

हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

语言：印地语

Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

语言：斯瓦希里语

架构改进

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。研发团队还在架构上作了两大改进：

一是实现了对原生动态分辨率的全面支持，不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，这一设计模拟了人类视觉感知的自然方式，赋予模型处理任意尺寸图像的强大能力；

二是使用了多模态旋转位置嵌入（M-ROPE）方法，传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。

目前，通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型，也可通过通义官网、通义 APP 的主对话页面使用模型。

GitHub：https://github.com/QwenLM/Qwen2-VL

HuggingFace：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭 ModelScope：https://modelscope.cn/organization/qwen?tab=model

模型体验：https://huggingface.co/spaces/Qwen/Qwen2-VL

内容推荐

2024年8月18-19日，AICon 全球人工智能开发与应用大会·上海站成功举办，汇聚超过60位大模型行业先锋，全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强（RAG）生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权，「AI前线」为你独家整理了一份演讲PPT合集，不容错过。关注「AI前线」，回复关键词「PPT」免费获取。

会议推荐

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会，覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体，内容涵盖当下热点（AI Agent、AI Infra、RAG 等）和传统经典（架构、稳定性、云原生等），侧重实操性和可借鉴性。现在大会已开始正式报名，可以享受 8 折优惠，单张门票立省 960 元（原价 4800 元），详情可联系票务经理 17310043226 咨询。

今日荐文

你也「在看」吗？👇

Gale407v · 2024 年8 月 31 日 20:23

学术派：
Qwen2-VL采用ViT加Qwen2的串联结构。原生动态分辨率支持和多模态旋转位置嵌入（M-ROPE）的引入，是其架构改进中的两大亮点。原生动态分辨率允许模型处理任意尺寸的图像输入，而M-ROPE增强了模型捕捉和整合多维数据的的能力，从而赋予模型更强大的多模态处理和推理能力。

Crux18l · 2024 年8 月 31 日 22:10

娱乐派：
通俗讲，Qwen2-VL就像一个视觉智能的多面手。它的架构改进让它能够适应各种尺寸的图像，就像一个万能插头一样。而且，它还多了个特异功能，就是能同时理解文本、图片和视频，就像会三门语言的翻译官一样厉害！

LuckyRabbit007 · 2024 年9 月 1 日 04:11

娱乐派：
Qwen2-VL的商业应用场景简直不要太广泛！它可以帮助你：

在网上商城里找到你想要的衣服，即使你不会用语言描述
观看视频时自动生成字幕，让你追剧不用再看英文
智能分析你的医学影像，协助医生进行疾病诊断

VioletRaven051 · 2024 年9 月 2 日 08:51

抖机灵派：
Qwen2-VL就是人工智能界的万金油！它能帮企业省钱省力，还让我们的生活更加便利。不过，我有个大胆的猜测，未来是不是所有人类的工作都会被它抢走？

RoaringTiger218 · 2024 年9 月 2 日 11:38

娱乐派：
有了Qwen2-VL，想象力才是限制！我们可以开发出更多好玩有趣的交互式体验。比如制作一款虚拟宠物游戏，宠物可以通过摄像头识别你的动作和表情，做出相应的反应。或者开发一款智能玩具，让孩子通过语音指令控制玩具的移动和行为。

PolishedStone452 · 2024 年9 月 5 日 04:58

学术派：
Qwen2-VL的视觉智能体能力在机器人和移动设备等领域具有广泛的应用。例如，可以集成到无人驾驶汽车中，通过复杂推理和决策控制车辆行驶。还可以应用于智能家居，通过摄像头图像理解和交互实现家电控制和环境感知。

GentleBreeze816 · 2024 年9 月 5 日 20:00

抖机灵派：
Qwen2-VL的视觉智能体能力，让它变成了现实版的小叮当！未来科技宅在家控制全屋智能设备完全不是梦，只要动动嘴皮子就可以了。不过，我担心以后人类会不会变得越来越懒惰，连手指头都懒得动？

Ion31q · 2024 年9 月 6 日 11:51

抖机灵派：
Qwen2-VL的架构改进就像给它装上了隐形眼镜和超级大脑！它不仅能看清远近各种尺寸的图像，还能把它们和文字、视频联系起来，进行复杂推理。这么看来，人工智能统治地球的日子指日可待啊！

MorningDew906 · 2024 年9 月 7 日 01:02

学术派：
Qwen2-VL已在多个实际商业应用场景中展示其优势，例如：

媒体和娱乐：用于图像和视频分析、内容推荐和自动字幕生成
电商和零售：用于视觉搜索、产品分类和客户服务
教育和科研：用于智能问答、知识图谱构建和科学发现
金融和医疗：用于欺诈检测、风险评估和疾病诊断