视觉语言模型Qwen2-VL发布:支持20分钟视频理解和可执行指令操控

原文标题:通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

原文作者:AI前线

冷月清谈:

- **通义千问开源视觉语言模型Qwen2-VL,在多模态图像视频多语言理解方面取得重大突破:** - 全面提升基础性能,图像和视频理解能力显著增强 - 支持基于视频的问答、对话和内容创作等应用 - 具备强大的视觉智能体能力,可自主操作手机和机器人 - 能理解图像视频中的多语言文本,包括中文、英文等。
  • 与上代模型相比:

    • Qwen2-VL-7B在多项基准测试中创下全球领先表现
    • Qwen2-VL-2B支持移动端应用,性价比更为突出
  • 架构改进:

    • 支持原生动态分辨率,提升模型处理不同尺寸图像的能力
    • 引入多模态旋转位置嵌入(M-ROPE),增强模型捕捉和整合多维数据的能力
  • 已开源Qwen2-VL-2B和Qwen2-VL-7B,可通过Hugging Face、魔搭ModelScope等平台使用模型。




怜星夜思:


1、Qwen2-VL在视觉智能体方面有哪些具体应用场景?
2、Qwen2-VL的架构改进对模型性能提升起了哪些关键作用?
3、Qwen2-VL在哪些实际的商业应用场景中展现出了优势?

原文内容

图片

整理 | 褚杏娟

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。

相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现
  • 视频理解与实时聊天

  • Visual Agent 能力:函数调用和视觉交互

图片

  • 视觉推理

用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。

Qwen2-VL:

要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

1、Ruka 的生日是在 6 月 24 日。

2、Yuki 的生日是在 9 月 17 日。


让我们一步步来计算:

1. 从 6 月 24 日到 6 月 30 日:

  • 从 6 月 24 日到 6 月 30 日共有 6 天。

2. 从 7 月 1 日到 8 月 31 日:


  • 7 月有 31 天。

  • 8 月有 31 天。


  • 7 月和 8 月总共有 31 + 31 = 62 天。

3. 从 9 月 1 日到 9 月 17 日:

  • 从 9 月 1 日到 9 月 17 日共有 17 天。


现在我们将所有的天数加起来:


  • 从 6 月 24 日到 6 月 30 日:6 天

  • 从 7 月 1 日到 8 月 31 日:62 天

  • 从 9 月 1 日到 9 月 17 日:17 天


总天数 = 6 + 62 + 17 = 85 天


因此,Ruka 和 Yuki 的生日之间共有 85 天。

  • 更细节的识别理解

用户:转录图中内容,并识别图中每段内容的语言。

Qwen2-VL:

  1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    语言:中文


  2. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    语言:日语


  3. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    语言:韩语


  4. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    语言:法语


  5. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    语言:西班牙语


  6. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    语言:葡萄牙语


  7. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    语言:爱尔兰语


  8. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    语言:英语


  9. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    语言:德语


  10. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语


  11. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语


  12. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语


  13. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语


  14. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语


  15. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语


  16. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语

架构改进

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:

一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;

二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。

目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。

GitHub:https://github.com/QwenLM/Qwen2-VL

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL

 内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「AI前线」为你独家整理了一份演讲PPT合集,不容错过。关注「AI前线」,回复关键词「PPT」免费获取。

 会议推荐

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 8 折优惠,单张门票立省 960 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。


今日荐文





图片
你也「在看」吗?👇

学术派:
Qwen2-VL采用ViT加Qwen2的串联结构。原生动态分辨率支持和多模态旋转位置嵌入(M-ROPE)的引入,是其架构改进中的两大亮点。原生动态分辨率允许模型处理任意尺寸的图像输入,而M-ROPE增强了模型捕捉和整合多维数据的的能力,从而赋予模型更强大的多模态处理和推理能力。

娱乐派:
通俗讲,Qwen2-VL就像一个视觉智能的多面手。它的架构改进让它能够适应各种尺寸的图像,就像一个万能插头一样。而且,它还多了个特异功能,就是能同时理解文本、图片和视频,就像会三门语言的翻译官一样厉害!

娱乐派:
Qwen2-VL的商业应用场景简直不要太广泛!它可以帮助你:

  • 在网上商城里找到你想要的衣服,即使你不会用语言描述
  • 观看视频时自动生成字幕,让你追剧不用再看英文
  • 智能分析你的医学影像,协助医生进行疾病诊断

抖机灵派:
Qwen2-VL就是人工智能界的万金油!它能帮企业省钱省力,还让我们的生活更加便利。不过,我有个大胆的猜测,未来是不是所有人类的工作都会被它抢走?

娱乐派:
有了Qwen2-VL,想象力才是限制!我们可以开发出更多好玩有趣的交互式体验。比如制作一款虚拟宠物游戏,宠物可以通过摄像头识别你的动作和表情,做出相应的反应。或者开发一款智能玩具,让孩子通过语音指令控制玩具的移动和行为。

学术派:
Qwen2-VL的视觉智能体能力在机器人和移动设备等领域具有广泛的应用。例如,可以集成到无人驾驶汽车中,通过复杂推理和决策控制车辆行驶。还可以应用于智能家居,通过摄像头图像理解和交互实现家电控制和环境感知。

抖机灵派:
Qwen2-VL的视觉智能体能力,让它变成了现实版的小叮当!未来科技宅在家控制全屋智能设备完全不是梦,只要动动嘴皮子就可以了。不过,我担心以后人类会不会变得越来越懒惰,连手指头都懒得动?

抖机灵派:
Qwen2-VL的架构改进就像给它装上了隐形眼镜和超级大脑!它不仅能看清远近各种尺寸的图像,还能把它们和文字、视频联系起来,进行复杂推理。这么看来,人工智能统治地球的日子指日可待啊!

学术派:
Qwen2-VL已在多个实际商业应用场景中展示其优势,例如:

  • 媒体和娱乐:用于图像和视频分析、内容推荐和自动字幕生成
  • 电商和零售:用于视觉搜索、产品分类和客户服务
  • 教育和科研:用于智能问答、知识图谱构建和科学发现
  • 金融和医疗:用于欺诈检测、风险评估和疾病诊断