字节跳动Seed1.5-VL多模态模型:激活20B参数,狂揽38项SOTA

字节跳动Seed1.5-VL多模态模型,仅激活20B参数即在38项评测中达到SOTA,视觉定位、推理、视频理解能力强,且推理成本低。

原文标题:字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

原文作者:机器之心

冷月清谈:

火山引擎发布了豆包1.5・视觉深度思考模型(Seed1.5-VL),这款模型在视觉定位、推理以及视频理解等方面表现出色。尽管激活参数仅有20B,但性能可与Gemini2.5 Pro相媲美,在60个公开评测基准中,有38个取得SOTA。Seed1.5-VL不仅推理性能高,而且推理成本低,目前已在火山引擎全面开放API。该模型基于超过3T token的多模态数据进行预训练,采用SeedViT、MLP适配器和Seed1.5-LLM等核心组件,并在训练方法上采用了多阶段预训练和SFT+RL的组合策略。凭借强大的多模态理解与推理能力,Seed1.5-VL为通用视觉系统的实际应用开辟了新路径。

怜星夜思:

1、Seed1.5-VL模型在实际应用中,除了文中提到的视觉助手、巡检系统,还能应用在哪些创新领域?
2、文章提到Seed1.5-VL的推理成本极具优势,每千tokens的价格很低。那么,对于开发者来说,除了价格,还有哪些因素会影响他们选择多模态模型?
3、Seed1.5-VL通过大量数据进行预训练,那么,如何保证训练数据的质量,避免模型学到错误或偏见的信息?

原文内容

机器之心报道

编辑:杨文

字节拿出了国际顶尖水平的视觉–语言多模态大模型。


5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。


其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。


相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。


举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。



再比如,喂它一段监控,问一句:「今天小猫干了哪些坏事?」几秒钟后,它就丢过来几段视频,「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现场。



尽管 Seed1.5-VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中,有 38 个取得 SOTA 表现,在视频理解、视觉推理、多模态智能体能力等方面均处于第一梯队。



Seed1.5-VL 推理性能拉满,但推理成本极具优势。据其官网显示,Seed1.5-VL 推理输入价格仅为每千 tokens 0.003 元,推理输出价格为每千 tokens 0.009 元。



目前,Seed1.5-VL 已在火山引擎全面开放 API,开发者登录后选择 Doubao-1.5-thinking-vision-pro 即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。


  • 官网:

https://seed.bytedance.com/tech/seed1_5_vl

  • API:

https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428


一手实测:视觉定位、推理又快又准


说一千道一万,模型好不好使,还得亲自上手试。接下来,我们就奉上一手实测,检验一下 Seed1.5-VL 真实能力。


先来看看它的视觉定位和推理能力。


我们上传一张摆满各式各样牛奶的货架图片,让它找出图中有几盒黄桃味果粒酸奶优酸乳,并计算它们的价格。



这类任务看似简单,实则非常考验模型的多模态协同能力,需要它同时具备图像理解(识别包装)、文本 OCR(识别价格标签)、语义匹配(产品名称匹配)、数学推理(乘法计算)等能力。



而 Seed1.5-VL 仅用不到 10 秒,就精准识别出货架角落里的黄桃味酸奶优酸乳,还准确数清瓶数、识别单价,并进行正确的价格计算。


除了门店货架巡检的工作,我们还让它找出下图中有几只小猫在生气。



从图像像素级别的变化中提取情绪线索,这对大模型的图像理解精度、注意力机制、细粒度识别能力都是极大的挑战。Seed1.5-VL 面对一整屏表情相似的小猫脸,准确识别出 5 只在「生气」,并给出了相应坐标。



还有下面这个「找不同」测试,Seed1.5-VL 既能精确分析两张相似图片的细微差别,又能清晰描述所有不同点,比如太阳左侧飞鸟数量、沙滩球颜色等,这展示了它在视觉理解、空间关系处理和结构化输出方面的综合能力。



此外,它还可以推理复杂视觉谜题。


比如这道公务员图形推理题目,大部分人看到这些黑白方块一头雾水,但 Seed1.5-VL 仅用 10 秒就捕捉到其中的规律,通过精准识别前两行图形叠加后「去同存异」的变换逻辑,准确推导出第三行的缺失图形。



对于开发者来说,Seed1.5-VL 新增的多模态智能体能力是一大利器。它基于强大的 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务。


比如在测试环境中,Agent 可以识别并点击「点赞」按钮,用于模拟用户行为,验证功能流程是否正常。



技术解读:重构视觉理解边界


作为 Seed 系列最新一代多模态模型,Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。


那么,该模型背后有哪些独门绝技?



  • 论文链接:https://arxiv.org/abs/2505.07062

  • 技术报告:https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf

  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL


从模型架构上来说,Seed1.5-VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5-LLM,激活参数为 20B,专注于处理融合后的多模态输入。



尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。


在训练方法上,Seed1.5-VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。


整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。


到了后训练阶段,Seed1.5-VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。


SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。


强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。



考虑到多模态模型在训练中的异构性挑战,Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。


模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。


Seed1.5-VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5-VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。


结语


在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。


这也意味着,真正的多模态智能时代,正加速走进现实。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

模型的效果肯定是最重要的,识别精度、推理速度必须得过关。如果模型效果不好,价格再低也没用。

我觉得农业领域可以用!比如用无人机搭载这个模型,可以实时监测农作物的生长情况、病虫害情况。甚至可以识别杂草种类,精准喷洒农药,减少环境污染。

安全性也很重要啊!毕竟涉及到用户数据,模型会不会泄露隐私?有没有安全漏洞?这些都需要考虑。另外,模型的稳定性和可维护性也很重要,谁也不想三天两头出bug。

从伦理角度考虑,得对数据来源进行追溯,确保数据获取的合法性。同时,要对模型进行定期评估,看看是否存在性别歧视、种族歧视等问题。一旦发现问题,要及时进行调整。

可以引入一些自动化的数据质量评估工具,例如:检测数据分布是否均衡、是否存在异常值等。还可以使用对抗训练的方法,让模型自己去发现数据中的缺陷,并进行修正。

我觉得模型的易用性也很关键。API接口是否友好,文档是否清晰,有没有完善的demo示例,这些都会影响开发效率。最好还能提供一些定制化的服务,方便开发者快速集成。

这个问题问的好!数据质量直接决定了模型的天花板。首先,数据清洗是必须的,去除重复数据、错误数据、噪声数据。其次,数据标注要保证准确性,最好是人工审核。最后,数据多样性也很重要,要覆盖各种场景、各种类型的数据,避免模型产生偏见。

Seed1.5-VL在工业质检方面肯定大有可为,比如检测产品表面的微小瑕疵,或者识别生产线上的异常情况,这能大大提高生产效率和产品质量。

我觉得可以结合现在流行的AI数字人,打造更智能的虚拟助手,例如:电商客服、虚拟导游等。提升用户体验,降低企业成本。