火山引擎大模型训练视频预处理方案发布,破解成本、质量及性能挑战

火山引擎发布大模型训练视频预处理方案,解决成本、质量和性能挑战。该方案已应用于豆包视频生成模型,为模型训练提供有力支撑,助力视频 AI 应用发展。

原文标题:火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

原文作者:AI前线

冷月清谈:

- 火山引擎发布大模型训练视频预处理方案,应对训练视频规模大、数据质量参差不齐等难题。
- 该方案采用自研多媒体处理框架 BMF,提高数据处理效率,降低算力成本。
- 已应用于豆包视频生成模型 PixelDance,提供从训练到应用的全方位支持。
- 火山引擎还发布了跨语言同声复刻直播、对话式 AI 实时交互等多项 AI 赋能视频解决方案。

怜星夜思:

1、火山引擎的大模型训练视频预处理方案相较于传统方案有哪些优势?
2、豆包视频生成模型 PixelDance 在训练过程中是如何利用火山引擎的大模型训练视频预处理方案的?
3、除了视频预处理方案,火山引擎还发布了哪些 AI 赋能视频的解决方案?

原文内容

整理 | 褚杏娟

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。

对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。

借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。

Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。

火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。

以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。

此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。

 内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「AI前线」为你独家整理了一份演讲PPT合集,不容错过。关注「AI前线」,回复关键词「PPT」免费获取。

 会议推荐

10 月 18 日 -19 日,QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容,到 AI Agent、AI Infra、RAG 等大热的 AI 话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理  17310043226 咨询。



今日荐文






图片
你也「在看」吗?👇

得益于火山引擎的大模型训练视频预处理方案和全链路 AI 赋能,PixelDance 模型在业界引起了广泛关注,并已面向企业开启邀测。

PixelDance 在训练过程中利用火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

火山引擎视频云团队还提供了点播解决方案,为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,保障了模型的商业化应用。

此外,火山引擎的方案还开源了移动端后处理解决方案 BMF lite 版本,更轻量、通用,方便开发者使用。

对话式 AI 实时交互方案,提供智能对话和自然语言处理能力。
AIG3D& 大场景重建方案,赋能虚拟现实和元宇宙应用。

传统方案在处理海量视频数据时容易出现效率低、成本高等问题,而火山引擎的方案在这方面有显著优势。

此外,还有多模态视频理解与生成方案,助力视频内容理解和生成。

火山引擎还发布了跨语言同声复刻直播方案,实现多语言实时直播。

火山引擎的方案利用自研的多媒体处理框架 BMF,提高了数据处理效率,降低了算力成本,同时在算法和工程方面进行了优化,提升了模型训练效率。