字节跳动Seaweed-7B:70亿参数实现25秒AI视频,突破多项关键技术

字节跳动发布Seaweed-7B模型,仅70亿参数即可生成25秒AI视频,音视频同步、实时生成是亮点,成本效益显著。

原文标题:“字节暗示我太穷”:Seed团队1000张H100训练7B模型,发布全球首个25秒AI视频,验证视觉生成Scaling Law?

原文作者:AI前线

冷月清谈:

字节跳动发布了名为Seaweed-7B的视频生成基础模型,该模型仅有70亿参数,但在多项核心任务上的表现超越了参数量为其两倍的主流模型,且训练成本仅为其约三分之一。Seaweed-7B支持图像转视频、基于参考图像生成视频等功能,并实现了音视频同步生成、长镜头生成、实时生成等突破性能力。该模型采用DiT架构,并通过对抗性后训练(APT)技术优化生成速度和质量。为了实现高效训练,字节跳动还进行了系统性的基础设施优化,显著提升了模型的算力利用率和资源效率。尽管字节跳动认为Seaweed-7B的资源消耗“适度”,但也有网友指出,动用上千张顶级GPU进行近一个月的训练,仍然需要巨大的算力投入。

怜星夜思:

1、Seaweed-7B模型在音视频同步生成方面的突破,对未来的内容创作模式会带来什么影响?这种技术会如何改变我们制作和消费视频内容的方式?
2、Seaweed-7B在降低计算成本方面的创新,对其他AI研究团队有什么借鉴意义?这种在资源受限情况下进行架构设计的思路,是否会成为未来AI发展的主流方向?
3、Seaweed-7B的实时生成能力如果应用到实际场景中,你认为最有可能在哪些领域率先落地?这种技术会给这些领域带来哪些变革?

原文内容

整理 | Tina

这是全球首个由 AI 生成的 25 秒视频,由字节跳动发布的 Seaweed-7B 模型生成。

字节跳动近日宣布在视频生成领域取得重大突破——Seaweed-7B。这是一个参数量仅为 70 亿的视频生成基础模型,该模型在核心任务上的表现超越了参数量为其两倍的主流模型,而训练成本仅为其约三分之一。

字节跳动早在去年就开始预热 Seaweed 项目,如今,字节 Seed 团队终于放出了技术报告,详细介绍了其技术架构和应用案例,并强调了其在成本效益方面的突破。

这也是 Seed 团队成员的一次曝光。

Seaweed-7B 项目由多个团队共同研发。核心研发团队包括由蒋路、冯佳时等领导的研究团队,下设模型、数据方向和基础设施团队。此外,项目得到了朱文佳和吴永辉的支持。今年 2 月下旬,原 Google DeepMind 副总裁吴永辉正式加入字节跳动,出任 Seed 基础研究负责人。蒋路则早在去年就已加盟字节,作为前谷歌高级科学家,他曾主导谷歌的视频生成相关工作,并在多个核心产品中发挥了关键作用,包括 YouTube、云服务、AutoML、广告、Waymo 和翻译等。同时,蒋路也是卡内基梅隆大学(CMU)的兼职教授。

而他们放出来的宣传视频,这两天也让社区逐渐沸腾起来,引发了广泛而热烈的讨论。

从 Seaweed-7B 看视频生成的下一阶段

和目前主流的 AI 视频模型类似,Seaweed-7B 支持图像转视频、基于参考图像生成视频、半拟真的人物形象、多镜头切换以及高清分辨率输出等常规功能。

真正令人惊艳的是,它具备当前其他 AI 视频模型尚未实现的五项关键能力:

首先,它可以 同步生成音频和视频。目前大多数模型都是先生成视频,再单独添加声音。虽然已有一些“音频驱动视频”的研究,但仍处于实验阶段。Seaweed-7B 的音画一体生成,在效率和内容一致性方面都迈出了一大步。

其次,它支持 长镜头生成。OpenAI 的 Sora 虽然曾展示过分钟级视频,但公开可用版本的时长普遍仍在 20 秒以内。此次字节跳动展示的 25 秒视频不仅拉长了时长,更是在单条提示词下一次性生成,质量也远超以往拼接或续写的方式。

第三,Seaweed-7B 拥有 实时生成能力。据介绍,该模型能以 1280x720 分辨率、24 帧每秒的速度实时生成视频,这在当前 AI 视频领域几乎是革命性的突破,将极大提升互动效率,也为实时创作和虚拟角色应用场景提供了新的可能性。

第四,它引入了名为 CameraCtrl-II 的功能,支持在三维世界中进行镜头调度。研究团队表示,该方法可通过设定镜头角度,生成高度一致且动态丰富的视频,甚至可作为三维视图合成器使用。

最后,模型在 物理模拟与真实感表现 方面也实现了显著提升。传统 AI 视频模型在处理旋转、舞蹈、滑冰等复杂动态时常显生硬,而 Seaweed-7B 的表现更为自然流畅,虽然仍有提升空间,但已明显优于过去几个月业内常见的模型效果。

这些视频效果让很多人觉得惊艳,不少网友感叹其在实时摄像机控制、长时高清视频生成和多镜头流畅切换方面的突破,直呼“太疯狂了”、“再次惊艳中国”,尤其“实时视频生成”的概念让人联想到未来 AI 在游戏等领域的可能性。

资源受限环境中,架构设计尤其重要

虽然视频生成的许多技术都受到图像生成技术的启发,但视频生成面临着独特的挑战。与静态图像不同,视频需要对运动动态进行建模,并保持长序列的时间一致性。这些要求极大地增加了训练和推理的计算复杂度,使得视频生成模型成为开发和部署中最耗费资源的基础模型之一。

2024 年 Sora 的发布被视为视频生成领域的重要里程碑,但训练这类模型往往需要极其庞大的算力,通常动辄上千张 GPU。

Seaweed-7B 的训练成本则小很多,仅 66.5 万 H100 GPU 小时,相当于在 1,000 张 H100 GPU 上连续运行约 27.7 天。

虽然该模型仅 70 亿参数,但从图像到视频的效果能超越同类 140 亿的模型。

在图像转视频的任务中,Seaweed-7B 在各项指标上均大幅优于 Sora。

在文本转视频的任务中,Seaweed-7B 在 Elo 评分中位列前 2-3 名,紧随排名第一的模型 Veo 2 之后,性能与 Wan 2.1-14B 相当。

而该模型能够以显著降低的计算成本实现极具竞争力的性能,也跟背后的架构设计决策密切相关。

根据公开信息,该模型采用 DiT(扩散变换器)架构,并通过对抗性后训练(APT)技术优化生成速度和质量。它只需单次神经函数评估即可生成 2 秒的 720p 视频,推理速度比同类模型提升 62 倍。同时也提出了变分自编码器(VAE)设计,VAE定义了生成真实感和保真度的上限, 这可能是该模型生成的视频具有高真实感和生动运动的主要因素。

在数据上,该团队开发了一套高吞吐量且灵活的视频管理流程,包括管理视频编码和解码、执行时间分割、空间裁剪、质量过滤等。

凭借这一基础架构,让 Seed 团队每天能够处理超过 50 万小时的视频数据,足以用于训练,因此可以将精力集中在有效地挖掘高质量视频片段上。为了优化视频片段处理时的吞吐量,他们使用了两个现代框架:BMF 以及 Ray 。

Infra 层面,字节跳动围绕“高效训练”进行了系统性的基础设施优化,显著提升了模型的算力利用率与资源效率。具体而言,团队采用三维并行策略(数据并行、上下文并行、模型切分)来应对长上下文视频训练的挑战,并引入“运行时负载均衡”机制,动态调配图像与视频样本在不同 GPU 间的分布,缓解联合训练时的负载不均问题。

此外,Seaweed-7B 还创新性地设计了多级激活检查点(MLAC)机制,支持将中间激活存储在 GPU、CPU 或磁盘等多层级介质中,不仅大幅降低了显存占用,还减少了重计算带来的性能损耗。为进一步提升训练吞吐,团队还通过 kernel 融合手段,将多个内存访问密集的操作整合到单个 CUDA kernel,显著提升了运算强度与 GPU 利用率。

字节在论文中表示,得益于这些系统级优化,Seaweed-7B 在大规模分布式训练中实现了 38% 的 FLOPs 利用率,成为当前 AI 视频生成领域中兼顾性能与效率的代表性模型之一。

不过,有意思的是,尽管字节跳动认为其资源消耗“适度”,不少网友却对此持有不同看法,直呼“字节跳动在暗示我太穷”。

他们指出,动用上千张顶级 GPU 进行近一个月的训练,无论如何都绝非小数目,强调这依然是需要巨大算力的投入,所谓“适度的计算资源”的说法并不恰当。

“字节跳动在暗示我‘GPU 穷人’。一个训练了 66.5 万张 H100 小时的模型,却被称作‘成本高效’、‘计算资源适度’。”

参考链接:

https://arxiv.org/html/2504.08685v1

https://www.linkedin.com/posts/eddieyoon_this-is-the-worlds-first-25-second-ai-generated-activity-7317677545821192192--o0W/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文

图片
你也「在看」吗?👇

Seaweed-7B的成功证明了,不一定非得堆算力才能做出好模型。在资源有限的情况下,更应该注重算法的优化和架构的设计。这种思路对于很多中小型的AI团队来说,具有很强的借鉴意义,毕竟不是每个团队都能像OpenAI那样财大气粗。

音视频同步生成的影响是巨大的,它将降低内容创作的门槛,让更多人能够轻松制作出高质量的视频内容。想象一下,无需专业的录音设备和后期合成,只需简单的提示词,就能生成带有逼真音效的视频,这将会极大地丰富内容创作生态。同时,也需要关注版权问题,AI生成的内容如何界定版权归属需要进一步探讨。

“字节暗示我太穷”这个说法虽然是调侃,但也反映了一个现实问题:AI研究的门槛越来越高。Seaweed-7B的架构设计思路,为我们提供了一种新的可能性,即通过精巧的设计,降低对算力的依赖。这种思路如果能成为主流,那么更多人将能够参与到AI研究中来,推动AI技术的普及。

个人认为,在AI领域,算力固然重要,但真正的瓶颈在于算法创新。Seaweed-7B的出现,提醒我们应该更加关注如何利用有限的资源,实现更高的效率。这或许会倒逼AI研究者们回归初心,更加注重理论研究和算法创新。但“大力出奇迹”在某些领域仍然适用,不能完全否认算力的作用。

这技术要是用在游戏里,那可太牛逼了!想想看,NPC的对话和动作都是实时生成的,根据玩家的选择做出不同的反应,那游戏体验绝对是质的飞跃。不过,AI生成的音频质量能不能保证是个问题,别最后听起来都是机械音,那就太出戏了。

别忘了VR/AR! 实时视频生成+VR/AR,想象一下,你戴上眼镜,看到的景象是AI实时生成的,你可以和虚拟世界进行互动,那感觉简直太棒了!不过,这需要解决AI生成内容的真实性和沉浸感问题,否则很容易让人产生不适感。这技术要是成熟应用,元宇宙指日可待。

除了直播和游戏,我觉得实时生成能力在教育领域也有很大的潜力。比如,老师可以利用AI实时生成教学视频,根据学生的反馈进行调整,让教学更加个性化。另外,在医疗领域,医生也可以利用AI实时生成手术模拟,提高手术的成功率。这绝对是划时代的进步。

我觉得实时生成能力最有可能先在直播和游戏领域落地。直播带货的时候,主播可以直接用AI生成各种特效,增加互动性;游戏里的NPC也可以根据玩家的行为实时生成对话和动作,让游戏体验更真实。当然,这也对AI的反应速度和稳定性提出了更高的要求。

我觉得音视频同步生成如果真的成熟,那以后剪辑师可能要失业了。现在很多短视频都是后期配音或者加BGM,如果AI能直接生成匹配的音效,那效率提升不是一点半点。以后会不会出现AI导演,根据剧本自动生成电影?