B站开源Index-AniSora:二次元动画视频生成新突破,IJCAI25 论文

B站开源Index-AniSora:首个二次元视频生成技术框架,支持多种风格动画视频镜头一键生成!

原文标题:Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

原文作者:机器之心

冷月清谈:

B站开源动画视频生成模型 Index-AniSora,该模型基于B站提出的 AniSora 实现,已被 IJCAI25 接收。AniSora 是首个专为二次元视频生成打造的技术框架,旨在提升动画内容的生产效率与质量,能一键生成番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头。该模型通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,为模型训练提供数据基础。 针对动画生成的独特需求,开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,从而实现对角色口型、动作乃至局部区域的精细控制,增强内容生成的可控性和创作自由度。 此外,还设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白,并基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,构建出更贴合创作者真实需求的自动化视频评估系统。 本次开源内容包括:AniSoraV1.0 和 AniSoraV2.0,以及训练数据集构建的全链路模型、基于动画数据优化的 Benchmark 系统和基于动画领域人类偏好强化学习模型及训练框架。

怜星夜思:

1、Index-AniSora的开源,对动画制作行业会带来哪些影响?是会降低门槛让更多人参与创作,还是会加剧行业内卷?
2、文中提到Index-AniSora使用了大量数据进行训练,那么这些数据的版权问题是如何解决的?如果没有解决,未来是否会成为这类AI模型的潜在风险?
3、Index-AniSora目前开源的是V1.0和V2.0版本,未来这个项目的发展方向会是什么?你们觉得它会在哪些方面继续改进和突破?

原文内容


B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!


  • 论文标题:AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era
  • 论文地址:https://arxiv.org/abs/2412.10255
  • 项目主页:https://github.com/bilibili/Index-anisora


整个工作技术原理基于 B 站提出的 AniSora 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量。



喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别 「PPT 动画


  • 提示词:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊


引导帧首帧


图片

生成的视频


  • 提示词:画面中的人物向上抬了下手臂,他手臂上的气体在流动


引导帧首帧


图片

生成的视频


  • 提示词:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫


引导帧首帧


图片

生成的视频


  • 提示词:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散


引导帧首帧


图片

生成的视频


简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。


其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。


最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。



时域条件控制(对应任务如视频插帧、扩写开头)


引导帧首帧


尾帧


图片

生成的视频


引导帧尾帧


图片

生成的视频


运动空间条件控制


引导帧首帧


运动掩码 1


图片

生成的视频(带有掩码的可视化)


运动掩码 2


图片

生成的视频(带有掩码的可视化)


运动强度控制


  • 提示词:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西


引导帧首帧


图片

正常强度


图片

大幅强度


详细的技术方案,请看:



本次开源内容包括:


AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80% 的应用场景。


AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90% 的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。


训练数据集构建的全链路模型,帮助快速扩展训练数据。


基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。


此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。



  • 论文标题:Aligning Anime Video Generation with Human Feedback

  • 论文地址:https://arxiv.org/abs/2504.10044 


下面简单说它的原理。



我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。


基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉 - 语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。


如果你已经跃跃欲试了,快前往:


  • https://github.com/bilibili/Index-anisora/tree/main


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

B站作为国内知名的视频平台,在版权方面应该会有一定的规避措施。 比如,他们可能会采用用户原创内容(UGC)进行训练,并且在使用协议中明确用户上传内容可用于模型训练。但具体如何操作,只能等官方披露更多信息了。

个人觉得,未来的重点肯定是提升生成视频的质量和可控性。 比如,让模型更好地理解用户输入的提示词,生成更符合用户意图的动画。 另外,还可以加入更多的编辑功能,让用户可以对生成的视频进行更精细的调整。

我觉得既会降低门槛,也会加剧内卷。降低门槛是肯定的,本来需要专业团队才能完成的动画,现在个人也能搞一些简单的。但反过来说,大量低成本作品涌现,肯定会加速内卷,逼着专业团队去搞更高质量更有创意的作品。

数据版权绝对是绕不开的话题。训练数据来源不明,或者未获得授权,将来肯定会被告侵权。 想象一下,如果模型生成的动画和某个已有的作品非常相似,那官司就有的打了。

站在从业者的角度说一句,工具的进步永远是好事。 降低门槛是必然的,与其担心内卷,不如拥抱变化,学习新工具,提升自己的竞争力。 实际上,这种AI生成工具,并不能完全取代动画师,而是会成为他们的强大助手。动画师可以利用AI快速生成一些基础素材和草稿,然后专注于创意设计和细节完善,大幅提高工作效率和作品质量。

这确实是个很大的隐患,现在很多AI公司都在打擦边球,用各种方法收集数据,但版权问题始终悬而未决。 我觉得未来可能会有两种解决方式:一是大公司自己购买版权,建立自己的数据集;二是出现专门的数据授权平台,让AI公司可以合法合规地使用数据。

我觉得除了技术层面,生态建设也很重要。 比如,B站可以围绕Index-AniSora 打造一个创作者社区,让用户可以分享自己的作品,交流使用经验。 这样不仅可以吸引更多的用户,还可以促进模型的迭代和完善。

大胆预测一下,未来Index-AniSora可能会和AIGC平台结合,用户可以通过简单的操作,就能生成高质量的动画内容,然后直接发布到B站。 这样,人人都能成为动画导演!想想就觉得刺激!

与其说是内卷,不如说是整个行业格局的洗牌。以后可能出现一种新的动画工作室模式:少量核心创意人员+大量AI工具辅助。 传统动画公司如果不能快速适应这种变化,可能会被淘汰。