文章里提到了全模态强化学习体系和新增的两大高阶参考任务(关键帧参考和九宫格参考)。感觉关键帧参考有点像定格动画,只不过是用AI来脑补中间帧,这个技术对于保证视频的连贯性应该很有帮助。
我觉得除了技术创新,数据和算力也很重要。国内有庞大的数据资源和不断提升的算力支持,这为AI模型的发展提供了坚实的基础。另外,昆仑万维将其直接应用于短剧生产,这种实践反过来也能促进技术的快速迭代和优化。与其说是技术上的超越,不如说是技术、数据、算力和应用场景的综合优势。
机遇在于AI可以辅助编剧进行剧本创作,提供更多创意灵感,甚至可以通过AI生成各种风格的剧本,满足不同用户的需求。挑战则在于如何平衡AI生成内容与人工创作之间的关系,以及如何避免AI生成的内容侵犯他人的知识产权。
这绝对是个好消息!说明国内AI技术在某些领域已经赶超甚至领先国际水平了,以后做短剧、广告啥的,成本又能降不少,效率也能提高!
结合文章和论文来看,MMDiT结构、统一的通道连接公式和带偏移的 3D RoPE 是几个关键的技术点。MMDiT结构实现了音画同步,统一的通道连接公式简化了多种生成任务的处理,而带偏移的 3D RoPE 则提升了模型对人物特征和运动轨迹的捕捉能力。这些创新共同提升了SkyReels-V4的视频生成质量和效率。