北大开源漫画生成框架DiffSensei及4.3万页漫画数据集MangaZero

北大开源漫画生成框架DiffSensei和4.3万页漫画数据集MangaZero,实现角色一致、布局精准的漫画生成。

原文标题:CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

原文作者:机器之心

冷月清谈:

DiffSensei是由北京大学、上海人工智能实验室、南洋理工大学联合推出的结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。它解决了多角色场景中角色一致性差、布局控制难、动态叙事不足等问题。DiffSensei通过掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。

该框架具有角色一致性、布局精准和动态适应性等技术优势。角色一致性方面,能够跨面板保持角色特征稳定,并根据文本动态调整角色状态和动作。布局精准方面,通过掩码机制与边界框标注,实现多角色与对话框的像素级定位。动态适应性方面,MLLM适配器使角色可依据文本提示调整状态,突破了传统模型的静态生成限制。

同时,团队发布了首个专为漫画生成设计的MangaZero数据集,包含4.3万页漫画与42.7万标注面板。MangaZero数据集规模更大,来源更新,标注更丰富,漫画以及画面分辨率更多样。

DiffSensei的应用场景包括真人长篇故事生成和定制漫画生成等。团队公开了训练、测试代码、预训练模型及MangaZero数据集,支持本地部署。

怜星夜思:

1、DiffSensei相比传统的漫画生成模型有哪些独特的优势?除了文章中提到的,还有什么潜在的优势?
2、MangaZero数据集的发布对漫画生成领域的研究有什么意义?
3、DiffSensei未来有哪些可能的应用方向?

原文内容


随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。

为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。


  • 论文地址:https://arxiv.org/pdf/2412.07589
  • GitHub 仓库:https://github.com/jianzongwu/DiffSensei
  • 项目主页 - https://jianzongwu.github.io/projects/diffsensei/
  • 数据链接 - https://huggingface.co/datasets/jianzongwu/MangaZero

该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时,团队发布了首个专为漫画生成设计的 MangaZero 数据集(含 4.3 万页漫画与 42.7 万标注面板),填补了该领域的数据空白。实验表明,DiffSensei 在角色一致性、文本跟随能力与图像质量上显著优于现有模型,为漫画创作、教育可视化、广告设计等场景提供了高效工具。
 
团队公开了训练,测试代码、预训练模型及 MangaZero 数据集,支持本地部署。开发者可通过 Hugging Face 获取资源,并利用 Gradio 界面快速体验生成效果。


1.DiffSensei 效果及应用


DiffSensei 功能

DiffSensei 生成漫画的技术优势:

  • 角色一致性:跨面板保持角色特征稳定,支持连续叙事,可根据文本动态调整任务状态和动作。
  • 布局精准:通过掩码机制与边界框标注,实现多角色与对话框的像素级定位。
  • 动态适应性:MLLM 适配器使角色可依据文本提示调整状态(如 “愤怒表情” 或 “挥手动作”),突破传统模型的静态生成限制。

2.DiffSensei 应用场景

真人长篇故事生成

DiffSensei 真人长篇故事生成效果

定制漫画生成

DiffSensei 定制漫画生成效果

更多结果

DiffSensei 生成整页漫画结果,每页漫画的故事梗概在其上方,更多结果在项目主页

4. 模型框架

DiffSensei 方法框架

DiffSensei 的技术架构以 “动态角色控制” “高效布局生成” 为核心,通过以下模块实现端到端的漫画生成:

  • 多模态特征融合:
  • 结合 CLIP 图像编码器 与 漫画专用编码器(Magi),提取角色语义特征,避免直接复制像素细节导致的 “粘贴效应”。
  • 通过重采样模块将特征压缩为低维 token,适配扩散模型的交叉注意力机制,增强生成灵活性。
  • 掩码交叉注意力机制:复制扩散模型的键值矩阵,创建独立的角色注意力层,仅允许角色在指定边界框内参与注意力计算,实现布局的像素级控制。
  • 引入对话布局嵌,将对话框位置编码为可训练的嵌入向量,与噪声潜在空间融合,支持后期人工文本编辑。
  • MLLM 驱动的动态适配器:以多模态大语言模型(如 LLaVA)为核心,接收面板标题与源角色特征,生成与文本兼容的 目标角色特征,动态调整表情、姿势等属性。训练中结合 语言模型损失(LM Loss) 与 扩散损失,确保生成特征既符合文本语义,又与图像生成器兼容。
  • 多阶段训练优化
  • 第一阶段:基于 MangaZero 数据集训练扩散模型,学习角色与布局的联合生成。
  • 第二阶段:冻结图像生成器,微调 MLLM 适配器,强化文本驱动的角色动态调整能力 813,从而适应与文本提示对应的源特征。在第一阶段使用模型作为图像生成器,并冻结其权重。

5.MangaZero 数据集

MangaZero 数据集统计信息

上图展示了 MangaZero 数据集的基本信息,该数据集中包含最著名的日本黑白漫画系列。图 a 显示了所有 48 系列的封面。这些漫画系列之所以被选中,主要是因为它们的受欢迎程度、独特的艺术风格和广泛的人物阵容,为该模型提供了发展强大而灵活的 IP 保持能力。

图 b 展示了一些人物和对话标注的示例。

图 c 描绘了数据集中的面板分辨率分布。为了提高清晰度,其中包括三条参考线,分别表示 1024×1024、512×512 和 256×256 的分辨率。大多数漫画画板都集中在第二行和第三行周围,这表明与最近研究中通常强调的分辨率相比,大多数画板的分辨率相对较低。这一特性是漫画数据所固有的,该工作专门针对漫画数据。因此,可变分辨率训练对于有效处理漫画数据集至关重要。

MangaZero 数据集和同类数据集对比

MangaZero 数据集相比同类数据,规模更大,来源更新,标注更丰富,漫画以及画面分辨率更多样。与广为人知的黑白漫画数据集 Manga109 相比,MangaZero 数据集收录了更多在 2000 年之后出版的漫画,这也正是其名称的由来。此外,MangaZero 还包含一些 2000 年之前发行、但并未收录于 Manga109 的著名作品,例如《哆啦 A 梦》(1974 年)。

MangaZero 数据集标注流程

上图展示了 MangaDex 数据集的构建过程,作者通过三个步骤构建 MangaZero 数据集。

  • 步骤 1 - 从互联网中下载一些现有的漫画页面。
  • 步骤 2 - 使用预先训练好的模型自主为漫画面板添加相关标注。
  • 步骤 3 - 利用人工来校准人物 ID 标注结果。

MangaZero 数据集应用潜力

  • 多 ID 保持,灵活可控的图片生成训练。漫画数据天然拥有同一个人物多个状态的图像,对可根据文本灵活控制人物状态的定制化生成训练有很大帮助。
  • 风格可控的漫画生成。MangaZero 中包含的漫画系列多样且具有代表性,可以在模型结构中增加风格定制模块,实现画风可控的漫画生成。例如生成龙珠风格的柯南。
 
6. 结论

DiffSensei 通过多模态技术的深度融合,重新定义了 AI 辅助创作的边界。其开源属性与行业适配性,将加速漫画生成从实验工具向产业级应用的跨越。未来,研究方向可扩展至彩色漫画与动画生成,进一步推动视觉叙事技术的普惠化。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



MangaZero数据集的发布填补了漫画生成领域的数据空白,为训练更强大的漫画生成模型提供了基础。就像盖房子一样,地基打好了,才能盖更高更稳的房子。

从研究的角度来说,MangaZero 数据集的发布意义重大。它不仅提供了大量的训练数据,还为研究者提供了一个统一的基准,方便不同模型之间的比较和评估。这将有助于推动漫画生成领域的研究进展,并促进相关技术的落地应用。

除了漫画创作,我觉得DiffSensei还可以应用于教育可视化、广告设计、游戏制作等领域。比如,可以用它来制作教育动画、游戏角色等等,想想就觉得很有前景!

针对“DiffSensei未来有哪些可能的应用方向?”这个问题,我认为可以从以下几个方面考虑:1. 与虚拟现实技术结合,打造沉浸式漫画阅读体验;2. 应用于数字艺术创作,为艺术家提供新的创作工具;3. 开发面向普通用户的漫画创作平台,降低漫画创作门槛。

我觉得DiffSensei最大的优势在于它结合了MLLM,让漫画生成不再是单纯的图像生成,而是可以理解文本语义,进行更深层次的创作。潜在的优势可能是可以根据文本生成不同风格的漫画,比如日漫、美漫等等。

相比传统模型,DiffSensei 的角色一致性和布局控制能力是显著提升,这对于长篇漫画创作至关重要。此外,动态调整角色状态也很有潜力,未来或许可以生成更具表现力的漫画作品。至于潜在优势,我觉得可能在于与其他AIGC工具的联动,比如自动生成故事脚本,再用 DiffSensei 生成漫画。

从学术角度来看,DiffSensei 的创新之处在于掩码交叉注意力机制和 MLLM 适配器,这两者有效地解决了角色一致性和动态生成的问题。除了文章提到的,我觉得它在处理复杂场景和多角色交互方面也可能具有潜在优势,这需要进一步的实验验证。

我觉得MangaZero数据集最大的意义在于它的规模和标注质量。4.3万页漫画和42.7万标注面板,这为研究者提供了丰富的训练数据,可以有效提升模型的性能和泛化能力。而且,高质量的标注也有助于研究者进行更深入的分析和研究。

“DiffSensei未来有哪些可能的应用方向?” 我认为除了漫画创作,它在辅助艺术设计、自动生成故事板、甚至个性化表情包制作方面都有很大的潜力。说不定以后我们聊天斗图用的都是AI生成的专属表情包了!