北大开源漫画生成框架DiffSensei和4.3万页漫画数据集MangaZero,实现角色一致、布局精准的漫画生成。
原文标题:CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
原文作者:机器之心
冷月清谈:
该框架具有角色一致性、布局精准和动态适应性等技术优势。角色一致性方面,能够跨面板保持角色特征稳定,并根据文本动态调整角色状态和动作。布局精准方面,通过掩码机制与边界框标注,实现多角色与对话框的像素级定位。动态适应性方面,MLLM适配器使角色可依据文本提示调整状态,突破了传统模型的静态生成限制。
同时,团队发布了首个专为漫画生成设计的MangaZero数据集,包含4.3万页漫画与42.7万标注面板。MangaZero数据集规模更大,来源更新,标注更丰富,漫画以及画面分辨率更多样。
DiffSensei的应用场景包括真人长篇故事生成和定制漫画生成等。团队公开了训练、测试代码、预训练模型及MangaZero数据集,支持本地部署。
怜星夜思:
2、MangaZero数据集的发布对漫画生成领域的研究有什么意义?
3、DiffSensei未来有哪些可能的应用方向?
原文内容
-
论文地址:https://arxiv.org/pdf/2412.07589
-
GitHub 仓库:https://github.com/jianzongwu/DiffSensei
-
项目主页 - https://jianzongwu.github.io/projects/diffsensei/
-
数据链接 - https://huggingface.co/datasets/jianzongwu/MangaZero
-
角色一致性:跨面板保持角色特征稳定,支持连续叙事,可根据文本动态调整任务状态和动作。
-
布局精准:通过掩码机制与边界框标注,实现多角色与对话框的像素级定位。
-
动态适应性:MLLM 适配器使角色可依据文本提示调整状态(如 “愤怒表情” 或 “挥手动作”),突破传统模型的静态生成限制。
-
多模态特征融合:
-
结合 CLIP 图像编码器 与 漫画专用编码器(Magi),提取角色语义特征,避免直接复制像素细节导致的 “粘贴效应”。
-
通过重采样模块将特征压缩为低维 token,适配扩散模型的交叉注意力机制,增强生成灵活性。
-
掩码交叉注意力机制:复制扩散模型的键值矩阵,创建独立的角色注意力层,仅允许角色在指定边界框内参与注意力计算,实现布局的像素级控制。
-
引入对话布局嵌入,将对话框位置编码为可训练的嵌入向量,与噪声潜在空间融合,支持后期人工文本编辑。
-
MLLM 驱动的动态适配器:以多模态大语言模型(如 LLaVA)为核心,接收面板标题与源角色特征,生成与文本兼容的 目标角色特征,动态调整表情、姿势等属性。训练中结合 语言模型损失(LM Loss) 与 扩散损失,确保生成特征既符合文本语义,又与图像生成器兼容。
-
多阶段训练优化
-
第一阶段:基于 MangaZero 数据集训练扩散模型,学习角色与布局的联合生成。
-
第二阶段:冻结图像生成器,微调 MLLM 适配器,强化文本驱动的角色动态调整能力 813,从而适应与文本提示对应的源特征。在第一阶段使用模型作为图像生成器,并冻结其权重。
-
步骤 1 - 从互联网中下载一些现有的漫画页面。
-
步骤 2 - 使用预先训练好的模型自主为漫画面板添加相关标注。
-
步骤 3 - 利用人工来校准人物 ID 标注结果。
-
多 ID 保持,灵活可控的图片生成训练。漫画数据天然拥有同一个人物多个状态的图像,对可根据文本灵活控制人物状态的定制化生成训练有很大帮助。
-
风格可控的漫画生成。MangaZero 中包含的漫画系列多样且具有代表性,可以在模型结构中增加风格定制模块,实现画风可控的漫画生成。例如生成龙珠风格的柯南。