EmoEdit:情感编辑新突破,深大VCC带你玩转图像情感操控

深圳大学VCC发布EmoEdit,一个图像情感编辑框架,用户仅需输入情感词,即可调整画面情感。同时,他们构建了首个大规模AIM数据集EmoEditSet,并设计了情感增强模块Emotion Adapter。

原文标题:CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!

原文作者:机器之心

冷月清谈:

深圳大学可视计算研究中心(VCC)提出了名为EmoEdit的全新框架,专注于图像情感编辑(AIM)。该框架旨在通过编辑图像引导观众的情感,同时保持编辑后图像与原图的结构一致性。EmoEdit的核心在于其内容感知的AIM框架,仅需目标情感类别作为提示词,即可在用户图像上实现多样化的情感编辑。为了支持该框架的研究,VCC还构建了首个大规模AIM数据集EmoEditSet,包含40,120组图像对,为视觉情感研究提供了高质量的基准。此外,团队还设计了即插即用的情感增强模块Emotion Adapter,旨在通过融合EmoEditSet的情感知识,有效提升扩散模型的情感感知能力。实验结果表明,EmoEdit在图像结构保持和情感表达方面表现出色,用户可根据需求调整引导系数,定制图像编辑效果。Emotion Adapter还能增强其他模型的情感表达能力,并拓展至风格图像生成任务。该研究为情感计算与生成式人工智能的交叉领域贡献了新的思路与方法。

怜星夜思:

1、EmoEdit通过编辑图像来引导情感,那么在实际应用中,这种技术可能会被用在哪些方面?又会带来哪些伦理上的挑战?
2、EmoEdit使用大规模数据集EmoEditSet来训练模型,数据集的质量对最终效果至关重要。你是如何看待目前AI数据集构建的?为了保证数据集的质量,我们可以做些什么?
3、文章提到Emotion Adapter可以提升扩散模型的情感感知能力,那么你认为情感感知在AI领域还有哪些潜在的应用场景?如何进一步提升AI的情感感知能力?

原文内容


EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成,第一作者为杨景媛助理教授。深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。



  • 论文标题:EmoEdit: Evoking Emotions through Image Manipulation

  • 论文链接:https://arxiv.org/pdf/2405.12661

  • 项目主页:https://vcc.tech/research/2025/EmoEdit

  • 项目代码:https://github.com/JingyuanYY/EmoEdit


你有没有想过,情感也能被编辑?



当你翻开相册,看到一张平淡无奇的风景照,是否希望它能更温暖、更浪漫,甚至更忧郁?现在,EmoEdit 让这一切成为可能 —— 只需输入一个简单的情感词,EmoEdit 便能巧妙调整画面,使观众感知你想传递的情感。


情感无处不在,我们的每一次触动,往往源自身边微小的细节。心理学研究表明,视觉刺激是情感唤起的重要来源之一,而图像内容则是人类理解视觉信息的关键。这便引出一个值得探索的问题:我们能否通过编辑图像,有效引导观众的情感?


图像情感编辑(Affective Image Manipulation, AIM)具有双重目标:


  • 保持编辑后图像与原图的结构一致性;

  • 精准且显著地唤起目标情感。


然而,这两者本质上存在一定冲突,如何权衡成为关键挑战。尽管当前先进的生成模型在图像编辑任务中表现出强大能力,但难以权衡结构保持和情感唤起(如下图所示)。现有方法主要依赖颜色调整或风格变化进行情感迁移,但情感表达仍不够精准和显著,难以呈现更丰富且生动的情感效果。



为解决上述问题,本文的主要贡献如下:


  • 提出 EmoEdit,一种基于内容感知的 AIM 框架,仅需目标情感类别作为提示词,即可在任意用户图像上实现多样化的情感编辑;

  • 构建首个大规模 AIM 数据集 EmoEditSet,涵盖 40,120 组图像对,提供高质量、语义丰富的情感编辑基准,推动视觉情感研究;

  • 设计即插即用的情感增强模块 Emotion Adapter,通过融合 EmoEditSet 的情感知识,有效提升扩散模型的情感感知能力。


EmoEditSet 的构建



鉴于 EmoSet 现有标签的局限性,我们在 CLIP 空间中对情感图片进行聚类,并利用 GPT-4V 总结各类的共性语义,构建情感因素树。其中,每个叶节点因素均能有效激发根节点的目标情感。


同时,我们从 MagicBrush、MA5K 和 Unsplash 等多个来源收集源图像,并利用 IP2P 和情感因素树生成目标图像。此外,考虑到 GPT-4V 与扩散模型在知识表达上的差异,我们合并语义相近的视觉因素,并剔除内容过于抽象的因素,以提升数据集的整体质量。


Emotion Adapter 的设计



微调虽能增强模型的情感知识,但成本高、泛化性差,且易导致灾难性遗忘。Q-Former 可利用一种模态的上下文优化对另一模态的理解。基于此,我们设计 Emotion Adapter,以提高情感感知能力。




Emotion Adapter 结合情感词典,目标情感和输入图像,旨在生成最合适的情感嵌入。


在训练过程中,我们通过扩散损失和指令损失共同优化网络:



其中,扩散损失侧重于像素级相似性,而指令损失则有助于更好地平衡语义准确性。


实验结果



在对比实验中,我们从全局编辑、局部编辑和情感迁移三个维度选择了对比方法。与其他方法相比,EmoEdit 编辑后的图像不仅有效保留了原始构图特征,还能显著传达目标情感,凸显了其在平衡图像结构与情感表达方面的优势。



在消融实验中,缺少 Emotion Adapter(w/o EmoAda)时,图像几乎相同。扩散损失有效保留了原始结构,而指令损失则提高了语义清晰度。例如,在 “满足” 情感下,EmoEdit 增加了躺椅,展现了结构完整性、语义清晰度和上下文契合度。



我们观察到,随着图像引导系数的降低,情感强度增加,而结构保持程度减少。尽管情感唤起和结构保持通常存在矛盾,EmoEdit 仍能有效平衡二者。用户可以根据需求和偏好调整引导系数,定制图像编辑效果,从而满足多样化的编辑需求。



在定量评估中,我们采用涵盖像素、语义和情感三个层面的六项指标。结果表明,EmoEdit 在大多数指标上优于对比方法,进一步验证了其在图像情感编辑任务中的卓越性能。



Emotion Adapter 可显著增强其他模型的情感表达能力。例如,在 ControlNet 中,插入 Emotion Adapter 之前,模型仅能将输入图像转换为黑白;引入后,则能生成包含墓碑等情感相关元素的图像,大幅提升情感保真度和上下文契合度。这进一步验证了 Emotion Adapter 在增强情感表达方面的有效性。



Emotion Adapter 不仅适用于图像编辑,还可拓展至风格图像生成。通过一次训练,它即可将情感极性(积极、消极)编码为准确、多元的语义表示。例如,在 莫奈风格生成的图像中,日落唤起敬畏(积极),而墓地则传递 悲伤(消极),充分展现了其在风格图像生成任务中的鲁棒性。


总结与展望


莎士比亚曾言:The emotion expressed by wordless simplicity is the most abundant.


至简无言处,情深自丰盈


近年来,我们课题组先后提出了情感计算领域的 Emo 系列研究工作:


  • EmoSet(ICCV 2023):首个具有丰富属性标注的大规模视觉情感数据集;

  • EmoGen(CVPR 2024):首个针对图像情感内容生成的研究;

  • EmoEdit(CVPR 2025):首个聚焦于图像情感内容编辑的研究。


我们希望通过这一系列探索,为情感计算(Affective Computing)与生成式人工智能(AIGC)的交叉领域贡献新的思路与方法。未来,我们将持续深耕这一领域,也期待更多志同道合的朋友加入,共同探索情感这片蓝海!


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

现在AI圈有个说法,说数据标注员才是AI时代最重要的人。高质量的数据集确实难求,但我觉得光靠人工标注还不够,得结合AI自身的力量。比如用AI辅助标注,或者用对抗生成网络(GAN)来生成更丰富的数据,这样才能降低成本,提高效率和质量。当然啦,伦理问题也要考虑,得避免生成虚假信息或者侵犯隐私。

这技术让我想到了数字时代的“情感炼金术”。一方面,它能助力艺术创作,让设计师更精准地表达情感,打造引人入胜的作品。另一方面,如果被用于舆论引导,后果不堪设想。情绪渲染的假新闻,个性化定制的“信息茧房”,想想都觉得可怕。因此,在享受技术带来的便利时,我们必须保持警惕,加强监管,避免其成为操纵人心的工具。

数据集是AI的基石,但现在很多数据集都存在偏见、噪声等问题,严重影响了模型的性能和泛化能力。EmoEdit构建EmoEditSet的思路值得借鉴,比如利用CLIP空间聚类、GPT-4V总结语义等方法,可以提高数据集的质量。为了保证数据集质量,我认为应该从数据来源、标注质量、数据清洗等方面入手,同时加强对数据集偏见的检测和修正。

情感感知在AI领域的应用简直是潜力无限!比如,智能客服可以根据用户的情绪调整回复策略,提供更个性化的服务;情感陪护机器人可以识别老人的孤独感,主动进行交流;甚至在自动驾驶领域,AI可以通过识别驾驶员的情绪状态,预防交通事故。要提升AI的情感感知能力,我认为需要多管齐下:一是加强情感计算的基础研究,探索更有效的情感建模方法;二是构建更丰富、更真实的情感数据集;三是引入更多的跨模态信息,比如结合语音、文本、表情等多种信息进行情感识别。

从技术角度看,EmoEdit通过编辑图像来影响人的情感,实际上是利用了人类对视觉信息的敏感性。这让我想到了心理学中的“情感设计”概念。好的情感设计能够让产品或服务更具吸引力,但过度的情感操控则可能适得其反。就伦理而言,我认为关键在于透明度和选择权。用户应该清楚地知道自己看到的内容经过了情感编辑,并且有权选择是否接受这种影响。

我个人觉得AI的情感感知能力在教育领域大有可为。想象一下,AI老师可以根据学生的情绪状态调整教学节奏和内容,让学习更高效、更个性化。但是,这里面也存在一些挑战,比如如何保护学生的隐私,如何避免AI对学生的情感产生负面影响。我们需要认真权衡利弊,确保技术真正服务于教育。

从技术实现的角度来看,提升AI的情感感知能力,可以考虑借鉴认知科学的研究成果。人类的情感并非孤立存在,而是与认知、记忆、经验等因素密切相关。因此,我们可以尝试将情感感知模块与知识图谱、推理引擎等模块进行集成,让AI能够更全面、更深入地理解人类的情感。此外,引入强化学习技术,让AI在与人的交互过程中不断学习和优化情感感知能力,也是一个不错的思路。

EmoEdit的应用前景相当广泛,比如广告设计、电影制作,甚至心理治疗领域。想象一下,广告可以用更精准的情感操控来吸引消费者,电影可以通过细微的情感调整来增强叙事效果。心理治疗师也可以利用它来帮助病人表达情感。但伦理挑战也不容忽视,如果被滥用,它可能会操纵人们的情感,影响他们的决策,甚至加剧社会偏见。我们需要认真思考如何规范这项技术的使用。

我比较关注数据集的多样性和代表性。现在很多数据集都集中在特定领域或人群,导致模型在其他场景下表现不佳。为了构建更通用、更可靠的AI系统,我们需要收集更多来自不同文化、不同背景的数据。另外,数据标注的标准化也很重要,不同的标注者对同一张图片的理解可能存在差异,这会给模型带来困扰。所以,制定统一的标注规范,并对标注者进行培训,是必不可少的。