Agent Banana:智能体思维与工具调用赋能高保真图像编辑

Agent Banana框架,通过智能体思维与工具调用,实现高保真、对象感知的图像编辑,解决专业工作流中的常见难题,并在HDD-Bench测试中表现出色。

原文标题:Agent Banana: 基于智能体思维与工具调用的高保真图像编辑

原文作者:数据派THU

冷月清谈:

本文介绍了Agent Banana,一个具备智能体属性、图层感知的图像编辑框架,旨在解决专业工作流下基于指令的图像编辑所面临的挑战,如过度编辑、单轮限制和分辨率失配。Agent Banana通过引入上下文折叠和图像图层分解两大核心机制,实现了长程交互历史的压缩和基于图层的局部编辑,从而在高分辨率下保持图像的质量和一致性。同时,为了支持严谨的评估,作者构建了HDD-Bench基准测试,该测试具有可验证的分步目标和原生4K图像,用于诊断长程任务中的失效情况。实验结果表明,Agent Banana在多轮一致性和背景忠实度方面表现出色,并且在指令遵循方面也具有竞争力。

怜星夜思:

1、Agent Banana中提到的“上下文折叠”机制,是如何具体实现对长程交互历史的压缩,并以此实现稳定的长程控制的?
2、Agent Banana采用“图像图层分解”来进行局部编辑,这种方式和传统的全局编辑相比,有哪些优势和局限性?
3、HDD-Bench基准测试专门针对多轮高定义编辑,它与以往的单轮编辑基准相比,在评估指标和测试用例设计上有哪些不同?

原文内容

图片
来源:专知
本文约2000字,建议阅读5分钟
我们推出了 Agent Banana。这是一个具备智能体属性、图层感知(Layer-aware)的图像编辑框架。

本文研究了专业工作流下的基于指令的图像编辑,并识别出三个持续存在的挑战:(i) 过度编辑,即编辑器修改了超出用户意图的内容;(ii) 单轮限制,现有模型大多为单轮对话,而多轮编辑往往会破坏对象的忠实度;(iii) 分辨率失配,约 1K 分辨率的评估与实际操作超高清图像(如 4K)的真实工作流不匹配。

为此,我们提出了 Agent Banana,这是一个用于高保真、对象感知、具备“编辑中思考(Thinking with editing)”能力的层级化智能体规划器-执行器框架。Agent Banana 引入了两个核心机制:❶ 上下文折叠(Context Folding),将长程交互历史压缩为结构化记忆,以实现稳定的长程控制;❷ 图像图层分解(Image Layer Decomposition),执行基于图层的局部编辑,在生成原生分辨率输出的同时保护非目标区域。

为了支持严谨的评估,我们构建了 HDD-Bench,这是一个高定义、基于对话的基准测试,具有可验证的分步目标和原生 4K 图像(1180 万像素),用于诊断长程任务中的失效情况。在 HDD-Bench 上,Agent Banana 实现了最佳的多轮一致性和背景忠实度(例如:IC 0.871, $SSIM_{OM}$ 0.84, $LPIPS_{OM}$ 0.12),同时在指令遵循方面保持了极具竞争力的表现,且在标准单轮编辑基准上也取得了强劲性能。我们希望这项工作能推动可靠的专业级智能体图像编辑的发展,并促进其集成到真实工作流中。

1 引言 (Introduction)

基于指令的图像编辑 [3, 54, 40, 10, 18, 4, 33, 45, 27] 使客户能够通过自然语言命令修改图像,并已成为现代生成式视觉系统的核心能力。基础模型(特别是扩散模型 [14, 26] 和自回归 Transformer [42])的近期进展,显著提升了图像的逼真度(Photorealism)和指令遵循能力,为商业系统(如 GPT-4o [33], Gemini 2.5 Flash Image [8])和强力开源模型(如 Flux-1 [20], Qwen-Image-Edit [44])中的实用编辑体验提供了动力。

尽管进展迅速,但目前的生成式编辑器 [44, 27, 17] 与专业工作流的需求之间仍存在巨大差距。在摄影 [16]、平面设计 [28]、视觉特效(VFX)及电影制作 [56] 等高要求场景中,用户通常处理原生高分辨率资产(通常为 4K 或更高),并要求精确的局部修改,且须完整保留所有非目标内容 [17]。相比之下,当今的模型往往在降低的分辨率下运行或依赖下采样,导致难以维持精细的纹理和清晰的边界。此外,它们频繁表现出**过度编辑(Over-editing)**效应,无意中改变了用户意图之外的区域,或降低了全局语义连贯性。最后,它们在处理多目标或顺序性 [59] 的复杂请求时显得力不从心;在这类场景下,成功取决于能否对指令进行分解、验证中间结果并在多轮交互中修正先前的决策。

我们认为,为了弥合这一差距,下一代编辑工具必须具备四项核心能力:① 意图理解与分解,将复杂请求拆解为原子级的子编辑任务;② 精确局部编辑,确保编辑被精准应用,同时在原生分辨率下保持其余内容不变;③ 状态跟踪与回滚,保留多轮交互中的中间步骤,以便用户(或智能体)能够轻松返回上一步并重新规划后续步骤;④ 高分辨率原生编辑,直接在原生 4K 图像上操作,避免下采样以保留细粒度纹理和锐利边界。

为此,我们推出了 Agent Banana。这是一个具备智能体属性、图层感知(Layer-aware)的图像编辑框架,它将高层级推理与规划能力与工具调用能力相结合,受益于愿景语言模型(VLMs)在图像理解、推理和工具调用方面的飞速进步 [15, 36, 46, 47, 34, 1]。Agent Banana 将“氛围感(Vibe)”类型的提示词分解为离散的单目标步骤,并利用“Photoshop 式”的图层隔离、掩模(Masking)和局部编辑来执行这些步骤。Agent Banana 还包含一种自我反思机制(Self-reflection mechanism) [50, 38],允许其在推理阶段进行重试、回滚和重新规划。至关重要的是,Agent Banana 围绕两种专为长程、高分辨率编辑量身定制的机制构建:上下文折叠(Context Folding),将长对话历史压缩为结构化记忆,以实现跨轮次的稳定状态跟踪;以及图像图层分解(Image Layer Decomposition),在隔离的高分辨率图层上执行编辑,从而保留非目标内容并防止迭代过程中的漂移。

为了评估在现实步进依赖(Stepwise dependencies)下的多轮高定义编辑,我们构建了 HDD-Bench。这是一个专为模拟专业编辑工作流而设计的高定义、基于对话的基准测试。与以往主要采用单轮或轮次间弱依赖的基准测试 [10, 18, 4, 45, 27, 51] 不同,HDD-Bench 具有逻辑相关的指令链,其中每一轮都会诱发一个定义明确的状态转换,并可进行逐步验证。HDD-Bench 在原生分辨率下对指令遵循、编辑局部性、多轮一致性和整体视觉保真度进行基准测试。为了减少评估的歧义性,我们进一步引入了一种基于图(Graph-based)的评估协议,用于跟踪跨轮次的对象状态转换,通过对目标编辑是否应用以及非目标区域是否保留进行局部、轮次级的检查,来补充全局感知指标。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


上下文折叠这块儿有点意思,我猜想它可能维护了一个类似 Git 的版本控制系统,每次编辑都相当于一个 commit,然后可以通过某种算法(比如聚类、摘要等)将多个 commit 合并成一个“里程碑”,减少历史记录的冗余。至于结构化记忆,我觉得至少要包含操作类型、作用对象、修改参数这些信息,才能保证后续编辑的可追溯性和一致性。

图像图层分解这招确实高明,但图层之间的依赖关系也是个大坑。我觉得可以从两个方面入手:一是显式建模,比如用图神经网络来表示图层之间的关系,然后通过消息传递来更新图层状态;二是隐式学习,通过大量数据训练一个“图层关系预测器”,在编辑一个图层时,预测其他图层应该如何调整。当然,这两种方法也可以结合起来用。

这个问题问得好!图层分解的核心思想是将复杂的编辑任务分解为对独立图层的操作,这确实在许多领域都有应用潜力。

* 视频编辑: 视频编辑软件(如 Adobe After Effects)已经广泛使用图层概念。Agent Banana 的思路可以进一步发展,例如,智能地将视频帧分解为前景、背景、特效等图层,然后允许用户通过自然语言指令对特定图层进行修改。这可以大大简化复杂的视频编辑任务。
* 3D 模型修改: 3D 模型也可以视为多层结构。例如,可以将模型分解为几何形状、材质、纹理等图层。用户可以使用自然语言指令来修改特定图层的属性,比如“将钢铁材质替换为木质材质”,或者“在模型表面添加划痕”等。一些研究已经探索了类似的方向,例如使用神经渲染来控制 3D 场景的属性。

总之,图层分解作为一种模块化和解耦的方法,具有广泛的应用前景。关键在于如何有效地将复杂对象分解为有意义的图层,并设计相应的编辑接口。

以前的图像编辑benchmark,要么是单步编辑,要么是多步但是步骤之间关联性很弱,这种测试很难反映真实场景下的问题。专业的图像编辑工作流,很多时候需要反复调整,每一步的结果都会影响后续操作。HDD-Bench通过构建一个有依赖关系的指令链,模拟了这种复杂的编辑过程,从而更全面地评估模型的性能。另外,4K分辨率也是一个亮点,保证了测试的实用性。总之,HDD-Bench是更贴近实战的benchmark。

HDD-Bench 最大的特点是“高定义、基于对话”,这很关键。之前的测试往往是单轮或者轮次间弱依赖,缺乏真实感,没法考察模型在复杂流程中的表现。而 HDD-Bench 具有逻辑相关的指令链,每一步都会影响下一步,更贴近专业场景中需要反复调整的实际情况。我觉得这个测试的价值在于,它迫使研究者们去思考如何构建更智能、更鲁棒的图像编辑系统,而不是仅仅追求在简单任务上的高指标。

除了评估指标之外,测试用例的复杂性也是一个重要的区别。单轮编辑通常只涉及简单的指令,比如“把天空变成蓝色”、“添加一只猫”。而多轮编辑可能涉及复杂的组合指令,比如“把天空变成蓝色,然后在草地上添加一只猫,再把猫的颜色改成白色”。这种复杂性对AI的理解能力和推理能力提出了更高的要求。期待看到HDD-Bench的详细设计和评估结果。

优势很明显,图层分解就像Photoshop一样,能精确控制编辑范围,避免误伤其他区域,保证细节和清晰度。但局限性也很明显,如果图层划分不合理,或者需要跨图层的复杂操作,可能反而会增加编辑难度。此外,图层之间的融合也可能出现问题,导致图像出现瑕疵。

个人感觉,图层分解的关键在于如何自动地、智能地划分图层。如果能让AI自动识别图像中的对象,并把它们分别放到不同的图层里,那就能做到真正的精确编辑。但如果图层划分过于简单粗暴,那就跟传统的全局编辑没什么区别了。另外,图层分解也可能导致计算量增加,因为需要在多个图层上分别进行处理。

这个问题很关键啊!“上下文折叠”感觉就像是给AI编辑加了个“记忆压缩”功能,把之前的操作都整理成一份结构化的“笔记”,这样AI就不会在多轮编辑中“忘事儿”,才能保证整体编辑的一致性。具体实现细节可能涉及到一些复杂的算法,比如Transformer或者RNN的变种,将历史对话编码成一个固定长度的向量,并用Attention机制来关注重要的历史信息。具体实现的文章里没提到,建议查阅相关论文了解更多。