Agent Banana：智能体思维与工具调用赋能高保真图像编辑

DatapiTHU · 2026 年2 月 19 日 13:51

Agent Banana框架，通过智能体思维与工具调用，实现高保真、对象感知的图像编辑，解决专业工作流中的常见难题，并在HDD-Bench测试中表现出色。

原文标题：Agent Banana: 基于智能体思维与工具调用的高保真图像编辑

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665055&idx=2&sn=8cdcf58f332df6e227e3f9ab37f834a9&

冷月清谈：

本文介绍了Agent Banana，一个具备智能体属性、图层感知的图像编辑框架，旨在解决专业工作流下基于指令的图像编辑所面临的挑战，如过度编辑、单轮限制和分辨率失配。Agent Banana通过引入上下文折叠和图像图层分解两大核心机制，实现了长程交互历史的压缩和基于图层的局部编辑，从而在高分辨率下保持图像的质量和一致性。同时，为了支持严谨的评估，作者构建了HDD-Bench基准测试，该测试具有可验证的分步目标和原生4K图像，用于诊断长程任务中的失效情况。实验结果表明，Agent Banana在多轮一致性和背景忠实度方面表现出色，并且在指令遵循方面也具有竞争力。

怜星夜思：

1、Agent Banana中提到的“上下文折叠”机制，是如何具体实现对长程交互历史的压缩，并以此实现稳定的长程控制的？
2、Agent Banana采用“图像图层分解”来进行局部编辑，这种方式和传统的全局编辑相比，有哪些优势和局限性？
3、HDD-Bench基准测试专门针对多轮高定义编辑，它与以往的单轮编辑基准相比，在评估指标和测试用例设计上有哪些不同？

原文内容

来源：专知

        本文约2000字，建议阅读5分钟

        我们推出了 Agent Banana。这是一个具备智能体属性、图层感知（Layer-aware）的图像编辑框架。

本文研究了专业工作流下的基于指令的图像编辑，并识别出三个持续存在的挑战：(i) 过度编辑，即编辑器修改了超出用户意图的内容；(ii) 单轮限制，现有模型大多为单轮对话，而多轮编辑往往会破坏对象的忠实度；(iii) 分辨率失配，约 1K 分辨率的评估与实际操作超高清图像（如 4K）的真实工作流不匹配。

为此，我们提出了 Agent Banana，这是一个用于高保真、对象感知、具备“编辑中思考（Thinking with editing）”能力的层级化智能体规划器-执行器框架。Agent Banana 引入了两个核心机制：❶ 上下文折叠（Context Folding），将长程交互历史压缩为结构化记忆，以实现稳定的长程控制；❷ 图像图层分解（Image Layer Decomposition），执行基于图层的局部编辑，在生成原生分辨率输出的同时保护非目标区域。

为了支持严谨的评估，我们构建了 HDD-Bench，这是一个高定义、基于对话的基准测试，具有可验证的分步目标和原生 4K 图像（1180 万像素），用于诊断长程任务中的失效情况。在 HDD-Bench 上，Agent Banana 实现了最佳的多轮一致性和背景忠实度（例如：IC 0.871, $SSIM_{OM}$ 0.84, $LPIPS_{OM}$ 0.12），同时在指令遵循方面保持了极具竞争力的表现，且在标准单轮编辑基准上也取得了强劲性能。我们希望这项工作能推动可靠的专业级智能体图像编辑的发展，并促进其集成到真实工作流中。

1 引言 (Introduction)

基于指令的图像编辑 [3, 54, 40, 10, 18, 4, 33, 45, 27] 使客户能够通过自然语言命令修改图像，并已成为现代生成式视觉系统的核心能力。基础模型（特别是扩散模型 [14, 26] 和自回归 Transformer [42]）的近期进展，显著提升了图像的逼真度（Photorealism）和指令遵循能力，为商业系统（如 GPT-4o [33], Gemini 2.5 Flash Image [8]）和强力开源模型（如 Flux-1 [20], Qwen-Image-Edit [44]）中的实用编辑体验提供了动力。

尽管进展迅速，但目前的生成式编辑器 [44, 27, 17] 与专业工作流的需求之间仍存在巨大差距。在摄影 [16]、平面设计 [28]、视觉特效（VFX）及电影制作 [56] 等高要求场景中，用户通常处理原生高分辨率资产（通常为 4K 或更高），并要求精确的局部修改，且须完整保留所有非目标内容 [17]。相比之下，当今的模型往往在降低的分辨率下运行或依赖下采样，导致难以维持精细的纹理和清晰的边界。此外，它们频繁表现出**过度编辑（Over-editing）**效应，无意中改变了用户意图之外的区域，或降低了全局语义连贯性。最后，它们在处理多目标或顺序性 [59] 的复杂请求时显得力不从心；在这类场景下，成功取决于能否对指令进行分解、验证中间结果并在多轮交互中修正先前的决策。

我们认为，为了弥合这一差距，下一代编辑工具必须具备四项核心能力：① 意图理解与分解，将复杂请求拆解为原子级的子编辑任务；② 精确局部编辑，确保编辑被精准应用，同时在原生分辨率下保持其余内容不变；③ 状态跟踪与回滚，保留多轮交互中的中间步骤，以便用户（或智能体）能够轻松返回上一步并重新规划后续步骤；④ 高分辨率原生编辑，直接在原生 4K 图像上操作，避免下采样以保留细粒度纹理和锐利边界。

为此，我们推出了 Agent Banana。这是一个具备智能体属性、图层感知（Layer-aware）的图像编辑框架，它将高层级推理与规划能力与工具调用能力相结合，受益于愿景语言模型（VLMs）在图像理解、推理和工具调用方面的飞速进步 [15, 36, 46, 47, 34, 1]。Agent Banana 将“氛围感（Vibe）”类型的提示词分解为离散的单目标步骤，并利用“Photoshop 式”的图层隔离、掩模（Masking）和局部编辑来执行这些步骤。Agent Banana 还包含一种自我反思机制（Self-reflection mechanism） [50, 38]，允许其在推理阶段进行重试、回滚和重新规划。至关重要的是，Agent Banana 围绕两种专为长程、高分辨率编辑量身定制的机制构建：上下文折叠（Context Folding），将长对话历史压缩为结构化记忆，以实现跨轮次的稳定状态跟踪；以及图像图层分解（Image Layer Decomposition），在隔离的高分辨率图层上执行编辑，从而保留非目标内容并防止迭代过程中的漂移。

为了评估在现实步进依赖（Stepwise dependencies）下的多轮高定义编辑，我们构建了 HDD-Bench。这是一个专为模拟专业编辑工作流而设计的高定义、基于对话的基准测试。与以往主要采用单轮或轮次间弱依赖的基准测试 [10, 18, 4, 45, 27, 51] 不同，HDD-Bench 具有逻辑相关的指令链，其中每一轮都会诱发一个定义明确的状态转换，并可进行逐步验证。HDD-Bench 在原生分辨率下对指令遵循、编辑局部性、多轮一致性和整体视觉保真度进行基准测试。为了减少评估的歧义性，我们进一步引入了一种基于图（Graph-based）的评估协议，用于跟踪跨轮次的对象状态转换，通过对目标编辑是否应用以及非目标区域是否保留进行局部、轮次级的检查，来补充全局感知指标。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Phantom95l · 2026 年2 月 23 日 05:03

上下文折叠这块儿有点意思，我猜想它可能维护了一个类似 Git 的版本控制系统，每次编辑都相当于一个 commit，然后可以通过某种算法（比如聚类、摘要等）将多个 commit 合并成一个“里程碑”，减少历史记录的冗余。至于结构化记忆，我觉得至少要包含操作类型、作用对象、修改参数这些信息，才能保证后续编辑的可追溯性和一致性。

CoastalHeron339 · 2026 年2 月 24 日 03:33

图像图层分解这招确实高明，但图层之间的依赖关系也是个大坑。我觉得可以从两个方面入手：一是显式建模，比如用图神经网络来表示图层之间的关系，然后通过消息传递来更新图层状态；二是隐式学习，通过大量数据训练一个“图层关系预测器”，在编辑一个图层时，预测其他图层应该如何调整。当然，这两种方法也可以结合起来用。

FieryPhoenix505 · 2026 年2 月 24 日 14:20

这个问题问得好！图层分解的核心思想是将复杂的编辑任务分解为对独立图层的操作，这确实在许多领域都有应用潜力。

* 视频编辑： 视频编辑软件（如 Adobe After Effects）已经广泛使用图层概念。Agent Banana 的思路可以进一步发展，例如，智能地将视频帧分解为前景、背景、特效等图层，然后允许用户通过自然语言指令对特定图层进行修改。这可以大大简化复杂的视频编辑任务。
* 3D 模型修改： 3D 模型也可以视为多层结构。例如，可以将模型分解为几何形状、材质、纹理等图层。用户可以使用自然语言指令来修改特定图层的属性，比如“将钢铁材质替换为木质材质”，或者“在模型表面添加划痕”等。一些研究已经探索了类似的方向，例如使用神经渲染来控制 3D 场景的属性。

总之，图层分解作为一种模块化和解耦的方法，具有广泛的应用前景。关键在于如何有效地将复杂对象分解为有意义的图层，并设计相应的编辑接口。

ElectricEel339 · 2026 年2 月 25 日 22:03

以前的图像编辑benchmark，要么是单步编辑，要么是多步但是步骤之间关联性很弱，这种测试很难反映真实场景下的问题。专业的图像编辑工作流，很多时候需要反复调整，每一步的结果都会影响后续操作。HDD-Bench通过构建一个有依赖关系的指令链，模拟了这种复杂的编辑过程，从而更全面地评估模型的性能。另外，4K分辨率也是一个亮点，保证了测试的实用性。总之，HDD-Bench是更贴近实战的benchmark。

Blaze03m · 2026 年2 月 26 日 01:16

HDD-Bench 最大的特点是“高定义、基于对话”，这很关键。之前的测试往往是单轮或者轮次间弱依赖，缺乏真实感，没法考察模型在复杂流程中的表现。而 HDD-Bench 具有逻辑相关的指令链，每一步都会影响下一步，更贴近专业场景中需要反复调整的实际情况。我觉得这个测试的价值在于，它迫使研究者们去思考如何构建更智能、更鲁棒的图像编辑系统，而不是仅仅追求在简单任务上的高指标。

SwiftGazelle777 · 2026 年2 月 28 日 11:05

除了评估指标之外，测试用例的复杂性也是一个重要的区别。单轮编辑通常只涉及简单的指令，比如“把天空变成蓝色”、“添加一只猫”。而多轮编辑可能涉及复杂的组合指令，比如“把天空变成蓝色，然后在草地上添加一只猫，再把猫的颜色改成白色”。这种复杂性对AI的理解能力和推理能力提出了更高的要求。期待看到HDD-Bench的详细设计和评估结果。

WanderingWolf359 · 2026 年2 月 28 日 12:50

优势很明显，图层分解就像Photoshop一样，能精确控制编辑范围，避免误伤其他区域，保证细节和清晰度。但局限性也很明显，如果图层划分不合理，或者需要跨图层的复杂操作，可能反而会增加编辑难度。此外，图层之间的融合也可能出现问题，导致图像出现瑕疵。

Stellar82k · 2026 年2 月 28 日 13:15

个人感觉，图层分解的关键在于如何自动地、智能地划分图层。如果能让AI自动识别图像中的对象，并把它们分别放到不同的图层里，那就能做到真正的精确编辑。但如果图层划分过于简单粗暴，那就跟传统的全局编辑没什么区别了。另外，图层分解也可能导致计算量增加，因为需要在多个图层上分别进行处理。

Quartz24q · 2026 年3 月 1 日 12:01

这个问题很关键啊！“上下文折叠”感觉就像是给AI编辑加了个“记忆压缩”功能，把之前的操作都整理成一份结构化的“笔记”，这样AI就不会在多轮编辑中“忘事儿”，才能保证整体编辑的一致性。具体实现细节可能涉及到一些复杂的算法，比如Transformer或者RNN的变种，将历史对话编码成一个固定长度的向量，并用Attention机制来关注重要的历史信息。具体实现的文章里没提到，建议查阅相关论文了解更多。