AdaResoner:小模型如何通过主动视觉工具思考实现Agentic Vision?

AdaResoner让小模型学会主动使用视觉工具进行多模态推理,在特定任务中甚至超越GPT-5,揭示了工具使用的巨大潜力。

原文标题:ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」

原文作者:机器之心

冷月清谈:

本文介绍了AdaReasoner,一种新的训练范式,旨在提升多模态模型在视觉推理任务中的表现。与依赖堆叠参数和大量数据的传统方法不同,AdaReasoner 专注于让模型学习何时以及如何有效地利用工具。该方法的核心思想是将工具使用视为一种通用的推理技能,包含选择、时机和鲁棒性三个关键要素。通过Tool Cold Start、Tool-GRPO和Adaptive Learning三个关键设计,AdaReasoner 能够让模型在遇到错误时进行反思和回溯,优化多轮工具编排,并避免死记硬背工具名称。实验结果表明,即使是7B的小模型,在多个基准测试中,经过AdaReasoner训练后也能够显著提升性能,甚至在某些结构化推理任务上接近满分,充分验证了“主动工具使用”在多模态推理中的价值。该研究不仅在学术上验证了主动工具使用范式的可行性,也为在自己的数据/场景上复现这种能力的研究者和开发者提供了一套完整的开源方案。

怜星夜思:

1、AdaReasoner 通过让模型学习何时使用工具来提升性能,这个思路很有意思。你认为在其他 AI 领域,例如自然语言处理或强化学习,是否也能应用类似的“何时使用特定技能/模块”的训练方法?如果能,可能会带来哪些突破?
2、文章提到 AdaReasoner 使用了 Tool Cold Start 策略,即在训练数据中加入“犯错-修正”的场景。在实际应用中,如何有效地收集和创建这种包含错误和修正的数据?需要考虑哪些因素,以避免引入偏差或噪声?
3、AdaReasoner 在多个视觉推理任务上都取得了显著的提升,你认为它在哪些实际应用场景中最有潜力?例如,在自动驾驶、医疗影像分析、机器人等领域,它可能发挥哪些作用?

原文内容


你见过 7B 模型在拼图推理上干翻 GPT-5 吗?

不是靠堆参数,不是靠更大的数据,而是靠一件事:学会「什么时候该用工具」。


大多数「工具增强」模型是这样的:遇到任务 X → 调用固定工具 Y → 祈祷结果正确。一旦场景稍微变化,模型就开始抽风——不知道什么工具该用、什么工具不该用。


AdaReasoner 解决的是更本质的问题:把 what / when / how(用什么、何时用、怎么用)当成推理能力来学。



  • 论文标题:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

  • 论文(arXiv): https://arxiv.org/abs/2601.18631

  • 项目主页: https://adareasoner.github.io

  • 代码: https://github.com/ssmisya/AdaReasoner

  • 模型与数据: https://huggingface.co/collections/hitsmy/adareasoner

  • 视频(YouTube): https://www.youtube.com/watch?v=_SOyD-lomOM


先看 10 秒效果:


AdaReasoner 工作流程示意


Google 近期宣布,为其轻量级模型 Gemini 3 Flash 引入一项名为「Agentic Vision」(代理视觉)的新能力。


这项更新标志着多模态 AI 处理图像的方式发生了根本性转变:从传统的静态识别,升级为具备「思考、行动、观察」循环的主动调查模式。


在此之前,包括 GPT 在内的大多数前沿多模态模型处理图像的方式类似于人类的「匆匆一瞥」:模型接收图像,进行一次性处理并输出结果。这种方式在面对需要细致观察的任务时,往往会因为细节丢失而产生幻觉或猜测。


Agentic Vision 的工作机制:Gemini 3 Flash 现在能够像人类调查员一样通过以下循环进行推理:


  • 思考(Think)——分析用户指令和图像初步内容,制定调查计划。

  • 行动(Act)——自动生成并执行 Python 代码来操作图像。例如,对图像进行缩放、裁剪特定区域、旋转视角或绘制辅助线。

  • 观察(Observe)——检查代码执行后的新视图或数据,获取更精确的视觉证据。


上述过程可以多次迭代,直到模型收集到足够的确凿证据来回答问题。


有意思的是:AdaReasoner 与 Agentic Vision 殊途同归。AdaReasoner 同样实现并验证了几乎相同的范式:



    工业界与学术界同时押注「主动工具使用」,说明这个方向正在成为多模态推理的主流范式。


    AdaReasoner 的独特价值在于:我们不只是验证了这套范式有效,更提出了一套让开源小模型也能习得这种能力的训练方法——这正是接下来要详细介绍的内容。


    01 痛点:多模态推理为什么
    总是「看起来很会,细节就开始猜」?

    在多模态推理里,「看清细节」和「多步推理」经常互相卡脖子: 


    感知不够精确 → 证据不足 → 推理再漂亮也容易变成「guided guessing」; 


    反过来,如果能把关键证据用工具查出来、画出来、验证出来,模型就能把算力用在判断与规划上。


    换句话说:工具不是外挂,而是把推理从「猜」拉回「查」的关键路径。


    02 一句话介绍 AdaReasoner:
    把工具使用当成「通用推理技能」


    AdaReasoner 是一个训练范式:让模型不仅会「调用工具」,更会做三类决策:


    • 选择:该用哪个工具?要不要组合多个工具?

    • 时机:什么时候该用?什么时候不该用?

    • 鲁棒性:工具失败/无用怎么办?是否回退、是否换策略?


    AdaReasoner 把「工具使用」当成推理技能来学习:会采纳有用工具、丢弃无关工具,并按任务调节调用频率。


    03 三个关键设计:
    让「会用工具」从口号变成能力

    3.1 Tool Cold Start (TC):把「犯错-修正」写进数据里

    我们不是只给模型看「完美路径」,而是刻意加入两类真实世界会发生的场景:


    • 反思与回溯:试一下 → 检查 → 不对就撤回/换方案。

    • 工具失败处理:工具返回错误/无效 → 及时止损 → 回退到模型自身能力。


    定性案例:多轮工具规划 + 反思纠错 + 组合工具完成复杂视觉推理


    3.2 Tool-GRPO (TG):优化「多轮工具编排」,而不是单次调用

    多模态工具推理往往不是「一次调用结束」,而是多回合: 


    观察 → 调用 → 再观察 → 再调用 → 最终回答。


    Tool-GRPO 针对 multi-turn 场景做了专门的强化学习优化,并用自适应奖励把工具使用变成「不确定时的可靠后备」,而不是强制流程。


    3.3 Adaptive Learning (ADL):逼模型学「语义」,别背「名字」

    为了避免模型死记硬背某个工具名(比如看到 "Point" 就条件反射),我们做了两件事:


    • 工具名/参数名随机化(去掉字面提示)。

    • 工具描述改写(同一语义、多种表达)。


    随机化训练的直观示意


    AdaReasoner 框架总览:Tool Cold Start → Tool-GRPO → Adaptive Learning


    04 最硬的证据:
    小模型为什么能「跨级打怪」?

    先给结论:AdaReasoner-7B 相对 base 模型在多个基准上实现显著提升(在选取的 8 个 benchmark 上平均 +24.9%),并在结构化推理任务上接近满分。


    主实验结果:在 VSP、Jigsaw、GUIQA 等任务上显著提升。 


    更重要的是:不是「工具越多越好」,而是训练配方决定工具是否真的帮得上忙。 

    例如在单任务设置下:


    • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64

    • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超过 GPT-5 的 80.10)


    瓶颈迁移示意:当工具规划足够好,性能瓶颈从「模型规模」部分迁移到「工具效用与工具规划能力」


    05 最有意思的部分:模型真的
    学出了「三种自适应工具行为」

    这部分是 AdaReasoner 最像「智能体」的地方:我们没有写规则让它这么做,但它在 RL 过程中学会了。


    行为 1:会「采纳」有用的新工具(Adopt)


    把 A* 规划工具放进强化学习阶段(Cold Start 没见过),模型会逐步提高调用频率并稳定掌握:

    VSP Navigation 从 44.83 → 96.33


    图片

    Navigation 任务示意


    A* 工具调用频率随 RL 训练演化


    行为 2:会「丢弃」无关工具(Discard)


    更关键的是:A* 对 Verify 任务没用,甚至是干扰项。 


    在「只在推理时提供 A*」的设置里,Verify 会出现 94.20 → 80.00 的下降。 


    而在 RL 训练后,模型会逐步压制无关调用,让 Verify 维持在接近满分(99.20)。 


    一句话:它不仅会用工具,还会学会「别乱用」。


    行为 3:会「调节」调用频率(Modulate


    工具也不是开/关二选一。模型会根据子任务「调频」: 


    Point 工具在导航更关键(~3.2 calls/sample),在验证更克制(~1.0 call/sample)


    Point 工具调用频率「调频」:Navigation 中更关键,Verification 中更克制


    06 换工具说明书
    也能用:泛化与稳健性

    现实里最常见的崩溃方式是:工具定义、参数名、描述文案一变,模型就「不会用了」。 


    AdaReasoner 用 ADL(随机化 + 改写)把「工具规划」从文本表面形式里解耦出来。


    一个很直观的证据来自工具使用统计:


    • 在 Jigsaw 上达到 3.54 CPS 且工具执行成功率 98.50%,最终准确率 88.60。

    • 在 VStar 这种更开放的 VQA 上仍能主动调用工具(1.47 CPS)并取得 70.68。


    工具使用统计(CPS、成功率)与性能


    此外,使用 ADL,模型能够更容易在新的任务上取得更好的表现。我们仅使用 Jigsaw 这一个任务的 SFT 数据,在三个任务上 RL,可以看到,使用 ADL 的版本能够在另外两个任务上给模型带来效果上的提升。


    ADL 能将单个任务上学来的 agent planning 能力迁移到 SFT 没见过的任务上。


    07 我们想强调的
    学术结论(Takeaways)

    多模态推理不只是 「think harder。更关键的是:


    actively seeing, verifying, and planning with tools.


    当工具编排学得足够好,瓶颈会发生迁移:


    model scale → tool utility + tool planning


    这对小模型尤其重要:参数有限时,「会用工具」就是最直接的能力放大器。


    从 Agentic Vision 看趋势:Google 用 Agentic Vision 把 Think-Act-Observe 内置到 Gemini,学术界用 AdaReasoner 验证这套范式在开源模型上的可行性——两条路线同时验证了「主动工具使用」的价值。对于希望在自己数据/场景上复现这种能力的研究者和开发者,AdaReasoner 提供了一套完整的开源方案。


    Adaptive Learning 对提升模型的泛化性也有很大帮助,可以帮助将 agent planning 能力迁移到以前没见过的 agent 和新的任务上去。

    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:liyazhou@jiqizhixin.com

    我觉得啊,解决“过度拟合”最好的方法,还是增加数据! 只要数据量足够大,覆盖的场景足够多,模型自然就能学到更通用的规律。 当然,数据增强也是必要的,可以作为数据量不足时的补充。

    此外,我认为可以借鉴迁移学习 (transfer learning) 的思想。 如果已经有一个在类似任务上训练好的模型,可以将其迁移到新的任务上,这样可以更快地收敛,并提高泛化能力。

    工作上写方案的时候,一开始总是想着一步到位,把所有细节都考虑到。但实际上,这样做往往效率很低,而且容易忽略一些关键问题。后来我学会了先写一个简单的框架,然后和同事或者领导讨论,根据他们的反馈不断修改完善。这种迭代式的开发方式,让我能够更快地找到问题的关键,并最终得到一个比较完善的方案。我觉得这和 AdaReasoner 的 Tool Cold Start 机制有点像,都是通过不断的试错和反馈来提升效率。

    从学术角度来说,可以借鉴人类的元认知能力,让模型具备对自身推理过程的监控和调节能力。具体来说,可以考虑以下方案:

    1. 引入元学习机制: 使用元学习的方法,让模型学习如何根据不同的任务和场景,动态调整工具的使用策略。
    2. 构建“知识图谱”: 构建一个关于工具、任务和场景的知识图谱,让模型能够更好地理解工具的适用范围和限制。
    3. 使用 Bayesian 方法: 使用 Bayesian 方法,对工具的有效性进行建模,并根据观测到的数据不断更新 belief。这样可以使模型更加灵活地适应不同的情况。

    这些方法可能需要更多的计算资源和更复杂的模型结构,但也更有可能带来更强大的推理能力。

    我觉得这个问题很关键,避免模型“死记硬背”是提升泛化能力的关键。除了文章提到的方法,我还能想到以下几种:

    1. 引入工具的“功能测试”: 在训练过程中,定期对模型进行工具的功能测试。例如,给定一些特定的输入,让模型使用工具进行处理,并检验输出结果是否符合预期。这样可以确保模型真正理解工具的功能,而不是只记住工具的名字。
    2. 使用“对比学习”: 构建正负样本对,让模型学习区分不同的工具的功能。例如,给定两个相似的任务,一个需要使用工具 A,另一个需要使用工具 B。通过对比学习,让模型能够更加准确地判断应该使用哪个工具。
    3. 引入外部知识: 将工具的说明文档、教程等外部知识融入到模型的训练过程中。例如,可以使用知识图谱或自然语言处理技术,让模型能够理解工具的语义信息。

    总的来说,核心思路就是让模型从多个角度理解工具的功能,而不是只依赖表面的信息。

    我认为 AdaReasoner 的思想是可以扩展到更大的模型上的,而且可能会带来更大的提升。理由如下:

    1. 更大的模型拥有更强的表达能力: 更大的模型能够更好地理解工具的语义,能够更准确地判断工具的使用时机,能够更灵活地组合不同的工具。
    2. 更大的模型可以处理更复杂的任务: 更大的模型可以处理需要更多步骤、更多工具的复杂任务,从而更好地发挥 AdaReasoner 的优势。

    扩展 AdaReasoner 到更大的模型,可以考虑以下方法:

    1. 使用更大的预训练模型: 使用更大的预训练模型作为 AdaReasoner 的基础模型,例如 GPT-3、PaLM 等。
    2. 增加更多的工具: 引入更多的工具,让模型能够处理更广泛的任务。
    3. 设计更复杂的工具组合策略: 让模型能够学习更复杂的工具组合策略,例如递归调用工具、并行调用工具等。

    总的来说,将 AdaReasoner 的思想扩展到更大的模型,可以充分利用大模型的优势,从而带来更强大的推理能力。

    我们可以把 Adaptive Learning 看作是一种“数据增强”技术。通过对工具名称和描述进行随机变换,相当于扩充了训练数据的多样性,让模型接触到更多不同的表达方式,从而提高了模型的适应能力。这种方法不仅可以应用于工具学习,还可以应用于其他各种任务,比如图像识别、自然语言处理等。总而言之,一切为了避免死记硬背!

    我觉着在智能客服领域前景广阔。现在的客服机器人很多时候只能回答一些常见问题,遇到复杂问题就卡壳了。如果能让模型学会利用知识库检索、语义分析等工具,就能更准确地理解用户意图,提供更个性化、更高效的服务。

    我觉得很重要啊!举个例子,就像我们平时工作一样,如果一开始就埋头苦干,方向错了,或者一开始就用复杂的工具,可能事倍功半。一定要先思考,判断什么时候需要用工具,用什么工具。设计视觉任务的话,我肯定会考虑任务的复杂度、对精度的要求、以及模型自身的认知能力。如果任务很简单,模型自己就能搞定,就没必要用工具;如果任务很复杂,或者需要非常高的精度,那就要尽早引入工具,辅助模型进行推理。

    预测一波,肯定会有更多类似的研究涌现!甚至会出现各种“Agentic XX”、“XXReasoner”,百花齐放!

    但是,我觉得未来的重点不仅仅是“主动”,更重要的是“如何让模型更好地与环境互动”。例如,可以考虑引入“环境模型”,让模型更好地理解周围的世界;或者引入“反馈机制”,让模型根据环境的反馈来调整自己的行为。只有这样,才能真正实现通用人工智能。

    AdaReasoner 的优势在于能够让模型更有效地利用外部信息来辅助推理,减少对模型自身参数和数据的依赖。传统的模型容易出现“幻觉”,而 AdaReasoner 可以通过工具来验证和修正自身的判断,提高准确性。举个例子,在自动驾驶领域,如果车辆需要识别一个复杂的路况,传统的模型可能难以准确判断,但 AdaReasoner 可以调用图像识别工具、地图工具等,结合多种信息来做出更可靠的决策。

    三个都很重要啊!Tool Cold Start是基础,没有这个模型都不知道怎么用工具;Tool-GRPO是进阶,让模型学会如何更好的使用工具;Adaptive Learning是高阶,让模型能够灵活使用工具。如果非要选一个,我觉得Tool Cold Start可能稍微重要一点,毕竟万事开头难嘛!

    Tool Cold Start相当于给模型提供了一个试错空间,让它在训练阶段就经历各种失败的案例。这样一来,模型在面对真实世界中不可避免的错误时,就不会束手无策,而是能够根据之前的经验进行调整和修正,从而提高鲁棒性。构建这种数据集的关键在于多样性,需要模拟各种可能的错误类型和修正方式,例如工具选择错误、参数设置不当、环境干扰等等。

    有没有一种可能,我们可以用GAN来生成这种“错误-修正”的数据对?生成器负责生成错误的行动轨迹,判别器负责判断这个轨迹是否真实,然后我们再用强化学习来训练一个agent,让它学会如何从错误的轨迹中恢复,最终达到目标。这感觉像是在玩沙盒游戏,让AI在里面自由探索,然后自己总结经验教训。

    玩游戏的时候!想象一下,AI 可以根据游戏画面和玩家的操作,主动调用攻略查询、技能模拟等工具,实时提供最佳战术建议。这简直是游戏作弊器的终极形态啊!

    工具失败?这不是很正常吗?
    遇到工具失败,首先应该做的当然是甩锅给工具的开发者(手动狗头)。

    开个玩笑,我觉得最有效的方法是增加工具使用的经验。就像人一样,踩的坑多了,自然就知道怎么绕开了。模型也一样,让它在各种失败的场景下多训练,它自己就会总结出应对策略。

    当然,如果实在解决不了,那就重启大法好!

    工具集的设计,我倾向于“少而精”,避免过度设计。初期可以参考一些现有的工具库,比如 OpenCV、PIL 等,然后根据任务的特点进行定制。工具的数量要控制在一个合理的范围内,避免出现“选择困难症”。另外,工具的接口设计也很重要,要尽量简洁易用,方便模型调用。

    工具的选择确实是个大学问。从工程角度来说,需要考虑工具的可用性、稳定性和效率。从模型角度来说,工具最好是可解释的,这样才能帮助模型更好地理解工具的作用,并进行有效的编排。个人感觉可以先从一些通用的视觉工具开始,比如图像处理、目标检测等,然后根据具体的任务需求再逐步扩展。

    非结构化场景下,我觉得最关键的是让模型学会提问。现在很多模型都是被动地接受指令,然后执行任务。但现实生活中,我们解决复杂问题的时候,往往需要先提出一系列问题,然后通过各种方式寻找答案。所以,可以让模型学会:

    * 识别信息缺口:哪些信息是缺失的,需要通过工具来获取?
    * 生成问题:提出有针对性的问题,引导工具的使用。
    * 评估答案:判断工具给出的答案是否可靠,是否需要进一步验证。

    举个例子,如果让模型写一篇关于某个事件的报道,它可以先提出这些问题:事件发生的时间、地点、参与者、起因、经过、结果等等。然后,它可以通过搜索引擎、新闻数据库等工具来寻找答案,并最终完成报道。

    这种“提问式”的主动工具使用方式,可以大大提高模型在非结构化场景下的适应能力。

    在非结构化或更开放式的推理场景中提升模型的主动工具使用能力,可以从以下几个方面入手:

    1. 增强环境感知能力
    * 多模态输入:除了文本和图像,还可以引入音频、视频等多种模态的信息,让模型更全面地了解环境。
    * 上下文理解:让模型能够理解对话历史、用户意图等上下文信息,从而更准确地选择和使用工具。

    2. 提升工具发现能力
    * 动态工具库:允许模型在推理过程中发现新的工具,并将其加入到工具库中。这需要模型具备一定的自主学习能力。
    * 工具描述学习:让模型能够学习工具的描述信息,从而更好地理解工具的功能。

    3. 优化工具选择策略
    * 分层推理:将推理过程分解为多个层次,每个层次使用不同的工具。例如,可以先使用一个粗粒度的工具进行初步推理,然后再使用更细粒度的工具进行精细推理。
    * 集成学习:使用多个不同的工具,并将它们的输出进行集成。这可以提高推理的准确性和鲁棒性。

    4. 改进奖励函数设计
    * 延迟奖励:对于需要多步推理才能完成的任务,给予模型延迟奖励。这可以鼓励模型进行长期的规划和决策。
    * 探索奖励:给予模型探索未知工具和策略的奖励。这可以鼓励模型进行创新和发现。

    5. 引入人类反馈
    * 强化学习:让人类评估模型的使用工具效果,并将评估结果作为奖励信号反馈给模型。
    * 模仿学习:让人类演示如何使用工具完成任务,然后让模型模仿人类的行为。

    6. 增加训练数据的多样性
    * 数据增强:对训练数据进行增强,例如随机改变图像的视角、光照等。
    * 合成数据:使用合成数据来扩充训练集。合成数据可以覆盖更多的场景和情况。

    7. 结合知识图谱: 将知识图谱融入到模型中,让模型能够利用已有的知识来辅助推理。