R-4B多模态大模型:智能切换思考模式,实现高效低成本推理

R-4B:轻量多模态大模型,实现AI自适应思考,性能刷新纪录,已全面开源,赋能消费级AI。

原文标题:DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

原文作者:机器之心

冷月清谈:

当前大模型在处理问题时要么“过度思考”,要么需要手动或高成本切换模式。由中科院自动化所和腾讯混元联合研发的R-4B多模态大模型,巧妙地解决了这一困境。它通过引入自适应思考(auto-thinking)机制,实现了AI像人一样“智能切换”思维模式。对于简单问题,模型能直接高效响应;而面对复杂任务(如数学计算、图表分析),则自动切换到深度思考模式,以最大化准确性并最小化计算开销。

R-4B的核心创新在于其独特的两阶段训练策略:首先通过“双模退火(bi-mode annealing)”策略,让模型同时掌握思考与非思考能力的基础;接着基于此,利用“双模策略优化(Bi-mode Policy Optimization, BPO)”强化学习算法,使模型学会判别何时应该思考。这一4B量级的模型在OpenCompass榜单上表现卓越,超越了Keye-VL-8B等更大规模模型,并登顶多模态学术与推理榜单。更重要的是,R-4B的轻量化、低功耗特性使其能运行于消费级显卡上,适用于笔记本、智能座舱等边缘设备,已全面开源并快速部署,下载量破万。

怜星夜思:

1、R-4B强调轻量化和消费级显卡可运行。这对于普及AI到普通用户或者中小企业有什么实际意义?除了文章提到的场景,大家觉得还能在哪儿用上这种“按需思考”的小模型?
2、R-4B是通过双模退火和BPO强化学习实现自适应思考的。这套机制在模型处理更复杂、更模糊的开放域问题时,是否仍然高效?或者说,在未来的AI研究中,除了这种“快慢思考切换”,还有哪些可能的方式能让模型更接近人类的思维模式?
3、AI能够“按需思考”听起来很智能,但这会不会带来一些新的问题?比如,如果AI能够决定何时“偷懒”不进行深度思考,我们在使用时如何确保它在关键时刻不会选择“偷懒”?这对AI的信任度会有什么影响?

原文内容


本研究由中科院自动化所和腾讯混元联合研发,团队成员包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng,  Jie Jiang


背景:多模态大模型的思考困境


当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。它们距离真正意义上的“智能思考”仍有距离。这些方案或将判断压力转移给用户,或受限于复杂的系统架构和高昂的部署成本。因此,研发一款轻量化、支持多模态且能实现更智能自适应思考的大模型,将为用户提供更加流畅的交互体验。



近期,由腾讯混元团队与中科院自动化所合作的一项最新研究推出 R-4B 多模态大模型,通过自适应思考(auto-thinking)机制,改变了这一现状,它让 AI 能像人类一样 “智能切换” 思维模式。简单问题直接响应,复杂问题深度推理,在最大化回答准确性的同时,最小化计算开销。



  • 论文标题:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING

  • 论文链接:https://arxiv.org/pdf/2508.21113


这一 “按需思考” 的核心能力,为 4B 量级的多模态模型树立了全新的性能标杆,使其在评测性能指标上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大规模的模型。



同时,R-4B 在权威基准 OpenCompass 榜单上取得了优异成绩。


  • 登顶 OpenCompass 多模态学术榜单:在 20B 以内规模多模态大模型中,性能排名 Top 1!



  • 位列 OpenCompass 多模态推理榜单开源榜首:在开源模型中,推理性能拔得头筹! 



目前,该模型已在 GitHub 和 HuggingFace 上线,且支持 vLLM 快速部署。「消费级显卡即可运行,适用于笔记本电脑、智能座舱、智能家居等低功耗场景,支持垂直领域低成本微调。」截至目前下载量已破万,欢迎大家体验!


  • GitHub 代码仓库:https://github.com/yannqi/R-4B 

  • Hugging Face 模型下载:https://huggingface.co/YannQi/R-4B


突破:R-4B 的自适应思考引擎


R-4B 的智慧之处在于其自适应思考能力



  • 遇到简单问题(简单实体识别、简易问答),它选择直接、高效地响应。

  • 面对复杂任务(如数学计算、图表分析),它则自动切换到深度思考模式,生成详细的思考过程。


R-4B 的核心创新在于其独特的两阶段训练策略。为实现模型在通用领域的自适应思考,研究团队首先提出双模退火(bi-mode annealing)训练策略,促使模型同时掌握通用领域的思考与非思考能力


该阶段可以理解为对模型进行 “思考” 启蒙,即同时喂给它两种范式数据:一种需要直接回答(非思考模式,像日常对话),另一种需要详细推理(思考模式,像解数学题)。通过这种训练,模型同时掌握了思考和非思考这两种响应模式,为后续的自适应思考模式训练打下坚实基础。该阶段的核心是通用领域推理和非推理模式的数据构建策略:针对客观题,用模型采样的答案一致性来衡量题目的难易程度;针对主观题目,用提示工程的方式去区分解决问题是否需要进一步思考。



  • 推理模式数据:涵盖图表分析、逻辑推理等需多步推理的任务(如科学图解或数学问题)。

  • 非推理模式数据:针对直接事实响应的查询(如实体识别或简单问答)。



经过退火训练,得到一个同时精通思考与非思考模式的基础模型 R-4B-Base ,为后续自适应思考强化训练奠定基础。基于此,团队开发了双模策略优化(Bi-mode Policy Optimization, BPO)强化学习算法。它无需依赖精心设计的奖励函数或特定数据,而是仅依赖基于规则的奖励信号,从数学数据出发,并可泛化到通用领域。其核心是混合双模 rollout 机制,通过强制模型在训练中同时探索思考模式和非思考模式轨迹,从而避免模型陷入对单一模式的响应偏好。在此基础上,通过同时奖励两种思考模式的策略,使模型自己学会判别何时应该思考。



性能表现:小模型,大能量


R-4B-RL 模型在多项公开基准测试中性能表现卓越,刷新了现有记录,其性能超过 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大规模的模型。 



更关键的是,R-4B-RL 在自适应思考模式下实现了推理效率的提升,在简单任务下模型无需消耗更多的 Token这证明了 BPO 算法的有效性,即无需通用领域的强化学习数据或额外的奖励函数设计,模型也能实现自适应思考



应用前景:从科研到产业的智能化浪潮


R-4B 的突破不止于技术,更开启了广阔应用场景:


  • 应用智能 :在日常问答分析中,自动切换简单查询(如文档内容提取)和复杂推理(如图表分析)的思维模式,提升自动化处理效率。

  • 科学研究 :在处理科学图表时,R-4B 的深度推理模式可解析多步关系,精准解读数据,提高研究效率。

  • 消费级 AI :边缘设备部署中,R-4B 凭借更少的参数和自适应思考模式降低延迟和能耗,适用于即时问答系统。


(1) 文档内容提取(简单查询)



(2) 图表分析(复杂推理)



结语:自适应思考,探索 AI 发展新道路


从双模退火训练到 BPO 优化,R-4B 不仅解决了 MLLMs 的思考困境,更在小尺寸模型上探索了自适应思考的可行性 。自适应思考不仅是技术优化,更是对效率与普惠平衡的追求。在 AI 计算与推理成本飙升的今天,R-4B 的轻量化、智能化设计,为大模型可持续发展注入绿色动力。


R-4B 模型已全面开源,支持 vLLM 高效推理。下载量火速破万,诚邀体验与共建!



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

"R-4B的轻量化对普及AI的意义"确实很大,降低了门槛。但也要看到,这里的“普及”更多是指“部署”的普及,大模型本身的训练依然需要大量资源。不过对于中小企业来说,能用上开源的、跑得动的模型去做二次开发,总比什么都从头搞要好得多。应用场景方面,我补充一个:工业巡检的边缘分析,工厂产线那么多摄像头,不可能都往云端传,本地的轻量级模型可以做初步判断,过滤无效信息,这很重要。

关于"AI按需思考会否‘偷懒’"进而影响信任度,我的看法是,这可以看作是一种AI的“风险管理”问题。在设计AI系统时,对于高风险、高敏感度的场景,我们应该在模型选择“快速响应”时,引入额外的“安全确认”或“强制深度分析”机制。例如,在医疗、金融等领域,即使AI判断为简单问题,也应该要求其输出思考过程或进行多模态交叉验证。信任不是靠AI“不偷懒”来建立的,而是靠我们对其决策过程的理解、可控性和出现问题时的可追溯性来建立的。AI的智能是工具,最终的责任和把关还在人类。

对于"R-4B这种轻量化、消费级显卡可运行的模型对普及AI的意义"这个问题,我认为最直接的意义在于打破了高性能计算资源的壁垒。以前很多先进的AI能力只有大公司或实验室能用,现在中小企业和个人开发者也能在自己的设备上跑起来,进行低成本的验证、部署和定制化微调。这会极大促进AI应用的“长尾市场”发展。除了文章说的智能座舱、智能家居,我觉得在教育领域,比如个性化学习伴侣,或者医疗辅助诊断(边缘设备上的初步智能分析),甚至是一些创意设计领域的辅助工具,都有巨大的潜力。

对于"R-4B这种方式在非常复杂的开放域问题上效率如何"的问题,我觉得可能还有很长的路要走。毕竟我们人自己想个复杂问题都得先发呆,再各种联想,AI现在还停留在“逻辑推理”的层面。除了快慢思考,我感觉AI还得学会“跑题”,人类有时候解决问题就是从“跑题”里找到灵感的。或者得有“直觉”,那种说不清楚但就是觉得对的感觉。哎,要是AI能像侦探一样,把所有细节串起来,然后突然“啊哈”一声找到答案,那才是真智能!

"AI会‘偷懒’偷出毛病吗?"哈哈,这问题问到点子上了!万一它在关键的体检报告分析时给我来个“简单问题,直接响应”,然后把我的急性阑尾炎当成普通消化不良,那我不就凉凉了?对信任度肯定有影响啊!以后用AI助手,是不是还得先跟它讲清楚:“小助手,今天这个问题很重要,请你给我严肃点,别偷懒!” 就怕它回答一句:“好的,主人,已切换严肃模式。”然后背地里还是“能躺着绝不站着”。

针对"R-4B的自适应机制在开放域问题上的高效性"这个问题,我认为双模退火和BPO主要通过数据范式区分和策略优化在特定任务(比如数学、图表解析)上取得了显著效果。但在面对高度模糊、多义性强或缺乏明确答案的开放域问题时,例如哲学讨论、情感理解,这种基于明确“思考/非思考”模式切换的二元判断可能遇到瓶颈。未来的研究方向,或许可以借鉴认知心理学,引入更精细的“思维粒度”模型,比如除了快慢思考,还有发散性思考、批判性思考、联想式思考等。甚至,可以探索基于“元认知”的AI系统,让模型能够自我评估问题的难度、所需思考深度,并动态调整其推理结构,而非仅仅是基于预设模式切换。

哇塞,这不就是让AI从“高冷女神”变成“邻家小妹”嘛!以前玩AI都要找高性能服务器,现在笔记本电脑都能跑,我感觉我离AI自由又近了一步!实用意义可太大了,像我这种小工作室,想跑个AI客服或者做个自动内容摘要啥的,现在终于可以不用掏空钱包去租机房了。还可以给一些线下零售店的智能货架做商品识别和导购,实时互动,成本还低,简直是小微企业的福音!

"R-4B的快慢思考切换在开放域问题中的表现"我觉得会是一个挑战。人类的思考不是简单的0和1切换,更像是一个连续的光谱。对于那种模棱两可、需要灵感的问题,比如“请你写一首关于秋天的诗”,AI要是还纠结于快慢思考,可能就失去了创造力。未来AI接近人类思维,我觉得可能需要引入“情感理解”和“意图识别”更深层的机制,让AI能感知到人类提问的“弦外之音”,甚至能“灵光一现”。另外,模拟人类的“遗忘机制”和“学习重点”也许也很重要,不是所有东西都要死记硬背。

"AI按需思考带来的信任问题"确实值得深思。如果AI在关键决策中未能启动深度思考模式,可能导致灾难性后果。这涉及AI的“责任分配”和“可解释性”问题。我们如何知道AI选择了“偷懒”还是“高效”?仅仅依靠结果判断是不够的。可能需要建立更透明的决策路径,让用户或监管者能够审计AI的思考过程。此外,针对关键应用,可能需要设置“强制深度思考”模式,或者在AI判断为简单问题时,也强制性地进行一定程度的“二次验证”,以提高系统的鲁棒性和用户的信任度。这不仅仅是技术问题,更是伦理和法规层面的挑战。