【开源】华为盘古-嵌入式-7B-V1.1正式发布:AI模型实现“自适应快慢思考”新突破

华为开源openPangu-Embedded-7B-V1.1,首次实现AI模型“快慢思考”自适应。它能智能切换推理模式,复杂问题深入思考,简单问题快速响应,兼顾效率与精度。

原文标题:自适应快慢思考,华为openPangu-Embedded-7B-V1.1刚开源了

原文作者:机器之心

冷月清谈:

华为最新开源的openPangu-Embedded-7B-V1.1模型,首次实现了AI模型的“快思考”与“慢思考”自适应切换能力。这一创新意味着模型能根据任务难度智能调整其推理策略。在性能上,其“慢思考v1.1”版本在数学和代码评测中表现出色,全面超越了前代,展现了强大的解决复杂问题的能力。同时,新引入的“自适应v1.1”版本通过数据质量驱动的学习策略,找到了效率与性能之间的平衡点。评测结果显示,在处理C-Eval这类简单任务时,“自适应”模型能够显著缩短输出长度,从而有效降低推理成本和时间,而对精度影响甚微。面对AIME24等困难任务时,模型则能保持与“慢思考”版本相当的输出长度和深度思考能力,确保任务的准确性。文章通过具体案例进行了展示:对于“法国首都是哪座城市?”等事实性问题,模型会启动“快思考”,快速给出答案。而对于“100减去47再加上13”这类计算题,以及“如何倒序拼写一个单词”等需要复杂逻辑推理的问题,模型会自动切换到“慢思考”模式,详尽地列出步骤或拆解问题,以确保结果的精准性。这种自适应的思考模式,使得模型能在保证高效响应的同时,也能在面对复杂挑战时进行深入和严谨的推理。

怜星夜思:

1、华为这个openPangu模型能“自适应快慢思考”,听起来很高级啊!你们觉得它具体是怎么判断一个任务是“简单”还是“复杂”的呢?背后是不是有什么特别的机制或算法在起作用?
2、这种“快慢思考”模式如果普及开来,除了文章里提到的数学和编程,大家觉得在咱们日常生活中或者其他AI应用场景里,比如智能客服、内容创作啥的,还能带来哪些有趣的改变或突破呢?
3、文章里提到了“数据质量驱动的学习策略”来让模型学会自适应。好奇问一下,这种策略具体是怎么训练模型的呢?是不是需要特别标注哪些是“快思考”题、哪些是“慢思考”题的数据集啊?

原文内容

左右滑动查看更多图片

AI模型「快思考」与「慢思考」,终于可以自适应切换了。

刚刚开源的昇腾原生openPangu-Embedded-7B-V1.1模型,首次实现了这一能力。

从官方公布的评测结果来看,新模型展示了强大的性能,尤其是在数学和代码能力上。其「慢思考v1.1」版本在数学评测AIME24和AIME25上分别取得79.38和70.00的高分,在代码能力评测LiveCodeBench上也达到了58.27分,全面超越了v1.0版本。

有趣的是,团队还推出了一个「自适应v1.1」版本。该版本通过数据质量驱动的学习策略,实现了效率与性能的平衡。

评测数据显示,在基本不影响精度的前提下,「自适应」模型能在简单任务上(如C-Eval)大幅缩短输出长度,从而降低推理成本和时间;而在困难任务上(如AIME24),则能保持与「慢思考」版本相当的输出长度和思考能力,以确保性能。

例如,在C-Eval上,自适应模型的输出长度从2484缩短至1723,减少了约50%,而精度仅从84.92微降至83.33。

图中的几个案例,可以让我们直观感受openPangu的自适应思考能力。

1)快思考:一步到位。对于“法国的首都是哪座城市?”这类简单的事实性问题,模型会启动「快思考」模式,迅速给出「巴黎」这个准确答案,没有任何多余的分析,高效直接。

2)慢思考:步步为营。面对稍微复杂的计算题,如「100减去47再加上13等于多少?」,模型则会自动切换到「慢思考」模式。它会像草稿纸一样,清晰地列出计算步骤,最终得出正确答案66。整个思考过程一目了然,保证了结果的准确性。

3)慢思考:应对复杂逻辑。对于「如何倒序拼写一个单词?」这类需要逻辑推理的复杂问题,openPangu会调用强大的「慢思考」能力,对问题进行庖丁解牛般的拆解:首先识别单词的每一个字母,然后从最后一个字母开始重新排列,最终精准地完成倒序任务。这个过程展示了模型处理复杂指令的严谨逻辑。

这种根据任务难度自适应切换思考模式的能力,确保了用户在提出简单问题时能获得闪电般的回应,而在处理复杂难题时,模型又能沉下心来,进行深入、严谨的推理。

想要体验更多?详见官方开源代码仓:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-V1.1

针对你的问题“这种‘快慢思考’模式如果普及开来,除了文章里提到的数学和编程,大家觉得在咱们日常生活中或者其他AI应用场景里,比如智能客服、内容创作啥的,还能带来哪些有趣的改变或突破呢?”,我觉得潜力太大了!在智能客服领域,可以想象一下:用户问“我的订单状态是什么?”这种简单问题,AI瞬间给你答案,体验飙升!但如果你问“我收到货有问题怎么退换货?需要注意什么?”AI就能切换到慢思考,详细解释流程,甚至列出注意事项,而不是泛泛而谈。这会大大提升用户满意度和效率。内容创作方面,简单的小段子、摘要秒出,复杂的长篇报道、深度分析论文,它就能沉下心来做结构规划、资料整合,甚至帮你跑好几轮草稿,输出质量肯定不一样!

我觉得“数据质量驱动”可能不仅仅是简单地标注“快思考”或“慢思考”标签。更深层地,它可能是通过提供包含不同难度问题以及对应不同详略程度的“思考过程”的数据集来训练的。比如,给AI大量详细的数学解题步骤,再给它一些直观能判断的常识问答。通过这些不同“深度”的训练数据,模型自己就能学习到某种内在的“成本效益分析”——什么时候值得花时间思考,什么时候可以快速给出答案。可能不需要人工明确标注是快还是慢,而是让模型从数据中自己归纳出这种决策能力。

这个问题呀,我们可以用个简单比喻来理解。想象一下,我们教一个小朋友:有些问题,比如1+1=2,你直接说答案就行,不需要解释。但如果是复杂应用题,比如“小明有3个苹果,小红比小明多2个,他们一共多少个?”,你就要一步步教他“小红有几个,再算一共几个”。“数据质量驱动”就像是我们提供了大量这种“教案”,有的教案直接给结果,有的教案包含详细的思考过程。模型在学习这些“教案”时,就慢慢学会了在不同情况下,采取哪种“教学方式”最高效。这应该比我们直接告诉它“这是快思考题”要高明得多。

对AI应用来说,最直接的好处是大幅提升资源利用率和用户体验。简单任务“闪电回”,能减少用户的等待时间,提升交互流畅度。复杂任务“细致想”,确保了输出的准确性和深度,避免了AI“一本正经地胡说八道”。在很多场景下,比如辅助医生诊断,一些常见病症的辅助信息可以快速提供,疑难杂症则需要更深入的分析和推理,这就能更好地满足不同层次的需求。甚至在教育领域,简单练习题即时反馈,高难度概念题则可以提供逐步讲解。

这个问题问得好!我猜想这可能涉及到对输入信息复杂度的动态评估。例如,模型在处理一个请求时,可能会先进行一个轻量级的预判,比如分析问题中的关键词密度、语法结构复杂性、或者是否涉及到多步推导等。如果初步判断问题结构简单、具备高置信度的直接答案,就走“快思考”路径。否则,比如发现问题需要多重逻辑关联或数值计算,就会激活“慢思考”模式,可能通过一些内部的“元认知”模块来分配更多的计算资源和推理步骤。这有点像人类大脑的“系统1”和“系统2”的切换,但AI肯定是用具体的算法来实现,比如基于强化学习的策略网络来决定推理深度。

哈哈,我觉得它可能就是AI里的“老司机”吧!一眼扫过去就知道这道题是“送分题”还是“送命题”。送分题直接秒答,送命题就得戴上老花镜,慢慢琢磨。估计就是给它预设了一些“条件反射”,比如看到“法国首都”这种就条件反射“巴黎”,看到“计算”就条件反射“一步一步写出来”。或者它内心有个小小的“风险评估师”,觉得简单题犯错几率低,就冲了;觉得复杂题犯错几率高,就得稳扎稳打。

我觉得吧,说不定以后咱们的智能音箱也能“察言观色”了!我早上迷迷糊糊问“今天天气怎么样?”它就直接告诉我温度紫外线。但我要是问“小爱同学,你觉得我穿什么衣服去公司既能保暖又显得专业?”它就得调动“慢思考”,分析我的着装风格、公司文化,再结合天气给你个长篇大论的搭配建议。想想就觉得有点期待又有点好笑,AI会不会也陷入“选择困难症”啊,哈哈!

我同意楼上的一些看法,可能跟人类处理问题有点像。当模型接收到问题时,它可能会尝试用一些简单的、预先训练好的模式去匹配。如果一匹配就发现是常见的基础知识点或模板问题,比如问一个事实,那就直接走“快车道”。如果匹配不到,或者发现问题需要分解、多步骤推理,那可能就会激活更复杂的“思考链”模式,也就是所谓的“慢思考”。这个切换点可能是在模型的早期决策层,通过某个分类器或者门控机制来完成的。简单说,就是“我能不能直接答?不能,那就好好想想再答。”