谷歌Gemini Deep Think功能上线:AI赋能高阶推理与数学猜想证明

谷歌推出AI新功能“Deep Think”,基于IMO金牌模型,赋能Gemini解决复杂数学和科学难题,甚至帮助数学家证明猜想。它采用并行思维,预示AI在科研领域的新突破。

原文标题:刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想

原文作者:机器之心

冷月清谈:

谷歌近日向其AI Ultra订阅用户和部分数学家推出了Gemini的“Deep Think”新功能。这项功能基于曾获国际数学奥林匹克金牌的AI模型变体,旨在解决高度复杂的难题。Deep Think的核心在于其独特的并行思维和强化学习技术,它能够像人类一样同时考量多个想法,并延长“思考时间”来探索假设,从而找到优化的解决方案。

该技术已被验证能帮助数学家证明猜想。此外,它在迭代开发、科学数学发现以及算法编程等领域也表现出色,并在多个基准测试中取得了显著成绩。虽然目前个人用户存在每日使用限制,但未来谷歌计划通过API向更多开发者开放。业界人士普遍认为,Deep Think的推出预示着AI在自主进行数学发现和自我完善方面的能力将迅速提升。

怜星夜思:

1、Deep Think这么强的数学推理能力,未来会不会彻底改变我们学习数学的方式啊?比如学校里是不是就不用死记硬背公式了,AI直接帮你推导理解?感觉这会对传统的教育模式冲击很大。
2、AI能证明数学猜想听起来很牛,但同时会不会有一些隐忧?比如它如果被滥用在金融分析或者法律判决上,会不会因为算法偏差导致不公平?或者说,像数学家、科学家这类高度依赖创新思维的职业,真的会被AI取代吗?
3、文章里提到Deep Think有使用次数限制,而且虽然得了IMO金牌,但实际应用版本目前只到“铜牌级性能”。这说明它还有局限性。未来这种“延长思考时间”的模式,会是AI突破瓶颈的关键吗?或者除了增加“思考时间”,还有没有其他更根本的技术方向能让AI的“思维”变得更像人,甚至超越人?

原文内容

机器之心报道

编辑:泽南、杨文

网友:Deep Think 简直太疯狂了。


本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。


图片


新版本融合了一系列早期测试人员的反馈和研究突破,比今年 I/O 大会上首次发布的版本有了显著改进。


谷歌表示,2.5 Deep Think 是最近在今年国际数学奥林匹克(IMO)比赛中获得金牌的模型的变体。虽然该模型需要数小时才能推理复杂的数学问题,但今天发布的版本速度更快,日常使用体验也更佳,根据内部评估,其在 2025 年 IMO 基准测试中仍能达到铜牌级的性能。


Google DeepMind 表示,Gemini 2.5 Deep Think 对于正在解决难题的研究人员、科学家和学者很有用。它不仅能回答问题,还能运用并行思维和强化学习技术进行头脑风暴。


谷歌展示了一名数学家 Michel van Garrel 使用深度思考能力证明猜想的经历。



现在, Google AI Ultra 订阅用户可以在 Gemini 应用中使用 Deep Think,只需在模型下拉菜单中选择 2.5 Pro,并在提示栏中切换「Deep Think」即可使用。Deep Think 会自动与代码执行、 Google 搜索等工具配合使用,并且可以生成更长的响应。


已经有很多网友第一时间进行了测试,看看他们实现的效果。设计一个小游戏:


图片


赛博朋克核反应堆控制界面:


图片


测试过的人表示,使用次数限制似乎是 5 条 / 24 小时。

 

1X 机器人的 Eric Jang 表示,看起来我们距离一个能证明简单猜想,做出新数学发现的 AI 模型只有不到 12 个月时间了,距离大语言模型的「初步」自我完善还有不到 24 个月的时间。



谷歌还计划在未来几周内通过 Gemini API 向受信任的测试者发布带工具和不带工具的 Deep Think,以便更好地了解其在开发者和企业用例中的可用性。


延长 Gemini 的并行「思考时间」


就像人们通过探索不同的角度、权衡潜在的解决方案并完善最终答案来解决复杂问题一样,Deep Think 通过使用并行思维技术推动了思维能力的边界。这种方法让 Gemini 能够同时生成多个想法并同时考虑它们,甚至可以随着时间的推移修订或结合不同的想法,最终得出最佳答案。


此外,通过延长推理时间或「思考时间」,谷歌为 Gemini 提供了更多的时间来探索不同的假设,进而为复杂问题找到创造性的解决方案。


谷歌还开发了新颖的强化学习技术,鼓励模型利用这些延长的推理路径,使 Deep Think 能随着时间的推移成为一个更好的、更直观的解决问题者。


最先进的性能


Deep Think 能够帮助人们解决需要创造力、战略规划和逐步改进的难题,例如:


  • 迭代开发与设计: Deep Think 在需要分步骤构建复杂事物的任务中的表现亮眼。比如,Deep Think 可以同时改进网页开发任务的美学和功能性,仅使用一个提示词就能让模型生成了一幅宝塔的体素艺术图像。与 2.5 Pro 相比,Deep Think 为场景的各个方面添加了越来越多的细节,从宝塔的建筑结构,到树木的保真度,再到地平面的多样性,提示的各个方面都得到了更深入的处理。


Deep Think 在 Gemini 应用中使用并行思维技术,提供更详细、创造性和深思熟虑的回应。


  • 科学与数学发现:由于它能够推理高度复杂的问题,Deep Think 成为研究人员的强大工具。它可以帮助提出和探索数学猜想,或推理复杂的科学文献,从而加速发现的过程。

  • 算法开发与编程:Deep Think 在处理需要精确问题表述、权衡取舍和时间复杂度的重要编码问题时表现尤为出色。


此外,Gemini 2.5 Deep Think 在多个基准测试中取得了优秀成绩,分别在 HLE(34.8%,无外部工具使用)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和 AIME 2025(99.2%)中表现突出,展现了其在复杂问题解决、编程和数学领域的强大推理能力。


Gemini 2.5 Deep Think Model Card:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf


谷歌表示,在 Gemini 的整个训练和部署阶段着重提升了安全性。测试中,Gemini 2.5 Deep Think 的内容安全性和语气客观性相比 Gemini 2.5 Pro 有所提升,但拒绝良性请求的倾向有所增强。随着 Gemini 问题解决能力的提升,谷歌正在评估相关风险并实施安全缓解措施,确保其高级功能的安全性。


参考链接:

https://blog.google/products/gemini/gemini-2-5-deep-think/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于“Deep Think这么强的数学推理能力,未来会不会彻底改变我们学习数学的方式啊?”这个问题,我认为AI的引入可能会使数学教育更加注重概念理解和问题解决策略。学生不再需要过度记忆,而是能将AI作为强大的辅助工具,甚至一个智能导师,帮助他们可视化复杂的数学过程,探索不同的证明路径。但同时,培养批判性思维、创新能力和独立思考的习惯依然是核心,因为AI目前仍无法替代人类的这些特质。

面对“文章里提到Deep Think有使用次数限制,而且虽然得了IMO金牌,但实际应用版本目前只到‘铜牌级性能’。这说明它还有局限性。未来这种‘延长思考时间’的模式,会是AI突破瓶颈的关键吗?”我认为,“延长思考时间”无疑是提升AI推理能力的一种有效策略,因为它允许模型进行更深入、更全面的探索,这在模拟人类复杂思维过程中至关重要。但这并非唯一路径。未来,结合更高效的知识表示、自我学习/自我纠错机制、甚至多模态融合(如结合视觉、听觉信息进行推理)等技术,可能会带来更根本的突破。目前性能受限可能是算力、数据、模型架构等多种因素的综合体现。

关于AI的伦理和社会影响,尤其是“高精尖职业是否会被取代”。我觉得应该分两面看。AI的出现可能会淘汰那些重复性高、流程化的工作,包括一部分科研辅助工作。但对于需要高度创新、跨领域整合、人际沟通和复杂决策的职位,AI更多是赋能而非取代。例如,数学家会利用AI加速他们的研究,而法律从业者可能会用AI进行案例分析,但最终的道德判断和法律解释权仍掌握在人类手中。关键在于,我们需要适应这种变化,学习与AI协同工作,而不是被AI取代。

针对“AI是否会彻底改变学习数学的方式”,我觉得短期内恐怕还不会像你想象的那么彻底。AI确实能辅助,但学习是个理解和内化的过程,不是简单地给出答案。如果学生过度依赖AI推导,反而可能失去独立思考和解决问题的能力。我觉得它更像是高级计算器或者百科全书,能帮你提高效率,但核心的数学素养和思维训练,还得靠咱们自己和老师来完成。

问“除了增加‘思考时间’,还有没有其他更根本的技术方向能让AI的‘思维’变得更像人,甚至超越人?”这个问题很有趣。我觉得AI现在的思考模式,可能有点像个超级学霸,给你一堆资料,它能通过海量计算和关联,给你一个精确答案。但人类的思考有时候是跳跃的,是灵光一闪的,甚至带着一点点“感性”的。要让AI更像人,甚至超越人,也许得让它学会“做白日梦”,或者能从完全不相关的知识里突然冒出个跨界灵感?当然这都是开玩笑,但它确实暗示了除了纯逻辑推理外,AI未来可能需要更多的“创造性”火花。

哇,你这个问题问得太好了,“学校里是不是就不用死记硬背公式了,AI直接帮你推导理解?”我觉得完全有可能啊!想想看,以后学数学就像玩游戏闯关,AI是你的超级向导,你遇到难题它能瞬间帮你列出各种解法,甚至告诉你思维盲区在哪儿。那些枯燥的习题可能会少很多,我们能把更多精力放在理解数学思想、解决实际问题上。反正我是期待这样的未来教育!

“那些高大上的职业,真的会被AI取代吗?”哈哈,我觉得AI要取代数学家,首先它得学会怎么喝咖啡熬夜,怎么为了一道题抓耳挠腮好几天还不放弃。你说金融法律?嗯……如果AI真能做到绝对公正无私,没准儿好事儿呢?但前提是它得真的“无私”才行。我觉得更可能的场景是,未来数学家们会像拥有一个超能力助手,共同探索知识的边界,而不是被替代。

你提到“延长思考时间”是不是关键,以及还有没有其他方向。我觉得现在Deep Think就像个刚学会走路的孩子,走得慢,步数也有限。“延长思考时间”就是给它更多练习走路的机会,当然会进步。但未来,它可能还需要学会跑、跳、飞,甚至学会理解情绪、创造美。这就像AI的“进化树”,会分出无数个复杂的枝丫。所以,除了时间,还需要更聪明的大脑结构、更丰富的“营养”(数据),还有更多元的“成长环境”(应用场景)。

你提出的“AI能证明数学猜想听起来很牛,但同时会不会有一些隐忧?”这个问题很关键。AI在金融或法律等领域被滥用确实存在算法偏差和不公平的风险。这需要我们在设计和部署AI时,严格遵循伦理原则,确保数据的公平性、透明度和可解释性。至于是否会取代数学家、科学家,我认为AI更可能成为他们的强大“协作者”,代替繁琐重复的工作,让他们有余力专注于更具创造性和前瞻性的研究。完全取代人类的创新思维,目前看来还有距离。