Gemini 3 Deep Think:谷歌AI新突破,编程能力超越99.99999%的人类

谷歌发布 Gemini 3 Deep Think,AI 在编程、数学、科学领域取得重大突破,部分用户已可体验。

原文标题:刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与

原文作者:机器之心

冷月清谈:

谷歌发布了 Gemini 3 Deep Think 的重大升级,这款模型在数学、编程等领域取得了突破性进展。在各项基准测试中,Deep Think 均取得了优异成绩,例如在 Codeforces 上达到了 3455 Elo 分数,超越了绝大多数程序员。该模型还展现了在化学、物理等科学领域的卓越能力,并在相关奥林匹克竞赛中达到金牌水平。Deep Think 还可以将草图转化为 3D 打印模型,并已应用于高能物理学和半导体材料研究等领域。目前,Gemini 应用已上线 Deep Think,Google AI Ultra 订阅用户可以使用,同时谷歌也向部分研究人员、工程师和企业开放了 Deep Think 的 API 使用权限。

怜星夜思:

1、Deep Think 在编程竞赛中超越多数人类,这会给程序员这个职业带来什么影响?
2、Deep Think 在科学研究中展现出了强大的能力,你认为 AI 未来会在哪些科研领域发挥更大的作用?
3、Deep Think 的成本大幅降低,这是否意味着 AI 技术大规模应用的时代即将到来?

原文内容

Image
编辑|泽南

从此以后,AI 不再是工具,要尊称为「硅基博学家」了。


北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级,作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。



去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇Shunyu Yao)也是这次 Deep Think 新模型的参与者。



去年,谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。


更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:


  • 在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的 SOTA(48.4%,不使用任何工具)。

  • 在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证。

  • Codeforces 上取得了惊人的 3455 Elo 分数,Codeforces 是一个包含各种竞技编程挑战的基准测试平台。

  • 在 2025 年国际数学奥林匹克竞赛中取得金牌水平。



新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元;在 ARC-AGI-2 上已经达到了 84.6% 的分数,每任务成本为 13.62 美元。



大约 14 个月前,OpenAI 模型 o3-preview 的高计算版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍。


这意味着我们现在需要再次为 AI 准备更复杂的测试题了。


除了数学和编程竞赛之外,Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。



还有这个在 Codeforces 上获得的 3455 分,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。


地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。



对于 AI 和整个科技领域而言,这是一个以往难以想象的成果。


谷歌与科学家和研究人员紧密合作,对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。


借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。


图片


谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果:


罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。



在杜克大学,Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。



或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。


全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。


参考内容:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

AI在科研领域的应用,绝对是未来趋势!除了论文审核,AI还可以用于:1. 数据挖掘:从海量数据中发现新的科研方向。2. 实验设计:优化实验参数,提高实验效率。3. 药物研发:预测药物活性,加速药物筛选。4. 材料科学:设计新型材料,满足特定性能需求。总而言之,AI可以成为科研工作者的强大助手!

除了医疗,在金融领域也有很大的潜力。可以利用 Deep Think 的强大数据分析能力,进行风险评估、欺诈检测、智能投资顾问等等。不过,金融领域的监管比较严格,AI 的应用也需要谨慎考虑伦理和安全问题。

其实我觉得在教育领域也有用武之地。它可以作为学生的智能辅导员,根据每个学生的学习进度和特点,提供个性化的学习资源和指导。这样就能更好地因材施教,提高学习效率。当然,前提是 AI 的教学内容要准确、权威、公正。

我觉得AI可以作为同行评审的辅助工具。比如,AI可以先对论文进行初步筛选,过滤掉一些明显的错误或者抄袭行为。然后,将剩下的论文交给人类审稿人进行更深入的评审。这样可以减轻审稿人的负担,让他们有更多时间关注论文的创新性和学术价值。

我倒是觉得,科研主体这个说法有点过于拟人化了。科研本来就是个协作的过程,AI的加入只是让这个过程更加高效。以后可能出现这样的情况:AI负责提出初步的方案,人类专家进行评估和改进,然后AI再进一步优化,双方不断迭代。关键在于如何让人和AI更好地协同工作,而不是争论谁是主体。

AI 普及后,我们的生活肯定会更加智能化。比如,智能家居会更加普及,可以根据我们的习惯自动调节温度、光线等;智能交通会更加便捷,可以自动规划路线、避开拥堵;智能医疗可以提供更精准的诊断和治疗方案。但同时,我们也需要警惕隐私泄露、算法歧视等问题。总的来说,影响是积极的,但需要做好风险防范。

AI 在科研领域的应用,我觉得最大的变革可能是科研范式的转变。以前我们是“假设-实验-验证”,以后可能是“数据-AI分析-假设-实验”。AI 可以从海量数据中挖掘出新的假设,然后再由科学家进行验证。这样可以大大拓展我们的研究思路,发现以前我们忽略的知识。

AI 成本降低,就像电力普及一样,会引发一场新的工业革命。各行各业都会被 AI 赋能,生产力将大幅提升。但是,我们也要警惕技术带来的负面影响,比如贫富差距扩大、社会阶层固化等等。需要政府和社会各界共同努力,确保 AI 技术能够惠及所有人。

AI 在科学研究中最大的作用在于提高效率,减少人为错误。但是,我们不能把它当成万能钥匙。AI 的训练数据和算法模型都存在局限性,如果过度依赖 AI,可能会导致研究方向的偏差,甚至得出错误的结论。所以,AI 应该作为科研人员的助手,而不是替代品。

我认为这可能引发一场科研范式的变革。AI 可以帮助我们更快地验证理论,发现新的研究方向。但是,我们不能忘记科学研究的本质是探索未知,而探索未知需要人类的好奇心、想象力和直觉。AI 可以提供线索,但最终的突破还需要依靠人类的智慧。

我倒觉得 AI 在科学研究中可以扮演更重要的角色。现在很多科研项目都面临数据爆炸的问题,靠人工分析效率太低了。AI 可以帮助科学家从海量数据中提取有价值的信息,甚至可以根据现有数据预测未来的研究方向。未来,AI 可能会成为科研项目的核心驱动力。

成本降低绝对是 AI 普及的关键因素。Deep Think 成本降低,意味着更多企业和个人可以用得起强大的 AI 能力。我认为未来 AI 会在以下几个领域率先普及:1. 智能客服,2. 自动驾驶,3. 个性化推荐,4. 医疗诊断。这些领域对效率和精度要求高,AI 的价值更容易体现。

抛开那些高大上的应用场景,我觉得AI最实用的地方在于可以帮我们节省时间。科研人员的时间非常宝贵,如果AI能够承担一些重复性的、繁琐的任务,例如数据清洗、格式转换、甚至初步的论文润色,那就能让科研人员把更多精力放在更有创造性的工作上。时间就是金钱,这句话在科研界尤其适用!

“Deep Think在编程比赛中表现卓越,短期内不会完全取代程序员。更可能的情况是,AI成为程序员的强大助手,提高开发效率。程序员的角色可能会转变为更侧重于架构设计、需求分析和复杂问题解决,而让AI处理重复性的编码工作。”

我感觉未来的生活会更加个性化和智能化。比如,AI会根据你的喜好推荐电影、音乐;会根据你的健康状况定制食谱和锻炼计划;甚至会根据你的情绪变化,提供心理辅导。当然,前提是我们要保护好自己的数据隐私!

我觉得完全取代不太可能。AI 现在更像是辅助工具,可以帮助我们更快地编写代码、debug,但是创造性的、需要灵活应变的场景,还是得靠咱们程序员自己。而且,AI 犯错的成本有时很高,review 代码还是得人来把关。

成本降下来了,也意味着 AI 的商业模式会更加多样化。以前大家都在烧钱做模型,现在可以考虑如何把 AI 技术更好地融入到各个行业,创造真正的价值。

楼上说得对!编程不仅仅是写代码,还包括理解业务需求、设计系统架构、与人沟通协作等等。AI 在这些方面还差得远呢。Gemini 3 Deep Think 更像是给我们程序员配备了一个超级强大的外脑,让我们能更专注地解决核心问题。

从商业角度看,成本降低会带来更激烈的竞争。各大 AI 厂商会加速技术研发,推出更高效、更强大的模型。最终受益的还是用户。