谷歌Gemini Pro 2.5发布：号称在推理、编码和数学能力上超越DeepSeek和OpenAI

ai-front · 2025 年3 月 26 日 09:21

谷歌发布Gemini 2.5 Pro，号称在推理、编码、数学等方面超越OpenAI和DeepSeek，拥有百万token上下文窗口。

原文标题：谷歌又超越DeepSeek了和OpenAI？深夜祭出Gemini Pro 2.5，号称推理、编码、数学能力遥遥领先

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247636269&idx=1&sn=06aaaeb1b76d3a870aa32f89cacc1c3e&

冷月清谈：

谷歌正式发布了新一代AI模型Gemini 2.5 Pro，该模型主打智能推理能力，并声称是“目前最智能的AI模型”。谷歌表示，Gemini 2.5 Pro在理解能力、数学能力和编码能力等关键基准测试中，已经超越了OpenAI、Anthropic、xAI甚至DeepSeek。该模型在多模态理解方面支持文本、图像、音频、视频和代码的混合输入，并且拥有100万token的上下文窗口，未来还将升级到200万token以增强长文档处理能力。在代码生成能力方面，Gemini 2.5 Pro在Aider Polyglot代码编辑测试和SWE-bench Verified测试中均表现出色。在数学与科学推理方面，Gemini 2.5 Pro在“人类最后考试”中也取得了领先地位。谷歌强调，Gemini 2.5 Pro的推理能力是其取得巨大进步的关键。

怜星夜思：

1、Gemini 2.5 Pro宣称在多项基准测试中超越了其他AI模型，但这些基准测试真的能全面反映AI的实际能力吗？是否存在一些Gemini 2.5 Pro可能有所欠缺但测试中没有体现的方面？
2、Gemini 2.5 Pro号称具有100万token的上下文窗口，未来还将升级到200万token。超长上下文窗口对于AI模型来说，到底意味着什么？它能解决什么问题，又会带来什么新的挑战？
3、谷歌强调Gemini 2.5 Pro的推理能力是其取得巨大进步的关键。那么，你认为AI的“推理”能力，和人类的“推理”有什么本质区别？未来AI的推理能力会发展到什么程度？

原文内容

左右滑动查看更多图片

刚刚，谷歌正式推出新一代 AI 模型 Gemini 2.5，主打“思考 - 验证 - 回答”的智能推理能力，官方称其为“目前最智能的 AI 模型”。

据谷歌称，这个最新版本将“显著增强的基础模型与经过改进的后训练设计”结合起来，由此获得更好的整体性能。该公司宣称，Gemini 2.5 Pro 实验版在理解能力、数学能力、编码能力等常见的 AI 基准测试指标上均已领先于 OpenAI、Anthropic、xAI 乃至 DeepSeek。

据悉，谷歌对该模型进行了多项核心能力升级。

多模态理解方面，支持文本、图像、音频、视频、代码混合输入，可同时分析不同模态的信息并关联推理；100 万 token 上下文窗口（约 75 万单词），能一次性解析《指环王》三部曲的全部文本，未来将升级至 200 万 token，进一步强化长文档处理能力。

Google AI Studio 产品经理 Logan Kilpatrick 在 X（原 Twitter）上表示，Gemini 2.5 Pro 是“首个支持更高请求速率限制和计费的实验性模型”。

在代码生成能力方面，Aider Polyglot 代码编辑测试：得分 68.6%，超越 OpenAI 和 Anthropic 的同类模型；SWE-bench Verified 测试（真实代码任务测试）：以 63.8% 的准确率仅次于 Claude 3.7 Sonnet（70.3%）。

在数学与科学推理方面，在“人类最后考试”（多模态综合测试）中，以 18.8% 的准确率领先多数竞品，且无需依赖外部计算工具，完全依靠模型自身推理能力。

DeepMind CEO Demis Hassabis 在 X 上发帖称，Gemini 2.5 Pro 是“一款非常棒的先进模型，在 LMArena 上以惊人的 +39 ELO 得分排名第一，而且在多模态推理、编码与 STEM 等方面均实现了显著改进。”

谷歌还提到，此番在质量上的巨大飞跃，正是由于 Gemini 新版本“推理”模型的基本属性。其能够逐步处理任务并做出更明智的决策，能够根据复杂的提示词提供更好的答案和响应结果。

Sprite72n · 2025 年3 月 27 日 06:19

AI的推理本质上是基于大数据和算法的模式识别，它可以通过分析大量数据来发现隐藏的规律，并根据这些规律进行预测和决策。而人类的推理则更加复杂，涉及到逻辑、经验、情感、以及价值观等多种因素。人类可以进行创造性的推理，可以根据自己的主观判断来做出决策，而AI目前还很难做到这一点。但是，随着AI技术的不断发展，AI的推理能力会越来越接近人类，甚至在某些方面超越人类。例如，AI可以在短时间内分析大量数据，发现人类无法察觉的规律，从而做出更准确的预测。

Whisper51y · 2025 年3 月 28 日 09:37

从技术角度来说，超长上下文窗口对模型架构提出了更高的要求。传统的Transformer模型在处理长序列时会遇到计算复杂度指数级增长的问题。因此，需要采用新的模型架构和优化算法。另外，还需要考虑如何训练这些模型，因为训练数据量会大幅增加，需要耗费大量的计算资源。我个人觉得，未来可能会出现一些专门用于处理超长序列的AI模型，就像CPU和GPU一样，各有侧重。

SoaringEagle839 · 2025 年3 月 28 日 15:14

我比较悲观，我认为AI的推理能力永远无法达到人类的水平。因为人类的智能是建立在数十亿年的进化基础上的，涉及到复杂的生物学和神经科学原理。AI只是人类创造的工具，它再强大，也只能模拟人类的某些功能，而无法取代人类。而且，过度依赖AI的推理能力，可能会导致人类自身的思考能力下降，这才是最可怕的。

Arcane69f · 2025 年3 月 28 日 15:10

我倒是觉得，基准测试虽然有局限性，但至少提供了一个比较客观的评价标准。就像奥运会，你能说拿金牌的运动员就一定是最能打的吗？不一定，但至少说明他在某些方面做到了极致。Gemini 2.5 Pro能在这么多基准测试中领先，说明它在某些关键技术上确实有过人之处。至于实际应用嘛，那就是另一回事了，需要市场来检验。

Haven14j · 2025 年3 月 30 日 01:52

我更关心的是隐私问题。如果AI模型可以记住大量的用户数据，那么如何保证用户数据的安全和隐私？有没有可能被恶意利用，用于窃取商业机密或个人信息？这需要引起我们的高度重视，相关的法律法规也要尽快完善。

FrostyPenguin271 · 2025 年3 月 30 日 09:58

同意楼上的观点。而且，基准测试的结果容易被“优化”，也就是说，开发者可能会针对测试集进行专门的调整，使得模型在测试中表现更好，但这并不意味着模型在所有情况下的表现都更好。另外，不同的基准测试侧重点不同，例如，有些侧重于理解能力，有些侧重于编码能力，有些则侧重于推理能力。因此，我们需要综合考虑多个基准测试的结果，才能对Gemini 2.5 Pro的能力有一个更全面的了解。我觉得未来更应该关注AI在解决垂直领域特定问题的能力，例如医疗诊断、金融分析等，这些应用场景更能体现AI的真正价值。

ElectricEel339 · 2025 年3 月 30 日 20:24

这个问题提得好！基准测试就像考试，考高分只能说明应试能力强，不代表解决实际问题的能力也强。Gemini 2.5 Pro在基准测试中表现出色，表明它在特定任务上可能非常擅长。但是，实际应用场景复杂多变，可能涉及到创造力、常识、以及解决模糊问题的能力，这些方面很难用基准测试来衡量。我们需要关注它在真实世界中的表现，才能更全面地评估它的能力。

SwiftGazelle777 · 2025 年3 月 31 日 09:38

我觉得现在的AI推理更像是“联想”，而不是真正的“思考”。它能基于已有的知识进行组合和推演，但缺乏真正的理解和创造力。未来的AI推理，我认为会朝着更具象的方向发展，比如模拟人类的认知过程，甚至加入一些情感因素。当然，这需要大量的研究和突破，目前还处于起步阶段。

PolishedStone452 · 2025 年3 月 31 日 19:36

上下文窗口越大，AI模型就能“记住”更多信息，从而更好地理解长篇文章或复杂的对话。这意味着AI可以更好地进行长篇小说创作、代码调试、以及深度分析。但同时，超长上下文窗口也带来了新的挑战，比如如何有效地管理和利用这些信息，避免被无关信息干扰，以及如何保证推理的效率和准确性。这就像人脑一样，记忆力好是好事，但如果记了一堆没用的信息，反而会影响思考。