谷歌Gemini Pro 2.5发布:号称在推理、编码和数学能力上超越DeepSeek和OpenAI

谷歌发布Gemini 2.5 Pro,号称在推理、编码、数学等方面超越OpenAI和DeepSeek,拥有百万token上下文窗口。

原文标题:谷歌又超越DeepSeek了和OpenAI?深夜祭出Gemini Pro 2.5,号称推理、编码、数学能力遥遥领先

原文作者:AI前线

冷月清谈:

谷歌正式发布了新一代AI模型Gemini 2.5 Pro,该模型主打智能推理能力,并声称是“目前最智能的AI模型”。谷歌表示,Gemini 2.5 Pro在理解能力、数学能力和编码能力等关键基准测试中,已经超越了OpenAI、Anthropic、xAI甚至DeepSeek。该模型在多模态理解方面支持文本、图像、音频、视频和代码的混合输入,并且拥有100万token的上下文窗口,未来还将升级到200万token以增强长文档处理能力。在代码生成能力方面,Gemini 2.5 Pro在Aider Polyglot代码编辑测试和SWE-bench Verified测试中均表现出色。在数学与科学推理方面,Gemini 2.5 Pro在“人类最后考试”中也取得了领先地位。谷歌强调,Gemini 2.5 Pro的推理能力是其取得巨大进步的关键。

怜星夜思:

1、Gemini 2.5 Pro宣称在多项基准测试中超越了其他AI模型,但这些基准测试真的能全面反映AI的实际能力吗?是否存在一些Gemini 2.5 Pro可能有所欠缺但测试中没有体现的方面?
2、Gemini 2.5 Pro号称具有100万token的上下文窗口,未来还将升级到200万token。超长上下文窗口对于AI模型来说,到底意味着什么?它能解决什么问题,又会带来什么新的挑战?
3、谷歌强调Gemini 2.5 Pro的推理能力是其取得巨大进步的关键。那么,你认为AI的“推理”能力,和人类的“推理”有什么本质区别?未来AI的推理能力会发展到什么程度?

原文内容

左右滑动查看更多图片

刚刚,谷歌正式推出新一代 AI 模型 Gemini 2.5,主打“思考 - 验证 - 回答”的智能推理能力,官方称其为“目前最智能的 AI 模型”。

据谷歌称,这个最新版本将“显著增强的基础模型与经过改进的后训练设计”结合起来,由此获得更好的整体性能。该公司宣称,Gemini 2.5 Pro 实验版在理解能力、数学能力、编码能力等常见的 AI 基准测试指标上均已领先于 OpenAI、Anthropic、xAI 乃至 DeepSeek。

据悉,谷歌对该模型进行了多项核心能力升级。

多模态理解方面,支持文本、图像、音频、视频、代码混合输入,可同时分析不同模态的信息并关联推理;100 万 token 上下文窗口(约 75 万单词),能一次性解析《指环王》三部曲的全部文本,未来将升级至 200 万 token,进一步强化长文档处理能力。

Google AI Studio 产品经理 Logan Kilpatrick 在 X(原 Twitter)上表示,Gemini 2.5 Pro 是“首个支持更高请求速率限制和计费的实验性模型”。

在代码生成能力方面,Aider Polyglot 代码编辑测试:得分 68.6%,超越 OpenAI 和 Anthropic 的同类模型;SWE-bench Verified 测试(真实代码任务测试):以 63.8% 的准确率仅次于 Claude 3.7 Sonnet(70.3%)。

在数学与科学推理方面,在“人类最后考试”(多模态综合测试)中,以 18.8% 的准确率领先多数竞品,且无需依赖外部计算工具,完全依靠模型自身推理能力。

DeepMind CEO Demis Hassabis 在 X 上发帖称,Gemini 2.5 Pro 是“一款非常棒的先进模型,在 LMArena 上以惊人的 +39 ELO 得分排名第一,而且在多模态推理、编码与 STEM 等方面均实现了显著改进。”

谷歌还提到,此番在质量上的巨大飞跃,正是由于 Gemini 新版本“推理”模型的基本属性。其能够逐步处理任务并做出更明智的决策,能够根据复杂的提示词提供更好的答案和响应结果。

AI的推理本质上是基于大数据和算法的模式识别,它可以通过分析大量数据来发现隐藏的规律,并根据这些规律进行预测和决策。而人类的推理则更加复杂,涉及到逻辑、经验、情感、以及价值观等多种因素。人类可以进行创造性的推理,可以根据自己的主观判断来做出决策,而AI目前还很难做到这一点。但是,随着AI技术的不断发展,AI的推理能力会越来越接近人类,甚至在某些方面超越人类。例如,AI可以在短时间内分析大量数据,发现人类无法察觉的规律,从而做出更准确的预测。

从技术角度来说,超长上下文窗口对模型架构提出了更高的要求。传统的Transformer模型在处理长序列时会遇到计算复杂度指数级增长的问题。因此,需要采用新的模型架构和优化算法。另外,还需要考虑如何训练这些模型,因为训练数据量会大幅增加,需要耗费大量的计算资源。我个人觉得,未来可能会出现一些专门用于处理超长序列的AI模型,就像CPU和GPU一样,各有侧重。

我比较悲观,我认为AI的推理能力永远无法达到人类的水平。因为人类的智能是建立在数十亿年的进化基础上的,涉及到复杂的生物学和神经科学原理。AI只是人类创造的工具,它再强大,也只能模拟人类的某些功能,而无法取代人类。而且,过度依赖AI的推理能力,可能会导致人类自身的思考能力下降,这才是最可怕的。

我倒是觉得,基准测试虽然有局限性,但至少提供了一个比较客观的评价标准。就像奥运会,你能说拿金牌的运动员就一定是最能打的吗?不一定,但至少说明他在某些方面做到了极致。Gemini 2.5 Pro能在这么多基准测试中领先,说明它在某些关键技术上确实有过人之处。至于实际应用嘛,那就是另一回事了,需要市场来检验。

我更关心的是隐私问题。如果AI模型可以记住大量的用户数据,那么如何保证用户数据的安全和隐私?有没有可能被恶意利用,用于窃取商业机密或个人信息?这需要引起我们的高度重视,相关的法律法规也要尽快完善。

同意楼上的观点。而且,基准测试的结果容易被“优化”,也就是说,开发者可能会针对测试集进行专门的调整,使得模型在测试中表现更好,但这并不意味着模型在所有情况下的表现都更好。另外,不同的基准测试侧重点不同,例如,有些侧重于理解能力,有些侧重于编码能力,有些则侧重于推理能力。因此,我们需要综合考虑多个基准测试的结果,才能对Gemini 2.5 Pro的能力有一个更全面的了解。我觉得未来更应该关注AI在解决垂直领域特定问题的能力,例如医疗诊断、金融分析等,这些应用场景更能体现AI的真正价值。

这个问题提得好!基准测试就像考试,考高分只能说明应试能力强,不代表解决实际问题的能力也强。Gemini 2.5 Pro在基准测试中表现出色,表明它在特定任务上可能非常擅长。但是,实际应用场景复杂多变,可能涉及到创造力、常识、以及解决模糊问题的能力,这些方面很难用基准测试来衡量。我们需要关注它在真实世界中的表现,才能更全面地评估它的能力。

我觉得现在的AI推理更像是“联想”,而不是真正的“思考”。它能基于已有的知识进行组合和推演,但缺乏真正的理解和创造力。未来的AI推理,我认为会朝着更具象的方向发展,比如模拟人类的认知过程,甚至加入一些情感因素。当然,这需要大量的研究和突破,目前还处于起步阶段。

上下文窗口越大,AI模型就能“记住”更多信息,从而更好地理解长篇文章或复杂的对话。这意味着AI可以更好地进行长篇小说创作、代码调试、以及深度分析。但同时,超长上下文窗口也带来了新的挑战,比如如何有效地管理和利用这些信息,避免被无关信息干扰,以及如何保证推理的效率和准确性。这就像人脑一样,记忆力好是好事,但如果记了一堆没用的信息,反而会影响思考。