谷歌Gemini 3.1 Pro重夺AI王座,推理能力与应用场景迎来重大突破

谷歌发布Gemini 3.1 Pro,核心推理能力实现飞跃,多项基准测试表现优异,或重回AI模型领先地位。已陆续上线开发者和消费者产品。

原文标题:谷歌夺回王座:Gemini 3.1 Pro来了!姚顺宇:后面还有更好的

原文作者:机器之心

冷月清谈:

谷歌近日发布了Gemini 3.1 Pro,这是对其核心智能模型的重大升级。该模型在ARC-AGI-2基准测试中取得显著成绩,其推理性能是3 Pro的两倍以上。在科学知识、编码和多模态理解等专业领域也表现出强大的竞争力。第三方评估表明,Gemini 3.1 Pro在功能和性能上已跃居世界领先地位,并已开始部署到面向消费者和开发者的各类产品中,如Google AI Studio、Vertex AI、Gemini应用程序和NotebookLM。谷歌的企业合作伙伴也对其可靠性和效率的提升给予了积极评价,但价格方面需要注意token数量和联网搜索的使用情况。谷歌表示,Gemini 3.1 Pro的设计初衷是解决复杂问题,并展示了其在动画生成、复杂系统整合、交互式设计和创意编程等方面的应用效果。

怜星夜思:

1、Gemini 3.1 Pro 在哪些实际应用场景中最有可能改变我们的工作和生活方式?除了文章中提到的例子,你还能想到哪些?
2、Gemini 3.1 Pro 的定价策略相对复杂,大家觉得这个定价合理吗?会对开发者和企业的选择产生什么影响?
3、文章提到 Gemini 3.1 Pro 在多个基准测试中表现出色,但基准测试的成绩真的能代表模型的实际能力吗?在实际应用中,我们应该如何更全面地评估 AI 模型的性能?

原文内容

图片
机器之心编辑部


上周,谷歌发布了  的一次重大更新,以应对当今科学、研究和工程领域的复杂挑战。而就在刚刚,谷歌正式推出支撑这些突破的升级版核心智能:Gemini 3.1 Pro。



参与了 Gemini 3 Deep Think 研究的姚顺宇也发推介绍了这项新突破,并表示:「后续还会有更好的模型源源不断地涌现」。



谷歌表示,基于 Gemini 3 系列,3.1 Pro 在核心推理能力上实现了进一步跃升。针对复杂问题的求解,3.1 Pro 提供了一个更聪明、更强大的能力基准。这一点也体现在团队的多项严格基准测试进展中。


在 ARC-AGI-2(一个评估模型解决全新逻辑模式能力的基准测试)上,3.1 Pro 取得了经验证的 77.1% 成绩,其推理性能是 3 Pro 的两倍以上



此外,内部基准测试表明,3.1 Pro 在各个专业领域都具有很强的竞争力:


  • 科学知识:在 GPQA 钻石级测试中得分为 94.3%;

  • 编码:在 LiveCodeBench Pro 上 Elo 得分为 2887,在 SWE-Bench Verified 上得分为 80.6%;

  • 多模态理解:在 MMMLU 测试中达到了 92.6%。


这些技术进步不仅仅是渐进式的,它们代表了模型处理「思考」token 和长期任务方式的改进,为构建自主智能体的开发者提供了更可靠的基础。


来自第三方公司 Artificial Analysis 的评估表明,谷歌的 Gemini 3.1 Pro 已经跃居榜首,再次成为世界上功能最强大、性能最佳的 AI 模型。



它的得分领先 Claude Opus 4.6 4 分,而运行成本却不到后者的一半。



而 Gemini 3.1 Pro 的各项强大功能,意味着它可以将复杂主题可视化、整理零散数据,并将创意项目化为现实。


为了呈现这种能力跃升,谷歌制作了一个经典的「鹈鹕骑自行车」SVG,与之前的效果进行对比,还测试了其他动物的效果。可以说,谷歌基本已经「杀死」了比赛。


图片


目前,谷歌正在将 3.1 Pro 部署到面向消费者和开发者的各类产品中,以让这一智能进步进入到大家的日常应用中。


即日起,3.1 Pro 将陆续上线:


  • 面向开发者:通过 Google AI Studio 中的 Gemini API、Gemini CLI、智能体开发平台 Google Antigravity,以及 Android Studio 提供预览;

  • 面向企业:上线 Vertex AI 和 Gemini Enterprise;

  • 面向消费者:通过 Gemini 应用程序(APP)和 NotebookLM 推出。


资料显示,谷歌的企业合作伙伴已经开始整合 3.1 Pro 预览版,并称其在可靠性和效率方面有了显著提升。


Databricks 首席技术官 Hanlin Tang 称,3.1 Pro 在一项针对表格和非结构化数据进行基于事实推理的基准测试 OfficeQA 上取得了「同类最佳结果」。Cartwheel 联合创始人 Andrew Carr 也强调,该模型「对 3D 变换的理解有了显著提升」,并指出它解决了 3D 动画管线中长期存在的旋转顺序漏洞等。


值得注意的是,3.1 Pro 的定价稍显复杂:


  • 输入价格:提示词不超过 20 万 token,每百万 token 收费 2.00 美元;提示词超过 20 万 token,每百万 token 收费 4.00 美元。

  • 输出价格:提示词不超过 20 万 token,每百万 token 收费 12.00 美元;提示词超过 20 万 token,每百万 token 收费 18.00 美元。

  • 上下文缓存:根据提示词规模,每百万 token 收取 0.20 至 0.40 美元,外加每小时每百万 token 4.50 美元的存储费。

  • 联网搜索(Grounding):每月前 5000 次提示免费,之后每 1000 次搜索查询收费 14 美元。


3.1 Pro,好用吗?


谷歌表示,3.1 Pro 的设计初衷,就是为了应对那些「简单答案」解决不了的问题。它将先进的推理能力,转化为帮你攻克最棘手挑战的实用工具。这种更强的智能,能在实际应用中帮上大忙 —— 无论是想通过清晰的图文讲解搞懂一个复杂概念,想把零散的数据整合成一目了然的视图,还是想给创意项目注入活力,它都能助你一臂之力。


以下是 3.1 Pro 的一些应用效果展示:


1、基于代码的动画:3.1 Pro 可以直接根据文字提示,生成网站可用的、自带动效的 SVG 图片。由于这些动画是用纯代码而非像素构建的,所以无论放大到什么尺寸都依然清晰,并且和传统视频相比,文件体积也小得惊人。



2、复杂系统整合:3.1 Pro 能运用其强大的推理能力,在复杂的 API 接口和用户友好的设计之间架起桥梁。比如在这个例子中,该模型就搭建了一个实时航空仪表盘,成功接入公共遥测数据流,将国际空间站的运行轨道直观地呈现出来。



3、交互式设计:3.1 Pro 能编写出复杂的 3D 椋鸟群飞模拟代码。它不仅能生成视觉代码,还能打造出沉浸式的互动体验 —— 用户可以通过手势追踪来控制鸟群的飞行,同时听到根据鸟群动作实时变化的生成式配乐。对于研究人员和设计师来说,这为打造感官丰富的交互界面原型,提供了一种强大的新途径。



4、创意编程:3.1 Pro 能将文学主题转化为实用的代码。当要求它为艾米莉・勃朗特的《呼啸山庄》构建一个现代风格的个人作品集网站时,该模型并非只是简单复述文本内容。它会深入理解小说中那种充满氛围感的基调,并以此构思出一个时髦又现代的界面,最终打造出一个能精准捕捉主人公精神内核的网站。



下一步计划


谷歌表示,今天推出的 Gemini 3.1 Pro 是一个预览版,之后将在自主工作流等领域寻求进一步突破,不久后,会正式全面开放给大家使用。


从今天开始,Gemini app 中的 3.1 Pro 版本将逐步面向 Google AI Pro 和 Ultra 套餐的用户开放更高的使用额度。同时,3.1 Pro 也已登陆 NotebookLM,专供 Pro 和 Ultra 用户使用。对于开发者和企业用户,现在可以在 Gemini API 中通过 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 和 Android Studio 平台抢先体验 3.1 Pro 的预览版。


参考链接:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://x.com/GoogleDeepMind/status/2024516464892334129

https://x.com/ArtificialAnlys/status/2024518545510662602


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得AI在创意编程领域的潜力,在于能够打破传统创作的壁垒。 比如,它可以让完全不懂代码的艺术家,也能轻松创作出互动艺术作品。 降低创作门槛,让更多人参与到创意表达中来,这才是AI最大的价值!

我比较关注教育领域。如果 Gemini 3.1 Pro 能够根据每个学生的学习特点,生成个性化的学习计划和辅导内容,那绝对是教育的一大进步。而且,它还可以用于开发更生动、更具互动性的教学工具,让学习变得更有趣!

这种定价方式对小公司或者独立开发者可能不太友好。毕竟,大公司可以承担更高的费用,而小公司则需要精打细算。如果成本太高,小公司可能只能选择其他更便宜的AI模型,或者减少对Gemini 3.1 Pro的使用。不过,如果3.1 Pro的效果确实远超其他模型,那咬咬牙也得用啊!

这种分层定价对于小型开发者或者初创企业可能不太友好,高昂的token费用和存储费用可能会成为一个不小的负担,让他们在尝试使用这项新技术时有所顾虑。毕竟,成本效益是他们非常看重的。

我觉着定价复杂是必然的趋势。一方面,不同用户的使用场景和需求差异很大;另一方面,谷歌也需要平衡成本和收益。以后类似的AI模型定价估计都会越来越精细化,以便更好地满足不同用户的需求。

就我个人理解,基准测试只能作为参考,实际应用中模型的表现受数据质量、prompt设计等因素影响很大。我认为金融分析、科研数据处理等对精度要求高的行业应该会比较早感受到3.1 Pro的优势,毕竟它在科学知识和推理能力上都下了功夫。

这个问题很有意思!我觉得在需要深度分析和复杂决策的场景下,Gemini 3.1 Pro的推理能力提升会非常明显。比方说,在金融领域,它可以用于风险评估和投资策略制定,帮助分析师更准确地预测市场走向;在医疗领域,可以辅助医生进行疾病诊断和治疗方案设计,尤其是在罕见病或复杂病例的分析上。受益的行业肯定包括金融、医疗,还有科研和教育,这些领域都依赖强大的推理能力。

长远来看,我觉得应该朝着开源的方向发展。AI 技术只有开放共享,才能真正惠及所有人。当然,这需要解决商业模式的问题,比如通过提供增值服务、技术支持等方式来盈利。但无论如何,降低使用门槛,让更多人参与进来,才是最重要的。

这定价简直劝退!对于普通用户来说,根本搞不清楚自己用了多少 token,费用怎么算的。我觉得应该学习云服务的模式,按需付费,用多少算多少,或者推出一些套餐,让用户更容易理解和选择。

定价高不高得看效果。如果 3.1 Pro 真的能显著提高效率,解决之前解决不了的问题,那贵点也能接受。关键是,谷歌得让大家看到物有所值,否则就是空中楼阁。

我觉得可以参考云服务的定价模式,比如提供免费的试用额度,让开发者充分体验 Gemini 3.1 Pro 的强大功能,再决定是否付费。或者,可以针对教育和科研机构推出特殊的优惠政策,鼓励更多人参与到 AI 技术的创新中来。

其实,我觉得谷歌的定价策略也可能是一种市场细分的手段。通过不同的收费标准,吸引不同规模和需求的开发者和企业。关键还是看 Gemini 3.1 Pro 的实际效果,如果真的物超所值,那价格就不是问题了。

别忘了工业界!我猜它在优化供应链管理和生产流程方面也能发挥很大作用。通过预测需求变化,自动调整库存和生产计划,从而降低成本,提高效率。感觉以后很多行业都要被AI重新定义了!

除了看解决问题的准确率,我觉得还要关注模型的稳定性、鲁棒性和可解释性。比如,模型在面对噪声数据时是否依然稳定?能否处理各种边缘情况?能否给出合理的解释?这些都是实际应用中非常重要的指标。

我更关注的是联网搜索的收费。如果模型需要频繁联网才能提供高质量的结果,那这笔费用就不可忽视了。这可能会导致开发者更倾向于使用不需要联网的模型,或者自己搭建知识库,但这样又增加了开发成本和复杂度。

楼上说的有道理!我觉得在医疗诊断方面,Gemini 3.1 Pro 也可以大有作为。它可以分析大量的医学影像和病例数据,帮助医生更准确、更快速地做出诊断,甚至可以预测疾病的风险。当然,这需要大量的伦理考量和数据安全保障。

Token 计费确实有点让人头大,感觉就像在玩流量套餐。小开发者肯定得精打细算,小心翼翼地控制 token 数量,可能会影响他们的创新空间。大企业可能不在乎这点钱,但也会评估 ROI,毕竟成本也是要考虑在内的。