谷歌发布 Gemini 2.5 Pro 预览版,号称编码能力全网第一

谷歌发布 Gemini 2.5 Pro 预览版,编码能力号称全网第一,在 Web 开发和视频理解方面均有显著提升,助力开发者高效构建 Web 应用。

原文标题:碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一

原文作者:AI前线

冷月清谈:

谷歌在 I/O 大会前夕发布了 Gemini 2.5 Pro Preview,作为其旗舰 AI 模型的升级版本,该模型在多项基准测试中名列前茅,尤其在编码和 Web 应用构建方面表现突出。新版本在代码转换和编辑任务上同样出色,并在 Web Arena 排行榜上获得领先,超越前代模型。Gemini 2.5 Pro Preview 还在视频理解方面有所突破,能够实现之前版本无法实现的新流程。此次更新不仅提升了编程性能,还解决了开发者反馈的问题,减少了函数调用错误,提高了函数调用率。该模型在前端 Web 开发方面表现优异,能够根据设计文件自动生成 CSS 代码等,简化功能开发流程。社区对 Gemini 2.5 Pro Preview 的发布反应积极,认为其在实际编程能力上有所提升,但在抽象思维和系统架构方面仍有局限性,AI 在编码能力方面超越人类只是时间问题。

怜星夜思:

1、Gemini 2.5 Pro Preview 在编码能力上取得了显著进展,但文章也提到它在抽象思维和系统架构方面仍有局限性。你认为在哪些具体的编程场景中,这种局限性会最为明显?
2、文章提到 Gemini 2.5 Pro Preview 在 Web Arena 排行榜上表现出色,能够创建美观且功能强大的 Web 应用。你认为 AI 在 Web 开发领域还有哪些潜在的应用场景?
3、文章中提到有开发者认为“要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径”。你对此有何看法?你认为 LLM 在实现通用人工智能(AGI)的道路上会扮演怎样的角色?

原文内容

整理|冬梅、核子可乐
I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版

昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取,价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当中,主要供 Web 及移动设备端使用。

谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:“非常高兴能与大家分享我们迄今为止构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹。”

这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「I/O 版」)召开在际。预计谷歌将在大会上发布一系列模型以及 AI 驱动的工具和平台。在这场残酷的 AI 竞赛中,谷歌正奋力夺取市场份额与用户关注;OpenAI 及 xAI 等竞争对手也即将发布性能强大的同类模型。

最新版模型实际上能做些什么?

根据谷歌的介绍,Gemini 2.5 Pro Preview(I/O 版)在编码和构建交互式 Web 应用方面实现了“显著”提升。此外,新版本模型在代码转换(即修改一段代码以实现特定目标)与代码编辑等任务上同样表现出色。

谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型创建美观且功能强大的 Web 应用的能力)上名列前茅,比上一版本高出 147 个 Elo 积分。该排行榜衡量了人类对模型构建美观且功能强大的 Web 应用的能力的偏好。它还继续巩固了其在原生多模态和长上下文方面的坚实基础。

WebDev Arena 由 LMArena 开发,是一项实时 AI 编码竞赛,模型在 Web 开发挑战中展开正面交锋

视频转代码

值得一提的是,新版本模型在视频理解方面同样拥有一流表现,在热门基准测试 VideoMME 上取得 84.8% 的得分。

结合编码功能,Gemini 2.5 Pro Preview 实现了之前版本无法实现的全新流程。凭借更强大的视频理解能力和更完善的用户界面,升级后的 Gemini 2.5 Pro 模型比之前的简单示例提供了更丰富的功能体验。

谷歌在博文中写道,“对于正在使用 Gemini 2.5 Pro Preview 的开发者们来说,此次发布的新版本不仅能够提升编程性能,还将解决开发者提出的多项关键反馈,包括减少函数调用中的错误并提高函数调用的触发率。默认情况下,该模型既能保持良好的可操控性,也真正体现出对 Web 开发的审美追求。”

让功能开发更简单

Gemini 2.5 Pro Preview 在前端 Web 开发方面表现优异。实现新功能意味着用户需要手动深入设计文件,检查组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写所需的 CSS 代码来准确复制这些视觉属性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并让模型生成新功能,例如添加一个与 Gemini 95 入门应用中其他应用风格相同的视频播放器。

让创意更易落地

Gemini 2.5 Pro Preview 让创意落地变得简单高效,它既提供强大的实用功能,又拥有优雅的用户界面。以全新升级的听写入门应用为例,该应用基于最新模型构建,充分展现了 Gemini 2.5 Pro Preview 的优势。

值得关注的是其精致的细节设计:动态波长动画、流畅的响应式布局,以及巧妙的按钮悬停交互效果。这一模型天然具备现代化的 Web 开发风格,在确保视觉美感的同时,更注重操作便捷性,帮助开发者快速将概念转化为可实际运行的 Web 应用。

例如,Gemini 2.5 Pro Preview 能够为听写应用智能设计麦克风 UI 动画,并自动生成相应代码,显著提升开发效率。

外界如何评价?

Gemini 2.5 Pro Preview 发布后立即在社区中引发热议,AI 编码工具 Cursor CEO Michael Truell‌也忍不住称赞 Gemini 2.5 Pro Preview 让编码能力更进一步。

“我们对最新的 Gemini 2.5 Pro Preview 感到非常兴奋,它在其强大的实际编程能力基础上进一步提升。我们内部观察到,新型号调用工具失败的情况显著减少,我们相信用户会发现这一改进使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”

在 Hacker News 上,有用户认为 Gemini 2.5 系列比其他模型要可靠,但仍然无法与人类开发者媲美:

“前在使用其他模型编程时,我经常遇到一个令人头疼的问题:它们有时会生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在这方面表现要好得多,比我所尝试过的任何其他模型都更可靠。


当然,它仍然存在一些明显的局限性。无论怎样优化提示词,当前的模型在抽象思维和系统架构方面还是无法与人类开发者相媲美。但即便如此,我发现 Gemini 已经能够替代我日常的很多搜索和 StackOverflow 查询,显著提升了我的编程效率。”

有用户赞同了上述观点,认为即使 Gemini 2.5 Pro Preview 在智能编码方面已经足够出色,但目前仍无法媲美人类,不过,他认为 AI 在编码能力方面超越人类只是时间问题。

“很明显,在代码设计领域,人类被超越只是时间问题(至于这是 1 年还是 5 年后的事,其实并不重要)。与其纠结于这些无法改变的趋势,不如把精力放在更有价值的问题上:在这个即将到来的新世界里,我们能做些什么? 我们需要更多建设性的想法,而这里正是推动这些讨论的最佳场所。”

一位每日都在使用大模型辅助编程的开发者表示:

“我每天都在使用大语言模型辅助编程。多年来,LLM 的编程能力确实有了显著进步,但主要集中在"自然语言到代码"的映射能力上。这种能力虽然强大,使用时仍需注意:需要精心管理上下文以保持模型专注;必须主动引导模型考虑性能优化和系统架构等关键因素。我对大模型的推理能力仍持保留态度。这并非否定其价值,而是要认识到其固有局限。我认为,要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径。”

但也有 X 用户认为,Gemini 2.5 Pro Preview 只有编码技能略有提高。其他一切都略有下降。因此,这只是一个专为编码而生的大模型,不适合一般用途(与之前的版本相比)。

参考链接:

https://blog.google/products/gemini/gemini-2-5-pro-updates/

声明:本文为 AI 前线翻译整理,不代表平台观点,未经许可禁止转载。

活动推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文

图片
你也「在看」吗?👇

我觉得还可以用在UI/UX设计上,根据用户行为数据和偏好,AI可以帮助设计师快速生成多个设计方案,并预测哪个方案更受欢迎。甚至可以实现千人千面的个性化界面,想想都觉得很有意思!

同意楼上的观点,尤其是在处理那些需要权衡多种因素的复杂决策时,例如代码的性能、可读性和可维护性之间的平衡。AI 模型可能会根据既定的规则生成代码,但缺乏人类开发者在实际场景中进行灵活调整和优化的能力。另外别忘了,需求变更也是软件开发中很重要的一环,AI生成的代码对需求变更的适应能力有待提高。

我觉得在设计复杂的、高并发的分布式系统时,Gemini 2.5 Pro Preview 的局限性会很明显。这种系统需要考虑很多非功能性需求,比如可用性、可伸缩性、安全性等等,需要开发者有很强的抽象建模能力和系统架构能力,这可能不是目前的 AI 擅长的。

LLM现在更像是工具,可以赋能各行各业,但要说实现通用人工智能,我觉得还差的远。通用人工智能需要有自主意识,需要能够自我学习和进化,而不仅仅是执行指令。当然,LLM在AGI的道路上肯定会发挥重要作用,比如提供知识、学习语言等等,但它不可能是AGI的全部。

完全同意!LLM更像是一个“语言大师”,而不是一个“思考者”。它们可以流利地表达,但缺乏真正的理解和创造力。我觉得未来的AGI可能需要更强调知识表示和推理能力,让AI能够像人类一样理解世界。

那必须是代码审查(Code Review)啊!让AI来做代码审查,可以大大减轻开发人员的负担,并且可以更全面地发现代码中的潜在问题。而且AI可以学习优秀的代码规范,保证代码质量的一致性。不过,前提是得有一个靠谱的AI,别把代码越审越烂了。

写业务逻辑的时候感觉没啥问题,但是涉及到一些底层框架的设计,或者是一些算法的优化,感觉现在的 AI 模型理解的还是不够深刻,给出的方案总觉得不够优雅,或者说不够“程序媛/程序猿”的那种感觉。
而且debug的时候,它给出的方案有时候感觉是胡说八道,只能当个参考,最终还是要靠自己查资料和理解代码。

除了生成代码,我觉得 AI 在 Web 开发领域还可以应用在自动化测试上。AI 可以自动生成测试用例,并根据 UI 的变化自动调整测试脚本,这样可以大大提高测试效率,降低测试成本。

我觉得 LLM 只是 AGI 的一个组成部分,而不是全部。LLM 擅长处理语言和生成文本,但在推理、规划、常识等方面还是比较弱的。要实现 AGI,可能需要结合符号主义、连接主义等多种方法,构建一个更复杂的系统。