Gemini 2.5 Pro 升级:登顶编程模型排行榜,多项能力大幅提升

Gemini 2.5 Pro 升级,编程能力大幅提升,登顶编程模型排行榜。可根据草图生成应用,根据图像生成代码。

原文标题:刚刚,Gemini 2.5 Pro升级,成编程模型新王

原文作者:机器之心

冷月清谈:

Google DeepMind 发布 Gemini 2.5 Pro (I/O edition) 最新版本,该版本在编程能力上取得显著进步,不仅在 LMArena 编程排行榜上名列第一,还在 WebDev Arena 排行榜上超越了 Claude 3.7 Sonnet。Gemini 2.5 Pro 能够根据用户提供的草图和功能描述构建 Web 应用、游戏和模拟程序,甚至可以根据自然图像生成代码。该模型已在 Gemini APP、Vertex AI 和 Google AI Studio 中开放。新版 Gemini 2.5 Pro 在 WebDev Arena 中的 Elo 分数大幅提升,同时在原生多模态和长上下文方面依然强势,在视频理解方面表现出色。网友们已经开始测试新版 Gemini 2.5 Pro 的功能,并分享了许多成功的案例,例如记忆配对游戏、星球飞行游戏、书架应用、虚拟版芝加哥艺术博物馆以及城市交通模拟器等。

怜星夜思:

1、Gemini 2.5 Pro 的编程能力提升如此显著,你觉得它会对未来的 Web 开发领域带来哪些影响?
2、文章提到 Gemini 2.5 Pro 可以根据草图生成应用,你觉得这种 "草图编程" 会不会成为未来编程的一种趋势?
3、Gemini 2.5 Pro 在视频理解方面表现出色,你认为这会对哪些行业产生影响?

原文内容

机器之心报道

编辑:Panda


你的默认编程模型是什么?或许可以换一换了。


刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)



其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸主 Claude 3.7 Sonnet (20250219)!




不仅如此,现在用户只需使用一个提示词即可构建 Web 应用、游戏和模拟程序等,甚至用户仅需提供一张手绘草图 + 功能描述,就能得到一个带有自己设计的 UI 的功能完备的应用。


此外,下面的视频还展示了 Gemini 2.5 Pro (I/O edition) 的另一项能力,可以根据自然图像生成代码,而这些代码可以动态表示自然图像中内容。



自家模型更新,谷歌的多位大佬也纷纷出来站台。



诺贝尔奖得主、DeepMind CEO Demis Hassabis 表示 Gemini 2.5 Pro (I/O edition) 已经在 Gemini APP、Vertex AI 和 Google AI Studio 中开放,并且其尤其擅长构建交互式 Web 应用,下面的演示展示了该模型根据草图构建应用的能力。



可以看到,只需一张描述画板应用的简单草图加上一句简单的提示词,Gemini 2.5 Pro (I/O edition) 就创建出了一个功能完备的 Web 应用。


另外,谷歌母公司 Alphabet CEO、Google AI 负责人 Jeff Dean 也都各自发布了宣传推文。




谷歌博客表示,他们原计划在几周后的 Google I/O 大会上发布 Gemini 2.5 Pro Preview (I/O edition),「但由于大家对这一模型的热情高涨,我们希望尽快将其交付到大家手中,以便人们能够立即开始构建。」


「Gemini 2.5 Pro 的编程和多模态推理功能获得了广泛好评,此次更新正是基于此。除了专注于 UI 的开发之外,这些提升还扩展到了其他编程任务,例如代码转换、代码编辑和开发复杂的智能体工作流。」


这些增强能力让 Gemini 2.5 Pro 在 WebDev Arena 中的 Elo 分数大幅提升:比上一版本高出 147 分!WebDev Arena 排行榜衡量的是人类对模型构建美观且功能强大的 Web 应用能力的偏好。


此外,新版 Gemini 2.5 Pro 在原生多模态和长上下文方面依然强势;它在视频理解方面表现一流 —— 在 VideoMME 基准测试中获得了 84.8% 的分数。


以下视频展示了 Gemini 2.5 Pro 根据单条 YouTube 视频生成交互式学习应用的示例,同时还给出了新旧 Gemini 2.5 Pro 的对比。



网友实测,新版 Gemini 2.5 Pro 真的行


既然是编程模型新王,网友们的测试热情可以说被瞬间激发。随便检索一下互联网,我们就能找到大量网友们分享的测试案例。


图片


比如网友 @thenomadevel 让 Gemini 2.5 Pro Preview (I/O edition) 用 p5.js 编写了一个直接可玩的记忆配对游戏。


https://x.com/thenomadevel/status/1919823630143213715


DeepMind 产品设计师 Tim Bettridge 则 Vibe Code(氛围编程)了好几个不同的游戏和应用,比如这个看起来相当不错的星球飞行游戏:


https://x.com/TimBettridge/status/1919847724645789721


又比如这个功能完备的书架应用:


图片


还有一个支持 3D 浏览的虚拟版芝加哥艺术博物馆。



更有网友用不到 20 分钟的时间构建了一个完整的城市交通模拟器。


https://x.com/WesRothMoney/status/1919887823257108941


机器之心也做了简单的尝试,将我们手绘的一张动物图片变成了一个简单的电子宠物游戏:



看起来,Vibe Coder 们又有新选择了。


参考链接

https://blog.google/products/gemini/gemini-2-5-pro-updates/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

Gemini 2.5 Pro 这种模型普及后,前端工程师可能要面临转型了。低代码/无代码平台会更受欢迎,但对工程师的抽象设计能力要求更高,要能清晰描述需求,才能让 AI 更好地完成工作。

视频理解能力强了,那短视频创作的门槛岂不是更低了?以后AI可以自动剪辑、配乐、加特效,人人都能成为剪辑大师。不过,内容同质化的问题可能会更严重。

感觉安防监控领域可能会迎来一次技术革新。AI 可以自动识别视频中的异常行为,比如打架斗殴、入室盗窃等,大大提高监控效率和准确性。当然,隐私问题也需要重视。

我觉得短期内不会有太大影响,可能更多的是提高效率,像一些重复性的工作可以交给 AI 来做,但核心的业务逻辑还是得人工来把控。另外,安全问题也是一个隐患,AI 生成的代码会不会有漏洞?这都需要进一步研究。

在线教育行业会受益匪浅。AI 可以根据视频内容自动生成学习笔记、习题,甚至可以根据学生的学习进度和理解程度,个性化推荐学习内容。这对于提升学习效率非常有帮助。

这简直是设计师的福音!不用再为了实现自己的设计效果去学复杂的代码了,直接画个草图就能搞定。感觉以后UI设计师也要开始学画流程图了,这样才能更好地和AI沟通。

"草图编程"肯定会是趋势之一,但不会完全取代传统编程。对于简单的应用原型,草图编程效率很高;但对于复杂的、需要精细控制的应用,还是需要传统编程方法。未来可能会是两者结合,AI 负责生成基础代码,人工负责优化和完善。

我觉的想多了,这种草图编程看似方便,但实际上对于草图的规范性要求很高。如果草图画的太随意,AI 可能就无法正确理解你的意图。而且,AI 生成的代码往往比较死板,缺乏灵活性。想要真正做出高质量的应用,还是需要人工干预。

这一下子Web开发门槛要降低不少啊!以后是不是人人都能成为Vibe Coder了?不过话说回来,AI 生成的代码质量到底能不能达到生产级别,还有待观察。