谷歌 Nano Banana 2 发布:图像生成 Pro 级质量,Flash 级价格

谷歌发布Nano Banana 2,图像生成能力大幅提升,速度更快,价格更低,或将重塑图像生产基础设施。

原文标题:谷歌Nano Banana 2又刷屏了:又快又便宜,设计师当场破防

原文作者:机器之心

冷月清谈:

谷歌发布了新一代图像模型Nano Banana 2,该模型在图像质量、文本生成、指令遵循和速度方面均有显著提升。其核心在于融合了Gemini对世界的深度理解和实时网页搜索信息,能以高保真度反映真实世界。Nano Banana 2在文字生成、角色一致性、镜头语言控制等方面表现出色,尤其在复杂场景和图表处理上有所突破。此外,该模型速度快、价格低,已应用于Gemini App、Google Search等平台,并接入Google Ads,预示着图像生成技术正加速融入高频生产基础设施,或将引发图像生成使用频率的跃升。但模型仍存在一些问题,如生成准确时钟等难题尚未解决。

怜星夜思:

1、Nano Banana 2的低价策略,会对Midjourney、Stable Diffusion等现有图像生成工具的市场格局产生什么影响?
2、文章提到Nano Banana 2可以生成可商用的文字内容,那么它在广告设计、营销物料等领域的应用前景如何?是否会取代一部分设计师的工作?
3、Nano Banana 2在角色一致性和对象保真度方面的提升,对分镜创作、故事板、IP视觉资产的自动生成有哪些积极意义?

原文内容

图片
机器之心编辑部

一句话:Pro 级质量,Flash 级价格。


预告了许久的Nano Banana 2,终于来了。



谷歌CEO皮查伊发帖声称:「这是我们迄今为止最好的图像模型。」


https://x.com/sundarpichai/status/2027057726170509724


目前该模型已经作为默认图像模型在 Gemini App、Google Search(覆盖 141 个国家)和 Flow 上线,同时在 Google AI Studio 和 Vertex AI 提供预览,也可以在 Google 的 Antigravity 中使用。


这一次升级,核心不只是画质再抬一档,而是能力结构发生了明显变化。


Nano Banana 2 融合了 Gemini 对世界的深度理解,同时利用实时网页搜索获取的信息和图片,因此能够以极高的保真度来反映真实世界的当前状况。


皮查伊举了个「Window Seat」(窗边座位)的例子。随便挑世界上任何一个地方的「窗户视角」,模型就能实时生成那个窗户往外看的景色,还会自动拉取当地实时天气,同时支持 2K/4K 高清。



网友使用搜索功能,模型先通过网页搜索理解鹪鹩到底长什么样,再生成精美的桌面。

提示词:使用图片搜索查找鹪鹩的精准图像。制作一张精美的壁纸(比例3:2),采用自然的上下渐变效果,并保持极简构图。来自X@fofrAI


文本能力,仍然是这一代重点补强的方向。


Nano Banana 2 被明确定位为可以在图像中生成清晰、可读、可直接商用的文字内容,无论是营销物料还是贺卡设计,拿来即用。


来自X@ZHO_ZHO_ZHO


从社区反馈看,文字、排版稳定性,相比前代确实有明显提升。


来自X@oran_ge(左图),X@ZeroZ_JQ(右图)


来自X@karminski3


拉纳克普尔耆那教寺庙的柱子,x@tulseedoshi


模型也在更高复杂度场景下展示出一定统筹能力。


沃顿商学院教授@emollick提前体验了 Nano Banana 2。「它虽然还不完美,但却是第一个能以较高的一致性处理极其复杂的图像和图表的模型。」


他给出的指令是:


「show me a where's waldo set in ancient Venice, but instead of waldo it is an otter wearing a blue striped pilots outfit.」(给我展示一张以古代威尼斯为背景的《威利在哪里》(Where's Waldo)风格的图片;但要把威利换成一只穿着蓝色条纹飞行员制服的水獭。)


X@emollick


如此复杂多元的画面生成,我仔细瞅了半天,还真找到了,而且,只有一个水獭!当然也有毛病,比如长尾巴的小男孩:



速度,是这代最直观的体感升级之一。



用户反馈,生成 4K 图像不到一分钟。



关键还便宜结合官方给出的价格,比 Pro 全面便宜:图片便宜 25-50%,文本 token 便宜 70-80%。


一句话:Pro 级质量,Flash 级价格。



从社区实测来看,Nano Banana 2 的主体一致性表现,也是这一代的亮点之一。


我们简单体验了一下,确实做得不错。


提示词:保持所有角色和物体与之前(左图)完全一致。重新布置场景,让五个角色围坐在一张圆桌旁,自然互动。九个物件必须全部保留,并且清晰可见。电影级光影,中景,照片级真实感。(右图是结果)


谷歌表示,在单一工作流中可保持多达 5 个角色的一致性,以及多达 14 个对象的保真度。这让你可以进行分镜创作和叙事构建,而无需改变输入对象的原型外观。


换句话说,当角色一致性不再频繁崩坏,分镜、故事板、连续广告乃至 IP 视觉资产的自动生成才真正具备可行性。


指令遵循能力同样明显收紧。Nano Banana2 能很好理解如此复杂、包含多重指令的草图输入。难怪博主直呼「设计师们,我觉得我们完蛋了!」


@hewarsaber丢给它一张草图,输入提示词:Turn this sketch into a landing page for an Al video platform.Purple and white.Clean and modern.Hero headline: 'AI Video That Speaks Your Script'.Show an Al avatar on the right. Add use case tags below the nav(将此草图转化为AI视频平台的落地页。紫色和白色,简洁现代,醒目的标题:「人工智能视频,朗读你的脚本」,在右侧显示人工智能头像,在导航栏下方添加用例标签。)


微妙的镜头语言控制,执行稳定性也有提升。


提供了3张参考图片和一个简单的提示:这里展示的是35mm、50mm和85mm焦距,光圈分别为f/1.2和f/2.0的情况。x@LinusEkenstam


网友评价,第一个轻松理解如何使用广角镜头拍摄特写的图像模型,x@aifilmmaker


产品规格上,全面控制各种长宽比(包括1:8、 8:1 这种极端画幅),专为横幅、故事流和全景内容设计。


分辨率覆盖 512px 到 4K。加入低分辨率(512px快速模式,更适合高频迭代与大规模流水线。



虽不及 8:1 极端,很多网友在晒的这种全景图,已经很惊艳。



还有网友让它生成一个 720 度的 vr 素材图,加入交互,就得到了一个全景网站。


图片

X@ZeroZ_JQ


值得一提的是,在保持速度的同时,视觉保真度也有所升级。画面充满活力的光影、更丰富的纹理和更清晰的细节。


看看这张图!睫毛根根分明,眼周皮肤、眼睛里的红血丝都清晰真实,甚至能从眼睛里看到窗外的那只鸟。


https://x.com/chetaslua/status/2026961626549887069?s=20


皮肤细节清晰可见,毛孔,脸颊、鼻头因冷空气,自然泛红。X@charliejhills


网友还玩出了不少花样。


博主@fofrAI引用了别人在图书馆随手拍的一本童书《How to Hold Animals》,然后给模型下提示「Show the jellyfish page from this book」。


模型立刻生成了书里第 42 页关于水母的内容,风格、排版、插画质感,看起来就像直接从书里扫描出来的一样。


https://x.com/fofrAI/status/2027076683010851284


模仿你的笔迹,写一首诗。


X@Prathkum


居然还能生成 CAD。


X@DLKFZWilliam2


当然,翻车的例子也不少。比如,这个倒立就有问题;郭德纲于谦互换脸,也失败了。


x@karminski3(左)X@ZHO_ZHO_ZHO(右边)


生成准确的时钟,似乎一直是个难题。


X@ZHO_ZHO_ZHO


据说,Google Ads 也已开始接入这一能力——这几乎等同于公开宣告:图像生成正在正式进入广告生产基础设施。


从更宏观的产品策略来看,谷歌的意图已经越来越清晰:不是单纯把图像模型做得更好看,而是把它们全面推入高频生产基础设施。


当 Pro 级能力开始系统性下沉到 Flash 档位,图像生成的使用频率,很可能会迎来下一次台阶式跃升。



参考链接

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

同意楼上的观点。现在的AI在细节处理上还是不够完美,比如手、文字、复杂场景等。而且,AI生成的内容容易出现同质化,缺乏灵魂。未来,AI可能会与更多领域的技术融合,比如3D建模、动画渲染等,生成更逼真、更生动的图像。

我认为首当其冲的是广告设计和营销行业。以前需要大量时间和预算去拍摄和后期处理的素材,现在可能几分钟就能生成。设计师需要提升自己的创意能力和对AI工具的掌控能力,将AI作为助手,而不是竞争对手。同时,专注于那些需要独特创意和情感表达的设计领域,比如品牌战略和用户体验设计。

别慌,设计师们!AI再厉害也只是工具,真正的创意还是掌握在人手里。我觉得以后设计师可能要转型成“prompt工程师”了,懂得怎么“调教”AI,让它更好地为自己服务。另外,也要不断学习新的设计理念和技术,保持竞争力。

确实,影响最大的可能是那些依赖大量素材快速生产的设计岗位。我认为设计师应该积极拥抱AI,学习如何更好地利用提示词,优化生成效果。同时,也要提升自己的审美能力和艺术修养,做出AI无法替代的创意和设计。

没错,IP形象一致性是品牌建设的关键要素。Nano Banana 2在这方面的进步,可以帮助品牌更高效地维护和推广自己的IP形象。比如,可以快速生成各种场景下的IP形象海报、广告,甚至是定制化的内容,与用户进行互动。

这事儿得分两头看。一方面,AI降低了设计的门槛,不懂设计的人也能快速生成一些简单的物料。另一方面,真正高质量的设计仍然需要专业设计师的参与。所以我觉得是两极分化,低端市场被AI取代,高端市场仍然是设计师的天下。

除了理解能力,我觉得AI在处理复杂逻辑关系方面也存在困难。比如,你让它生成一张“红色的球在蓝色的盒子里面,盒子在桌子上”的图片,它可能能生成,但如果你加上“盒子是打开的”,它可能就懵了。这说明AI在处理这种嵌套关系时还不够智能。

同意楼上的看法,AI再强也只是工具,关键还是看你怎么用它。设计师应该拥抱AI,把它当成助手。对普通用户来说,以后朋友圈斗图素材更多了,哈哈哈!

有没有想过用 Nano Banana 2 结合 VR/AR 技术,生成一个完全个性化的虚拟世界?你可以用草图设计你的理想家园,然后让 AI 帮你生成逼真的3D模型,足不出户就能体验到“我的世界”的乐趣。这才是真正的元宇宙啊!

我倒觉得,除了技术上的突破,伦理问题也需要重视。AI图像生成技术如果被滥用,可能会被用于制造虚假信息、侵犯知识产权等等。所以,在发展AI的同时,也要建立相应的法律法规和伦理规范,确保这项技术能够健康发展。

除了常识推理,AI在处理一些具有强烈主观性和情感化的内容时也会显得比较吃力。比如,让AI画一幅表达“孤独”的画,它可能能画出一个空旷的场景,但却很难真正表达出那种情感。所以,未来AI的发展需要在情感理解和表达方面有所突破。

与其说是“完蛋了”,不如说是“进化了”。AI再强大,也只是工具。设计师可以拥抱 AI,把 Nano Banana 2 当成自己的助手,提高工作效率,解放双手做更有创意的事情。而且,审美和文化内涵这种东西,AI 还是很难完全取代人类的。

我觉得短期内设计师不会“完蛋”,但工作方式肯定会改变。NB2降低了试错成本,设计师可以更快地生成各种方案,然后专注于更需要创意和审美判断的环节,比如整体概念、用户体验等等。重复性的体力劳动会被AI取代,但核心价值还是掌握在人手里。

从学术角度来说,这个功能涉及到字体生成、风格迁移等复杂的技术问题。但从伦理角度看,的确存在滥用的可能性。例如,伪造书法作品、生成虚假文书等等。需要制定相关的法律法规来规范其使用。

这个能力太重要了!以前用AI生成的内容,最头疼的就是角色一会儿一个样。现在能保持一致性,那就可以批量生成各种场景、各种姿势的素材,大大降低了IP视觉资产的生产成本。

“完蛋”可能有点夸张,但肯定会带来一波行业洗牌。以后可能需要的是更懂AI、更会用AI的设计师,而不是只会用传统软件的。与其担心被取代,不如拥抱变化,想想怎么利用这些新工具提升自己的竞争力。

我觉得以后广告都是AI生成的了,文案是AI写的,图片是AI画的,甚至连广告配音都是AI合成的!到时候满大街都是AI广告,想想就觉得恐怖。。。希望甲方爸爸们能手下留情,给人类设计师留条活路啊!