Stable Diffusion 团队新作:FLUX.1 Kontext 模型实现像素级图像编辑

Stable Diffusion 团队推出 FLUX.1 Kontext 模型,实现像素级图像编辑。基于上下文生成,角色一致性强,局部编辑能力出色,低延迟。

原文标题:AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队

原文作者:AI前线

冷月清谈:

AI 生图领域迎来重大升级,Stable Diffusion 核心团队打造的 Black Forest Labs 发布了全新图像生成模型 FLUX.1 Kontext。该模型不仅能生成和编辑图像,还能理解文本和图像输入,实现基于上下文的内容修改。Kontext 模型的亮点包括角色一致性、局部编辑能力、风格参考和低延迟。目前已推出 Pro 和 Max 版本,并即将推出 Dev 版本。与传统的 Diffusion 模型不同,Kontext 采用流模型架构,在图像编辑的灵活性和速度上都有显著提升,并已在多个平台上线,供企业和开发者使用。该模型在美观度、提示词遵循性、真实感和内容排版方面表现出色,已引发用户积极评价。

怜星夜思:

1、FLUX.1 Kontext 模型采用的流模型架构与常见的 Diffusion 模型相比,有哪些优劣势?在实际应用中,哪种架构更具潜力?
2、文章提到 FLUX.1 Kontext 模型能够保持角色一致性和跨场景元素保留能力,这在实际应用中有哪些重要的意义?会带来哪些新的创意玩法?
3、Black Forest Labs 汇集了 Stable Diffusion 的核心团队成员,但 Stability AI 却面临困境,这说明了什么? 你觉得初创公司应该如何避免类似的问题?

原文内容

编译|冬梅、核子可乐

Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还允许用户添加文本及其他图像以实现内容修改。

该公司在 X 上发文称:“今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于上下文的生成和编辑能力。”

BFL 公司联合创始人兼 CEO Robin Rombach 表示:“FLUX.1 Kontext 通过将图像生成和编辑统一在一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练,我们实现了跨多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度。这实现了真正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。”

该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BFL 模型进行测试。

BFL 为该模型发布了两个版本:FLUX.1 Kontext [pro] 和 FLUX.1 Kontext  [max]。第三个版本 FLUX.1 Kontext [dev] 也即将开放内测。Pro 版和 Max 版目前已经在 KreaAI、Freepik、Lightricks、OpenArt 以及 LeonardoAI 等平台上线。这些模型将帮助企业创意团队及其他开发者获得更精准、更快速的图像编辑能力。

FLUX.1 Kontext 能够执行基于上下文的生成,也就是说该模型可以根据收到的参考图像或场景输出新内容,不必让一切从零开始。

该公司在 X 上发帖表示,Kontext 的四大“特殊之处”包括:

  • 角色一致性与跨场景元素保留能力;

  • 可“针对特定部分且不影响其他部分”进行局部编辑;

  • 使用获得的样式作为参考,生成相同风格的场景;

  • 极低的输出延迟。

开发者可以在访问完整的 BFL API 之前,先在 BFL Playground 上测试用例并试用该模型。

BFL 公司什么来头?

这家德国初创公司于去年 8 月正式亮相,联合创始人兼 CEO Robin Rombach 在人工智能领域拥有多年经验,他是参与构建 Stable Diffusion 的几位关键工程师之一,这家创业公司现已迅速成为欧洲最受关注的公司之一。

BFL 目前已获得 General Catalyst 和 Andreessen Horowitz 等硅谷知名风投公司的投资,其专利 AI 模型也位居下载排行榜榜首。

Rombach 在攻读计算机科学博士学位之前曾在海德堡大学学习物理学,他被认为是文本转图像模型的早期设计者之一。

他与一小群专注于生成式深度学习模型(尤其是文本转图像系统)的研究人员合作。该团队的成员包括帕特里克·埃瑟 (Patrick Esser),他后来成为黑森林实验室 (Black Forest Labs) 的联合创始人。

“我们在一个很小的实验室里一起工作,”Rombach 在去年年底的创业会议 Slush 上对观众说,并将他们的设置描述为“资源超级受限”,只有几个小型 GPU 来训练人工智能。

这并没有阻止他们的雄心:“我们希望与谷歌和英伟达等大型机构制造的最先进的模型竞争,”他在会议上说。

雄心勃勃的愿望和有限的资源促使 Rombach 和 Esser 开发出“潜在生成模型”,这种模型可以压缩图像中难以察觉的细节,这意味着它们可以以更高的效率工作。

Rombach 在 2023 年的 Big Techday 会议上展示了潜在空间模型。

图片:Big Techday/ Youtube。

2021 年,Rombach 和他的研究团队搬到了慕尼黑路德维希·马克西米利安大学。一年后,他担任了伦敦初创公司 Stability AI 的领导职务,该公司将 Rombach 团队开发的技术商业化,并将其作为文本转图像模型 Stable Diffusion 发布。

然而,尽管 Stability 的技术备受瞩目,但该公司很快就陷入了困境。外媒 Sifted 看到的一份泄露的融资方案引发了人们对 Stability 夸大其 AI 能力的质疑,并被指控未能按时支付员工工资和税款,但创始人 Emad Mostaque 否认了这些指控。

2024 年 3 月,在经历了特别动荡的 12 个月之后,Stability 更换了首席技术官,失去了一名产品副总裁、一名工程副总裁、一名研发副总裁和一名研究主管,Rombach 也在那时离开了这家陷入困境的公司

随后去年 8 月,黑暗森林实验室(Black Forest Labs)正式成立。

Rombach 成功说服了十几位 Stability AI 的前同事加入这家公司。公司十位联合创始人中有五位来自 Stability AI:Andreas Blattmann、Jonas Julius Müller、Sumith Kulal、Tim Dockhorn 和 Axel Sauer。他还招募了 Northzone 前投资者 Sarah Nöckel 担任幕僚长,以及一大批技术人才。

根据领英数据,Black Forest Labs 目前拥有 30 名员工,其中 12 名来自 Stability AI。该公司目前正在德国和美国招聘 6 个技术职位,包括一名图像 / 视频研究员和一名图像 / 视频数据工程师,所有职位均完全远程办公

成功参与 Black Forest 3100 万美元种子轮融资的风险投资家们对 Rombach 赞不绝口。

General Catalyst 的 Viet Le 表示:“如果你询问图像生成领域的任何人,无论是美国的 Midjourney 还是其他任何人,每个人都会认出来自德国南部的 Robin Rombach。”

两款新模型发布:Pro 和 Max

此次,Robin Rombach 带领的团队又带来了两款新模型:FLUX.1 Kontext [pro] 和 FLUX.1 Kontext [max]。

这两款模型都能做什么?

企业可以使用 Pro 版进行快速迭代编辑。用户期间可输入文本及参考图像,并进行局部编辑。该公司表示,Kontext [pro] 的运行速度“较以往最先进的模型快了一个数量级”,而且是首批允许多轮编辑的模型之一。

另一个模型,FLUX.1 Kontext [max] 则是速度同样较快且性能最强的版本。该公司表示,它能更严格地遵循提示词、输出内容更易于阅读,而且在不影响速度的前提下在编辑过程中保持一致性。

当然,不少其他图像生成模型也可以根据上传的文件生成照片。MidJourney 的 AI 图像编辑器就能使用参考图片,再对其中的特定区域进行编辑。Adobe 的 Firefly 同样如此,目前不少使用 Adobe 热门图像和视频平台的用户都能随时访问。

至于作为 Kontext 模型家族的第三个版本,FLUX.1 Kontext [dev] 则是一款拥有 12B 参数的开放权重模型。

BFL 还专门强调,FLUX.1 Kontext 是一款流模型,因此能够更灵活地完成上述任务。

所谓流模型(flow model)会从连续的数据流中学习,并在噪声数据和有用信息之间定义出一条路径。也就是说,其基本思路就与 Stability AI、MidJourney 乃至 OpenAI Sora 等众多图像与视频生成模型所依赖的 Diffussion 模型(能够对数据进行「去噪」)完全不同

BFL 在一篇博文中指出,Kontext 模型代表着流模型的又一次进步。

该公司解释称,“FLUX.1 Kontext 模型超越了文生图的范畴。与之前仅支持利用纯文本生成图像的流模型不同,FLUX.1 Kontext 模型还能理解获得的图像并据此创作。使用 FLUX.1 Kontext,您可以通过简单的文本指令修改输入图像,从而实现灵活且即时的图像编辑能力——无需进行微调或者面临复杂的编辑流程。”

在文生图基准测试中,BFL 宣称 FLUX.1 Kontext 模型在美观度、提示词遵循性、真实感和内容排版方面足以与其他顶尖模型相媲美。

外界评价如何?

BFL 于去年 10 月发布了文生图模型 Flux 1.1 Pro。其中还包含一个 API,可供第三方开发者将其集成到自己的应用当中。

在 BFL Playground 的支持下,已经有部分用户开始试用 Kontext 模型并给出了相当不俗的评价。

在 X 平台,好用户表示:“有一说一,使用 @bfl ml FLUX.1 Kontext 在 10 秒不到的时间里就能根据旧图生成头像或者编辑特定内容,这着实令人惊叹。这些是我在 @replicate 上使用的职业头像——虽然还不完美,但已经几可乱真(左侧为实拍图)。”

还有手快的用户,已经开始尝试了,并被新模型的表现惊艳到。

有网友试用了图像编辑功能,效果也让人很满意。

还有网友表示,“Kontext 在图像编辑方面非常出色。它可以实现像素级的完美图像编辑,这是其他图像模型无法做到的。”

提示词是:“把一条小绿龙放在他的肩膀上。”

当然,FLUX.1 Kontext 还须面对与其他现有先进图像模型的竞争,特别是那些已经诞生数年且仍在不断改进的“老前辈”。至于最终谁更胜一筹,我们将拭目以待!

参考链接

https://venturebeat.com/ai/flux-1-kontext-enables-in-context-image-generation-for-enterprise-ai-pipelines/

声明:本文为 AI 前线翻译整理,不代表平台观点,未经许可禁止转载。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~


今日荐文

图片

你也「在看」吗?👇

我觉得这就像是向量图和位图的区别。流模型注重路径和变化,可能更易于编辑和调整;而 Diffusion 模型则更像位图,细节丰富但修改起来可能更麻烦。所以,具体哪个更有潜力,得看应用场景。如果需要频繁修改和调整,流模型可能更适合;如果追求高质量的最终效果,Diffusion 模型可能更胜一筹。

角色一致性和跨场景元素保留太重要了!想想看,如果我用AI生成一套绘本,主角的形象始终如一,场景也能无缝衔接,那简直太棒了。或者,我可以让虚拟品牌代言人在不同场景下都能保持一致的形象,这能大大提升品牌认知度!

我觉得是利益分配的问题。技术团队辛辛苦苦研发出来的成果,如果不能得到合理的报酬和认可,很容易导致人才流失。Stability AI 可能没有处理好股权激励和团队氛围,导致核心成员纷纷出走。初创公司一定要重视人才,建立公平公正的激励机制,让员工有归属感和成就感。

从游戏设计的角度来看,这个功能简直是福音。设计师可以快速生成不同场景下的角色形象,确保风格统一,大大节省了美术资源。而且,玩家还可以自定义角色形象,并让其在游戏中始终保持一致,这能增强玩家的沉浸感和代入感。

这让我想到了“教会徒弟,饿死师傅”的说法。Stability AI 将技术开源,虽然促进了 AI 行业的发展,但也降低了自己的竞争壁垒。初创公司在开源和商业化之间需要找到平衡点。可以考虑部分开源,或者提供收费的高级服务,确保自己有持续的盈利能力。

流模型和Diffusion模型各有千秋。流模型可能在速度和灵活性上更胜一筹,尤其是在需要快速迭代和局部编辑的场景下。但Diffusion模型在生成高质量、高逼真度的图像方面可能更具优势,尤其是在需要全局一致性和复杂细节的场景下。未来哪种架构更有潜力,还取决于实际应用的需求和技术的发展方向,也许结合两者优势会更好?

谢邀,从理论角度来说,Diffusion模型像是从噪声中提炼信息,过程更可控,但计算量大;流模型则像是直接在数据流中寻找模式,速度快但可能不够精确。实际应用中,Diffusion模型在生成逼真图像方面更成熟,但流模型在实时编辑和风格迁移上更有潜力。个人觉得流模型在未来的发展空间更大,因为它更符合交互式AI的需求。

这说明技术牛不代表管理也牛啊!Stability AI可能在商业化和运营上出了问题。初创公司光有技术是不够的,还得有靠谱的商业模式、清晰的战略规划和优秀的管理团队。而且,别把鸡蛋放在一个篮子里,要多元化发展,别过度依赖某个单一产品。

这让我想到了电影制作。以前制作系列电影,演员的妆容、服装稍有变化观众就能看出来。有了这个技术,AI可以辅助保持角色形象的连续性,减少后期制作的成本。而且,如果演员档期有问题,甚至可以用AI生成与之前角色形象一致的替身!当然,这只是个脑洞,伦理问题还需要考虑。