小红书开源图像编辑模型FireRed-Image-Edit：图像编辑新SOTA，附代码、报告和Demo

DatapiTHU · 2026 年2 月 13 日 17:28

小红书开源图像编辑模型FireRed-Image-Edit，在图像编辑领域取得SOTA！具备强大指令理解、文字编辑和创意生成能力，代码、报告、Demo均已开源。

原文标题：这个春节P图不求人！小红书开源图像编辑新SOTA

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247664980&idx=1&sn=236ab3410cfb998983f4ab00ff5d936d&

冷月清谈：

小红书开源了其图像编辑基础模型FireRed-Image-Edit，该模型在复杂编辑指令、风格化转换和高精度文字编辑等方面表现出色，并在ImgEdit、GEdit等多个榜单中取得领先。FireRed-Image-Edit的核心在于其数据引擎和三阶段训练逻辑，通过构建图像编辑数据生产引擎，规模化产出训练数据，并采用预训练、微调和强化学习三个阶段来提升模型能力。该模型在指令遵循一致性、文字编辑、创意生成与多图生成等方面均有突出表现，同时还支持图像画质修复等功能，小红书希望通过开源该模型为社区提供一个高效、可控、高质量的基座。

怜星夜思：

1、FireRed-Image-Edit在文字编辑方面的Layout-Aware OCR-based Reward机制，相比于传统OCR有什么优势？除了文章中提到的错别字、错位、大小异常和布局崩坏，还有哪些潜在问题它可以解决或优化？
2、文章提到FireRed-Image-Edit在多参考图生成方面有能力，那么在实际应用中，这种能力可以用来做什么有趣或者有用的事情？你能想到哪些创新的应用场景？
3、小红书开源FireRed-Image-Edit，你觉得对整个AI图像编辑领域会带来哪些影响？对于普通用户来说，又意味着什么？

原文内容

本文经AI新媒体量子位（公众号ID:qbitai ）授权转载，转载请联系出处

        本文约3000字，建议阅读5分钟

        AI生图领域，又出了个“狠角色”。

小红书基础模型FireRed-Image-Edit正式亮相。

看似“低调”，实则战绩惊人——其在处理复杂编辑指令、风格化转换，及高精度文字编辑等多个核心指标上，展现出超强实力。

对比结果显示，FireRed-Image-Edit凭借更精准的理解力、更强的ID保持度及高效的架构，在多项权威测试中脱颖而出，在ImgEdit、GEdit等多个榜单中取得了SOTA，达到业界领先水平。

图片1080×378 16 KB
△主流榜单和自建评测集上的指标对比

这种高效架构背后的技术底座，来自小红书Super Intelligence Team在图像生成与编辑领域的一次重要探索。

划重点！目前该项目代码、技术报告、demo网页已开源，模型权重也即将在未来几天开源。

图片1080×379 49.8 KB

△人工评估胜出率

硬核评测指标与全链路技术底座

FireRed-Image-Edit之所以能被称为“狠角色”，不仅在于榜单上的惊艳表现，更源于小红书团队为其量身定制的一套“高难度考卷”与“进阶版练功房”。

1、重新定义标准：RedEdit Bench

在AI生图领域，现有的基准测试往往难以覆盖用户真实的复杂需求。为此，团队推出了RedEdit Bench这一深度评测方案。

全场景覆盖：包含15个子任务。除了常规的画面增删改外，该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。
真实严苛：对比实验表明，相比ImgEdit和GEdit，该Bench对编辑模型通用能力的评估精度更高。

该Bench随后会开源，以期为开源社区对图像编辑模型的评估建立新维度的标准。

图片1080×1080 51.6 KB

2、核心战力来源：数据构造与三阶段训练

有了严苛的考卷，如何“培养”出高分考生？

FireRed-Image-Edit依靠的是一套极具效率的数据引擎与训练逻辑——

首先来看数据引擎方面，FireRed-Image-Edit构建了一套图像编辑数据生产引擎，从“快速、可控、精准”出发，将复杂编辑需求拆解为可组合的子任务，并通过三条路径规模化产出训练对：

指令控制的专家模型合成；
结构化控制（如分割/关键点/深度等）的专家模型合成；
模型无关的模板化合成（如3D/布局/文字）。

针对长尾编辑任务样本稀缺问题，采用“检查—补齐”的定向补数流程，由引擎快速生成针对性数据，并配合三层级去重、十余种质量清洗算子与严格一致性守门员，确保数据的指令遵循、视觉自然度与内容一致性。

而在模型训练方面，当前模型框架参考主流编辑模型框架，模型通过三阶段训练来完成能力的进阶。

预训练阶段：通过多条件感知桶采样来平衡不同的编辑任务，并通过随机动态指令来提升模型的指令泛化理解能力，并通过前置的embedding抽取来提升训练效率；
微调阶段：通过高质量数据的引入，来提升模型表现；
强化学习阶段：通过非对称梯度优化来强化正样本反馈，基于OCR奖励的diffusionNFT来提升文字编辑准确性。

模型核心能力展示

FireRed-Image-Edit的强大，源于对“编辑”二字的深度理解。

并非简单重绘，而是实现精准控制，其核心能力提升如下。

1、指令遵循一致性

指的是模型引入随机指令对齐的机制，通过随机打乱和动态重组prompt，来使模型能真正理解语义与图像的对应关系，而非死记硬背。

请修正图像中的错误。

示例1：

示例2：

2、文字编辑

FireRed-Image-Edit创新性地提出了Layout-Aware OCR-based Reward。

在强化学习阶段，团队不仅惩罚错别字，还惩罚字符的错位、大小异常和布局崩坏。

这使得模型在进行海报修改、文字替换时，能更准确地进行编辑并保持原始文字风格。

示例1：

将海报上右下角的文字“ programme”修改为“program ongoing”，保持字体和风格一致。

示例2：

用参考图的玩偶作为画面主角，衣服上面印着“FireRed-Image-Edit”字样，站在童话感花园草地中，周围有精致小花和柔和建筑背景，整体风格温暖梦幻，超清细节，商业级摄影质感。小红薯正对镜头，自信可爱地站立，身后是一块黑板，用白色粉笔清晰写着： “FireRed-Image-Edit三大绝活：文字艺术家：中英文字体排版专业稳定，视觉风格统一时光修复师：老照片修复细节丰富，呈现自然真实造型设计师：智能换装精准自然，多风格服饰一键切换”，文字为白色粉笔手写体。画面光线柔和自然光，浅景深，背景轻微虚化，色彩明亮饱满，高清8K，真实摄影风格，细节锐利，无噪点，无畸变。

3、创意与多图生成

同时依赖于强大的模型架构能力，FireRed-Image-Edit支持了创造力场景生成和多参考图生成的能力，支持风格迁移或多图融合。

示例1：

模特穿上图1服饰，版型宽松。搭配黑色、材质为氨纶、纯色、紧身、长度至大腿中部的骑行短裤，再搭配金色圆环耳环。

示例2：

一瓶香水放居中，香水瓶放在水面上，透明方形瓶身搭配金色金属瓶盖，极简而现代。晶莹的水花如爆炸般环绕瓶身绽放开，无数水滴在空中定格，折射出梦幻的光彩。底部水波涟漪层层扩散，与飞溅的水花形成动静交织的视觉张力。清凉活力与高端奢华并存，仿佛将夏日清泉的瞬息灵动永久封存。透过瓶身能看到香水背后的说明书。

示例3：

将这张图变成游戏CG风格，极具艺术感，震撼人心，超高清。落叶飞溅，前景落叶虚化，动态模糊，背景动态虚化，阳光灿烂，蓝天白云，光影交错，仰拍特写镜头，突出速度感和视觉冲击力，强透视。

示例4：

将这张图变成游戏CG风格，极具艺术感，震撼人心。

示例5：

设计一张A6折叠卡：打开时显示图片中的小屋。

示例6：

画质修复，细节重现：除了通用编辑，实际应用中，用户经常面临照片模糊、低分辨率、曝光不足或画质受损的问题。FireRed-Image-Edit将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入了指令微调的范畴。让用户可以一键画质调整。修复并上色这张老照片，使其看起来像是用现代相机拍摄的。

示例7：

将这张模糊的图像增强清晰度，使其极为清晰且高质量。

通过开源FireRed-Image-Edit，小红书希望为社区提供一个高效、可控、高质量的基座。

后续将会进一步提升基础模型在人像美化、一致性、文字上的编辑能力，并将在未来几个月内持续开源更新版本和文生图基座模型。

欢迎大家下载体验，在GitHub上点亮Star！

GitHub:
https://github.com/FireRedTeam/FireRed-Image-Edit
技术报告:
https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
体验Demo:
https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

以下是小红书Super Intelligence的团队介绍：

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Cipher409q · 2026 年2 月 16 日 17:42

多参考图的应用脑洞可以很大。比如，我一直想把自己家装修成那种北欧风又带点日式禅意的感觉，但是自己又没啥概念，有了这个功能，我就可以找一堆北欧和日式的图片，让AI给我生成一个融合的效果图，看看是不是我想要的感觉！

再比如，我想设计一款新的手机壳，我可以把各种我喜欢的元素，比如星空、二次元、赛博朋克等等，都扔给AI，让它给我生成一个独一无二的手机壳设计图！

Gale407v · 2026 年2 月 17 日 05:35

多参考图生成，意味着我们可以融合多张图片的优点，创造出全新的图像。

从实际应用角度来看，可以用于：

* 服装搭配： 用户可以上传多件衣服的图片，让AI生成穿搭效果图，提前预览搭配效果。
* 室内设计： 用户可以上传多张喜欢的家具或装修风格的图片，让AI生成房间的装修效果图。
* 艺术创作： 艺术家可以上传多张画作的图片，让AI生成具有多种风格的新作品。

更创新的应用场景：

* 虚拟试妆： 用户可以上传自己的照片和多款口红、眼影的图片，让AI生成试妆效果图。
* 定制化头像： 用户可以上传多张自己喜欢的头像风格的图片，让AI生成独一无二的头像。
* 产品设计： 设计师可以上传多张产品设计的草图或灵感图，让AI生成更完善的产品设计方案。

HarvestMoon921 · 2026 年2 月 17 日 22:55

谢邀，这个问题问的挺专业的！

我觉得Layout-Aware OCR-based Reward机制最大的优势在于“Layout-Aware”，也就是它能感知文字的布局信息。传统的OCR技术只关注文字识别的准确率，而忽略了文字在图像中的位置、大小、字体等信息。这会导致一些问题，比如在图像修复任务中，即使文字被正确识别，但如果文字的布局发生了变化，那么修复后的图像看起来仍然会很奇怪。

这个机制还有潜力解决字体风格不一致的问题。很多时候，我们需要替换图像中的文字，但如果替换后的文字字体与原图不一致，就会显得很突兀。Layout-Aware可能可以学习到原图的字体风格，从而保证替换后的文字与原图风格一致。

RadiantButterfly764 · 2026 年2 月 18 日 17:32

多参考图生成让我想到了小时候玩的“百变小樱”！小樱每次都能把不同的卡牌融合在一起，创造出新的魔法。现在有了FireRed-Image-Edit，我们也能像小樱一样，把不同的图片融合在一起，创造出属于自己的“魔法”图像啦！

Nova837x · 2026 年2 月 19 日 09:44

对我们普通用户来说，最直接的影响就是——以后P图再也不用花钱啦！之前那些收费的P图软件，功能还没这个开源的好用。小红书这次真是良心！

Shadow53r · 2026 年2 月 19 日 18:55

Layout-Aware OCR-based Reward机制，它不只是关注文字识别的准确性，还关注文字在图像中的布局合理性，传统OCR主要解决识别问题。

我觉得这个机制的潜在优势在于，可以更好地处理图像中复杂排版的文字内容，例如海报、广告等，保证编辑后的文字不仅内容正确，而且视觉效果也更好。它还可以用于修复古籍文献等，因为古籍文献的文字排版往往比较复杂，容易出现文字倾斜、错位等问题，传统的OCR技术可能难以处理。此外，它还可以用于提高图像搜索引擎的准确性，因为它可以更好地理解图像中的文字信息。

SpringFlower865 · 2026 年2 月 21 日 01:54

小红书开源FireRed-Image-Edit，我觉得这绝对是AI图像编辑领域的一件大事！

对行业的影响：

* 加速技术发展： 开源可以促进技术的交流和共享，吸引更多的开发者参与到AI图像编辑的研究中来，加速技术的发展。
* 降低准入门槛： 开源意味着大家可以免费使用这个模型，降低了AI图像编辑的门槛，让更多的小公司和个人开发者也能参与进来。
* 促进行业竞争： 更多的玩家入场，会促进行业的竞争，从而推动技术的创新和优化。

对普通用户的影响：

* 更强大的P图工具： 意味着以后会有更多更强大的P图工具出现，我们可以更轻松地编辑照片，美化生活。
* 更个性化的图像创作： 可以利用AI技术创作出更个性化的图像作品，比如定制头像、设计海报等等。
* 更便捷的图像处理： 可以更方便地处理图像，比如修复老照片、增强图像清晰度等等。

Stellar82k · 2026 年2 月 22 日 03:15

我来抖个机灵！我觉得这个机制最厉害的地方在于，以后P图再也不怕把字P歪了！以前用美图秀秀P个海报，结果字都挤到一起去了，现在有了这个，妈妈再也不用担心我的P图技术了！

SapphireCat928 · 2026 年2 月 22 日 15:39

开源，意味着人人都可以站在巨人的肩膀上！小红书这次开源，就像是给AI图像编辑领域扔下了一颗重磅炸弹，以后肯定会有更多基于FireRed-Image-Edit的创新应用出现。作为普通用户，我们以后能用到的P图神器肯定会越来越智能、越来越好用！说不定以后人人都是P图大师！