港科大&快手开源EvoSearch:测试时扩展大幅提升图像、视频生成质量,1.3B模型效果超14B

港科大&快手开源EvoSearch,一种测试时扩展方法,无需训练即可显著提升图像、视频生成质量,小模型效果超越大模型。

原文标题:视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

原文作者:机器之心

冷月清谈:

香港科技大学联合快手可灵团队推出了名为EvoSearch的测试时扩展(Test-Time Scaling)方法,该方法通过提升推理时的计算量,显著提高图像和视频生成的质量。EvoSearch无需训练和梯度更新,即可在多种任务上取得优异效果,并展现出良好的扩展性、鲁棒性和泛化能力。该方法通过将图像和视频生成的test-time scaling问题转化为演化搜索问题,模拟生物的自然选择和演化,在diffusion和flow模型中探索更高质量的去噪样本。

实验结果表明,EvoSearch在Stable Diffusion 2.1和Flux.1-dev图像生成任务,以及VBench等视频生成任务中,均表现出最优的scaling up性质,并且能够泛化到分布外的评估指标。即使计算量扩大到1e4量级,仍能保持性能提升。此外,EvoSearch在人类评估中也取得了最优胜率,这得益于其较高的生成多样性,能够较好的平衡exploration和exploitation。该研究表明,test-time scaling具有补充training-time scaling的潜力,为未来的研究方向提供了新的可能性。

怜星夜思:

1、EvoSearch通过模仿生物进化来优化生成结果,这种思路给你带来了什么启发?除了图像和视频生成,你觉得这种演化搜索的思路还能应用在哪些领域?
2、文章中提到EvoSearch在测试时增加了计算量,但无需训练和梯度更新。那么,这种方法在实际应用中,对于计算资源的要求是怎样的?相比于传统的训练方式,有哪些优势和劣势?
3、EvoSearch的核心在于通过变异和选择来优化生成结果,文章中提到了两种变异模式:初始噪声变异和中间去噪状态变异。你认为这两种变异模式分别起到了什么作用?有没有可能设计出其他的变异模式,进一步提升生成效果?

原文内容


论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?


为了回答这一问题,最近香港科技大学联合快手可灵团队推出 Evolutionary Search (EvoSearch)方法,通过提高推理时的计算量来大幅提升模型的生成质量,支持图像和视频生成,支持目前最先进的 diffusion-based 和 flow-based 模型。EvoSearch 无需训练,无需梯度更新,即可在一系列任务上取得显著最优效果,并且表现出良好的 scaling up 能力、鲁棒性和泛化性。


随着测试时计算量提升,EvoSearch 表明 SD2.1 和 Flux.1-dev 也有潜力媲美甚至超过 GPT4o。对于视频生成,Wan 1.3B 也能超过 Wan 14B 和 Hunyuan 13B,展现了 test-time scaling 补充 training-time scaling 的潜力和研究空间


目前,该项目的论文和代码均已开源。



  • 论文标题:Scaling Image and Video Generation via Test-Time Evolutionary Search

  • 项目主页:https://tinnerhrhe.github.io/evosearch/

  • 代码:https://github.com/tinnerhrhe/EvoSearch-codes

  • 论文:https://arxiv.org/abs/2505.17618



我们来看 EvoSearch 与其他一些方法的效果对比:


图片

1.Test-Time Scaling 的本质


这里团队将测试时扩展(Test-Time Scaling)和 RL post-training 分开来看,定义前者无需参数更新,后者需要计算资源进行后训练。Test-time scaling 和 RL post-training 本质都是为了激发预训练模型的能力,使其与人类偏好(奖励)对齐。给定一个预训练模型和奖励函数,目的是拟合如下的目标分布:



其中是奖励函数代表(人类)偏好,KL 距离(

)防止预训练模型的分布与目标分布偏离太远,避免知识遗忘。该目标分布可以重新写成如下形式:



其中是归一化常数,需要遍历整个状态空间来计算。这是不可行的,因为 diffusion 和 flow 模型的状态空间都是高维的。这导致直接从目标分布采样不可行


2. 当前方法的局限性


诸如 RL 的后训练方法虽然也能从目标分布采样,但需要构造数据以及大量计算资源重新更新模型参数,导致代价很大并且很难 scale up。目前在视觉领域,最有效的 test-time scaling 方法包括 Best-of-N,它基于重要性采样(Importance Sampling)来拟合目标分布采样。Best-of-N 随机采样多个样本,并筛选出奖励最高的 N 个。在基于 diffusion 和 flow 模型的图像和视频生成任务上,Best-of-N 的样本通常是初始噪声。


最近的一些工作提出了更高级的采样方法,可以统一称为 Particle Sampling。这类方法将搜索空间拓展为整条去噪轨迹,在去噪过程中不断保留好的样本,并丢掉表现差的样本(类似 beam search)。这类方法虽然也能表现出 scaling up 性质,但缺少探索新的状态空间能力,并且会减少生成样本的多样性


团队做了一个小实验,当目标分布和预训练分布不一致(甚至可能是 o.o.d.),基于学习的 RL 方法会出现奖励过优化的现象(reward over-optimization)。诸如 best-of-N 和 particle sampling 的搜索方法也不能找到目标分布所有的模态。但团队的方法 EvoSearch 成功拟合了目标分布,并且取得了最高的奖励值



3. EvoSearch 解读


团队将图像和视频生成的 test-time scaling 问题重构成演化搜索问题。


具体来说,受生物的自然选择和演化所启发,团队将 diffusion 和 flow 模型中的去噪轨迹看成演化路径,每个去噪步的样本都可以进行变异演化来探索更高质量的子代,最后得到最优的符合目标分布的去噪样本

(图片或者视频)。


不同于一般的演化方法,样本空间局限于一个固定的状态空间进行演化,团队提出的 EvoSearch 的演化空间沿着去噪轨迹动态前移,即起始于高斯噪声,终止于


EvoSearch 框架图


团队的方法受如下的洞见启发:他们发现在整个去噪轨迹中,高质量的样本往往会聚集在一起。因此,当搜索到高质量的父代,则可以在父代周围的空间进行探索从而有效找到更高质量的样本。从下图可以看到去噪轨迹中的样本在低维空间的分布与奖励空间具有强相关性。



基于此,团队设计了如下两种变异模式:


  • 初始噪声变异:EvoSearch 通过如下正交操作保持初始噪声仍然符合高斯分布



其中

是变异率来控制探索强度。


  • 中间去噪状态变异:由于中间去噪状态的分布是复杂的且在搜索过程中不可知。团队受 SDE 方程启发,设计如下变异模式:



其中

是 SDE 去噪过程中的扩散系数。


这些变异方式一方面加强了对于新的状态空间探索,另一方面又避免了偏离去噪轨迹的预训练分布。


我们定义了 evolution schedule 和 population size schedule 来进行演化搜索,这两种 schedule 的设置取决于可用的测试时计算量大小。



EvoSearch 算法伪代码如下:




4.EvoSearch 实验结果


1. 对于图片生成任务,在 Stable Diffusion 2.1 和 Flux.1-dev 上,EvoSearch 展示了最优的 scaling up 性质。即使测试时计算量扩大了 1e4 量级,仍能保持上升势头。对于视频生成任务,EvoSearch 在 VBench,VBench2.0 以及 VideoGen-Eval 中的 prompts 上也能达到最高的 reward 提升幅度。



2.EvoSearch 也能泛化到分布外(unseen)的评估指标,显示了最优的泛化性和鲁棒性。



3. EvoSearch 在人类评估上也达到最优胜率。这得益于他高的生成多样性,平衡了 exploration 和 exploitation。



4. 下面是更多的可视化结果:



更多细节请见原论文和项目网站。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

EvoSearch这种测试时增加计算量的方式,相当于把训练的负担转移到了推理阶段。虽然不需要重新训练模型,但每次生成图像或视频都需要进行多次演化搜索,计算成本肯定比直接推理要高。

计算资源要求:

* 硬件: 需要一定的GPU算力,否则演化搜索的速度会很慢。
* 时间: 生成一张高质量的图像或视频需要花费更多的时间。

优势:

* 无需训练: 节省了大量的训练时间和计算资源。
* 即插即用: 可以直接应用到现有的预训练模型上。
* 可扩展性: 可以通过增加计算量来进一步提升生成质量。
* 鲁棒性: 对分布外的样本也能取得较好的效果。

劣势:

* 推理速度慢: 每次生成都需要进行多次演化搜索,速度较慢。
* 计算成本高: 虽然不需要训练,但推理时的计算成本仍然较高。
* 依赖预训练模型: 生成质量受到预训练模型能力的限制。

总的来说,EvoSearch适合对生成质量要求高,但对推理速度要求不高的场景。如果追求极致的推理速度,还是传统的训练方式更合适。

EvoSearch相当于把炼丹炉搬到了用户电脑上,让用户自己炼丹。虽然不用像炼丹师那样辛苦,但也要消耗一定的“材料”(计算资源)。

计算资源要求:

* GPU: 想要炼出好丹药,好的GPU是必须的。
* 时间: 炼丹需要时间,想要快速出丹,就得加大火力(增加计算量)。

优势:

* 省时省力: 不用自己炼丹,直接拿来用。
* 可定制化: 可以根据自己的需求调整炼丹配方(演化策略)。
* 潜力无限: 只要有足够的材料,就能炼出更好的丹药。

劣势:

* 费电: 炼丹是个耗电的活。
* 考验耐心: 炼丹需要耐心,不能急于求成。
* 有上限: 丹药的品质受到炼丹炉的限制(预训练模型的能力)。

总的来说,EvoSearch适合有一定硬件基础,追求高质量生成结果的用户。如果只是随便玩玩,可能还是用在线API更方便。

这两种变异模式,我觉得分别起到了不同的作用:

* 初始噪声变异: 相当于在源头上进行探索,改变了生成过程的起点,有助于发现更多不同的生成结果,增加生成的多样性。保持初始噪声符合高斯分布,也能保证生成结果的合理性,避免出现过于离谱的图像。
* 中间去噪状态变异: 相当于在生成过程中进行微调,对每一步的去噪结果进行优化,有助于提高生成结果的质量,使其更符合目标分布。

至于其他的变异模式,我觉得可以考虑以下几个方向:

* 基于注意力机制的变异: 在生成过程中,不同的区域对最终结果的影响不同。可以根据注意力权重,对重要的区域进行更精细的变异,提高生成结果的细节质量。
* 基于语义信息的变异: 可以引入CLIP等模型,提取生成结果的语义信息,然后根据语义信息来指导变异过程,使其更符合人类的偏好。
* 对抗性的变异: 可以引入一个判别器,判断生成结果的质量。然后根据判别器的反馈,来调整变异的方向,使其更难被判别器识别,从而提高生成结果的质量。

总的来说,变异模式的设计需要考虑生成过程的特点,以及目标分布的要求。只有找到合适的变异模式,才能有效地提升生成效果。

EvoSearch的思路很棒!感觉就是把炼丹过程自动化了。让我想到遗传算法,本质上都是模拟生物进化,通过变异、选择来寻找最优解。这种思路的关键在于定义好“适应度函数”,也就是评价生成结果好坏的标准。图像、视频生成里可以用CLIP打分,其他领域也可以借鉴。

我觉得除了文章里提到的,还可以用在:

* 金融交易策略:通过演化搜索寻找最优的交易参数和规则,实现自动交易。
* 组合优化问题:比如旅行商问题,用演化算法可以更快地找到近似最优解。
* 博弈论:可以模拟不同策略的演化,找到纳什均衡。

感觉以后各行各业都可以“进化”一下,让AI自己优化自己,想想就刺激!

这个思路太酷了!让我想起以前生物课上讲的“定向选择”。EvoSearch就像是在模型的“基因”里加入了变异,然后根据“环境”(也就是目标分布)来筛选,最终留下最适应环境的“物种”。

感觉除了科研领域,这种思路在生活里也能用上:

* 个人成长: 我们可以不断尝试新的技能、新的习惯,然后根据反馈来调整,让自己不断进化。
* 团队协作: 团队成员可以提出各种不同的方案,然后通过讨论、实验来选择最佳方案,让团队不断进步。
* 产品迭代: 产品经理可以不断推出新功能、新设计,然后根据用户反馈来调整,让产品不断完善。

所以说,学习生物学,真的能帮助我们更好地理解世界!

EvoSearch这种借鉴生物进化思路来优化结果的方式,确实让人眼前一亮。它启发我们,很多复杂的问题,都可以从自然界寻找灵感,模仿自然界的运作方式。

除了图像和视频生成,我觉得这种演化搜索的思路在以下领域也有应用潜力:

* 算法优化: 可以用演化算法来搜索最优的神经网络结构、超参数组合,省去人工调参的繁琐。
* 材料设计: 可以用演化算法来寻找具有特定性质的新材料,加速新材料的发现。
* 药物研发: 可以用演化算法来优化药物分子结构,提高药物的疗效和安全性。
* 机器人控制: 可以用演化算法来训练机器人的运动控制策略,让机器人学会更复杂的动作。

总的来说,只要是需要寻找最优解的问题,都可以考虑用演化搜索的思路来解决。

这两种变异模式,我理解是分别负责“广度”和“深度”的探索:

* 初始噪声变异: 保证了探索的“广度”,相当于从不同的起点出发,避免陷入局部最优解,增加生成结果的多样性。
* 中间去噪状态变异: 保证了探索的“深度”,相当于在去噪的每一步都进行优化,提高生成结果的质量和细节。

感觉还可以从以下几个方面改进变异模式:

* 自适应变异率: 根据生成结果的质量动态调整变异率,如果生成结果质量较差,可以增加变异率,反之则降低变异率。
* 混合变异: 可以将不同的变异模式混合使用,例如先进行初始噪声变异,再进行中间去噪状态变异,或者同时进行两种变异。
* 引入外部知识: 可以将外部知识(例如图像分割、目标检测等)引入到变异过程中,指导变异的方向,提高生成结果的语义一致性。

另外,我觉得还可以借鉴GAN的思想,引入一个判别器来指导变异过程,让生成器和判别器相互博弈,不断提高生成效果。

初始噪声变异像是给了一堆不同的种子,中间去噪状态变异像是给幼苗施肥、除草。一个负责多样性,一个负责质量。

我觉得还能加一些更“智能”的变异方式:

* prompt引导的变异:现在不是流行prompt engineering吗?可以根据prompt的内容,有针对性地调整变异方式。比如prompt里有“微笑”,就多变异出一些笑容的特征。
* 风格迁移变异:可以借鉴风格迁移的思想,把其他图片的风格“嫁接”到生成图片上,做出更有创意的作品。
* 用户反馈变异:如果用户对某些生成结果特别喜欢,可以把这些结果的变异过程记录下来,作为后续变异的模板,让模型学会用户的喜好。

总之,变异方式要灵活多样,才能让模型生成出更符合人类审美,更有创意的作品!

EvoSearch的计算量主要集中在推理阶段,优势是不需要像传统训练那样耗费大量时间和资源。但是,每次生成图片/视频都要进行演化搜索,这部分计算量也不容小觑。

计算资源要求:
1. 硬件:应该还是需要比较好的GPU,毕竟要跑多次扩散/flow模型。
2. 时间:生成时间肯定比直接跑一遍模型要长,具体长多少取决于演化搜索的步数和种群大小。

优势:
1. 省钱:不用从头训练模型,省下巨额训练费用。
2. 灵活:可以针对不同的prompt调整演化策略,生成更符合要求的作品。
3. 效果好:文章里说了,相同参数量的情况下,效果可以超过更大的模型。

劣势:
1. 速度慢:推理速度肯定不如直接跑模型。
2. trade-off:需要在生成质量和速度之间做权衡,计算资源有限的情况下,可能需要牺牲一些质量。

我觉得EvoSearch更适合对生成质量有较高要求的场景,例如艺术创作、电影特效等。如果只是日常使用,可能直接跑模型更划算。