从SoTA到新现象:深度学习研究的新视角

深度学习研究的新方向:从追求性能到探索新现象,以RepVGG、RIFE、Film插帧和OpenAI工作为例。

原文标题:深度学习工作:从追求 SoTA 到揭示新现象

原文作者:数据派THU

冷月清谈:

本文探讨了深度学习研究从追求模型State-of-the-Art (SoTA) 到揭示新现象的转变。作者引用了多个例子,例如ACNet到RepVGG的发展、RIFE和Film插帧算法,以及OpenAI的系列工作,来说明这种转变的重要性。

以往,许多研究专注于提升模型性能,即使只是微小的改进。然而,这种“SoTA至上”的观念正逐渐受到挑战。作者认为,真正的学术价值在于揭示新的现象,而不仅仅是刷新排行榜。

RepVGG的成功案例表明,“结构重参数化”这一新概念的提出及其带来的性能提升,比单纯的SoTA结果更有意义。RIFE插帧算法的改进过程中,作者也逐渐将重点从性能提升转移到对新现象的解释和应用上,例如对光流逆转误差的解释、多倍插帧的实现以及对果冻效应的模拟。

Film插帧算法则更侧重于开辟新的研究领域,例如近重复照片插值,并针对这一新应用提出相应的模型设计和损失函数。OpenAI的系列工作,从GPT4到Sora,都展现了前代模型未曾拥有的新现象,例如ChatGPT的对话能力、GPT4的解题能力以及Sora的长视频生成能力等。这些新现象的出现,引发了研究者的广泛关注和讨论。

作者呼吁研究者应更关注新方法带来的新现象,而非仅仅追求SoTA或纠结于模型的本质。因为新的现象才能孕育新的可能性,推动深度学习领域的持续发展。

怜星夜思:

1、文章提到了从追求SoTA到揭示新现象的转变,大家觉得在实际研究中,如何平衡这两者?完全不追求SoTA是否可行?
2、文章中提到的“结构重参数化”在RepVGG中取得了成功,大家觉得这种技术在其他类型的深度学习模型中是否也有应用潜力?
3、OpenAI 的一系列工作,例如 Sora,引发了很多讨论,大家觉得这些工作最大的贡献是什么?对未来的深度学习研究有什么启示?

原文内容

来源:人工智能前沿讲习

本文约2400字,建议阅读5分钟

本文主要讨论了从追求模型 SoTA 到揭示新现象的转变。


本文主要讨论了从追求模型 SoTA 到揭示新现象的转变。通过几个例子,包括ACNet到RepVGG的发展,RIFE插帧、Film插帧,以及OpenAI的近期工作,阐述了这种转变的重要性。

最近大家对于前沿工作的讨论,常常出现两极分化。

比如 DiT,看到很多人说是灌水,研究生实验报告,Sora 以后有人又说“打脸”。

比如说 OpenAI-o3,有答主说 “这是真正的智能爆炸,断崖式提升”,然后评论区说 “下次换个话术”。

身边的故事,近期审了不少论文,发现大家对于宣称 SoTA 的工作越来越严苛了。往年那种先 SoTA 再故事的论文,眼看着被连环拒。作者喊着性能无敌,审稿人 borderline reject。

想了一些东西,也对 论文写作指南(https://github.com/hzwer/WritingAIPaper) 做了点补充。

ACNet 到 RepVGG 的现象上升


聊个大佬朋友的例子, @丁霄汉 说 RepVGG 其实可以叫 ACNetv2。

简单来说 ACNet 就是训练的时候三个卷积核,推理的时候合成一个。

ACNet 在 ICCV19 投稿得分还是有正有负被捞起来,目前 800+ 引用说明后续影响力很不错。

我个人觉得并不是当年的审稿人水平太差没有看出它的创新性,而是 ACNet 的创新性在丁博的后续工作中有广泛提升。

因为 RepVGG 抽象了一个新概念“结构重参数化”,把 ACNet 中不好说清楚动机的设计方式变成 “构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构”。

然后同时又报告了一个现象,即 VGG 式的网络,只要有并行的恒等和 1x1 卷积分支,就能训出 ResNet 相当的性能,推理时还跟原来的 VGG 结构一样。

重参数化自此成为手工设计 CNN 的一类重要操作。

论文刷点是一部分,更高的性能同时揭露新的现象,才是学术的本质。

王婆卖瓜 - RIFE 插帧


卖个自己论文的例子 - RIFE 实时视频插帧模型(https://www.zhihu.com/question/516128811/answer/2557922020)

我近一两年才逐渐意识到自己阴差阳错做了一篇还不错的论文,目前还不知道怎么达到更高水平,希望以此为例传达一些经验教训。

研究初衷是当时业界流行的插帧算法 DAIN 速度比较慢,就想设计个规整的 CNN 网络来做一个实时插帧模型。

一开始投稿也是主要突出 SoTA 性能,但是审稿人买账的不多,特别是轻量化模型并不是一个讨喜的研究话题,被拒好几次。

虽然我们认为某个指标提高就是模型核心竞争力的体现,但是全世界大概只有几个小同行共识,而且提高一点性能,本身不为领域带来什么新的知识。

于是我们重写了文章,更多的加入了新的发现,于是审稿人和读者可以各自寻找心中的哈姆雷特。

  1. 把先前一些模型的误差解释为光流逆转时忽略了物体空间移动,所以我们有更强的动机在轻量化网络中端到端估计中间帧光流
  2. 对于为什么要做光流蒸馏,先指出输入中间帧信息为“特权”的模型会有高得多的性能
  3. 多倍插帧,我们发现把目标时间 T 输入进网络是可以实现控制任意时刻插帧的,而且训练之后还可以放入梯度式的时间编码实现场景融合或果冻效应模拟
  4. 将光流和融合权重先一起预测,可以用来做其它模态的插帧
  5. 性能上我们也改成强调整体设计带来的多倍插帧场景的效果提升等等

这样自己都不用强调,审稿人每个人都会说这篇论文提出的方法性能很好。

我们希望读者觉得论文更有读的价值,现在看引用也真的来自很多不同的方向,比如有 20+ 篇做果冻效应的引用。

为什么说 “阴差阳错” 呢,因为很多 idea 其实是多次 rebuttal 以后想的。比如说有两次审稿人批评不能做任意时刻插帧,我就回复说这个简单,把目标时间 T 输入就行了嘛。审稿人说,没做实验你说个锤子,一做才发现效果比预期还好。

水平所限,当年其实还是没有把这篇论文写的很好,写这篇总结是希望下次能做的更优美。

不用刷 SoTA 的 Film 插帧


带着这样的视角,看看为什么有的论文在很卷的赛道也能中得顺利,发在 ECCV22 的插帧论文 Film: Frame interpolation for large motion(https://github.com/google-research/frame-interpolation),Fitsum Reda 大佬作品

看宣称的论文贡献:

我们将帧插值的范围扩展到一个新颖的近重复照片插值应用,为社区开辟了一个新的探索空间。
– 我们调整了一个共享权重的多尺度特征提取器,并提出了一个尺度无关的双向运动估计器,使用常规训练帧来很好地处理小范围和大范围的运动
– 我们采用基于Gram矩阵的损失函数来修复由大场景运动引起的大范围遮挡,从而生成清晰且令人满意的帧
– 我们提出了一个统一、单阶段的架构,以简化训练过程,并消除对额外光流或深度网络的依赖

很明显地有一些新东西,首先是开辟新的研究范围,找到一些以往算法都会挂掉的例子。

然后围绕这个问题构建整个论文,提出了一系列设计,包括结构和损失函数。

和别人的对比是次要的,在以往 benchmark 上和 SoTA 差不多可比就可以了,突出一些关注场景的性能。

近期热门的 OpenAI 工作


OpenAI 发的一系列东西,如果我们从做新现象的角度去审视,就能知道为什么它们是好东西。

比如说 Sora 现在不如可灵,那它是不是价值显著下降?

我觉得可灵以及很多国产视频生成大模型的广泛成功,其实说明了 Sora 的含金量,即它展示的现象是别人可以复现的,通过 DiT 来高质量长时长的可控视频生成,甚至于它的失败例子其实都是很有意思的实验现象。

GPT4 / o1 / o3,每一个都展示了前代模型没有的新现象,这是它们足以吸引诸多研究者的原因。

如果我第一次看到 ChatGPT,我会很疑惑怎么会有这样交互水平的对话模型,它是不是在时不时联网 + 人工干预 + 复杂的 pipeline 设计来产出内容。

然后当我们在小模型复现了一些流程以后,会惊讶于一个 7B 左右大小的模型真的能日常对话。

GPT4 一开始最吸引我的,就是它解决我出的算法题的水平。虽然它在这方面不如很多经过训练的初中生,但是比起其它胡说八道的模型真的强了很多。

o1 / o3 是思维链了更扩展版本,探索了用更多的推理开销换取智能的可能性。

具体就不赘述了,总之我希望社区看这些工作的时候,不要过多讨论 xxx 是不是通往 AGI(通用人工智能)的路子,以及 xxx 的本质是不是就是 xxx,而是分享我们能从新方法看到什么新现象。

新的现象才孕育着新的可能。

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

与其说 OpenAI 的工作是具体的技术贡献,不如说是它改变了人们对 AI 的认知。以前我们觉得很多事情 AI 做不到,但现在看来,一切皆有可能。

我觉得“结构重参数化”的思想很有借鉴意义,它可以将复杂的训练结构简化为高效的推理结构,在其他类型的模型中,比如Transformer、GAN等,或许也能找到类似的应用场景。

完全不追求SoTA在某些情况下是可行的,比如探索性的研究,或者专注于特定应用场景的优化。但是,如果你的研究成果想要被更广泛地认可和应用,SoTA仍然是一个重要的指标。

可以这样想,SoTA就像考试分数,它可以反映你的学习成果,但不能代表你的全部能力。比起一味追求高分,更重要的是掌握学习方法和培养思考能力,这样才能在未来取得更大的成就。

OpenAI的工作总能带来一些意想不到的结果,这促使我们思考深度学习的边界在哪里,以及如何才能更接近真正的智能。我觉得他们的探索精神值得我们学习。

我觉得两者并不矛盾,追求SoTA可以作为研究的动力和检验标准,但不能作为唯一目标。在研究过程中,我们应该更关注模型背后的原理和新发现,SoTA只是水到渠成的事情。

结构重参数化感觉像是训练的时候用更复杂的结构获得更好的表征能力,推理的时候用更简单的结构保证速度,这种思路应该可以推广到其他需要速度的模型。

我觉得 OpenAI 最大的贡献在于不断探索新的方向,并推动了整个领域的发展。Sora的长视频生成能力虽然现在还有很多不足之处,但它为未来的研究指明了方向。

这个技术让我想起了知识蒸馏,都是用一个复杂的模型来指导一个简单的模型,只是实现方式不同。我觉得可以尝试结合这两种技术,也许会有新的突破。