深度学习研究的新方向:从追求性能到探索新现象,以RepVGG、RIFE、Film插帧和OpenAI工作为例。
原文标题:深度学习工作:从追求 SoTA 到揭示新现象
原文作者:数据派THU
冷月清谈:
以往,许多研究专注于提升模型性能,即使只是微小的改进。然而,这种“SoTA至上”的观念正逐渐受到挑战。作者认为,真正的学术价值在于揭示新的现象,而不仅仅是刷新排行榜。
RepVGG的成功案例表明,“结构重参数化”这一新概念的提出及其带来的性能提升,比单纯的SoTA结果更有意义。RIFE插帧算法的改进过程中,作者也逐渐将重点从性能提升转移到对新现象的解释和应用上,例如对光流逆转误差的解释、多倍插帧的实现以及对果冻效应的模拟。
Film插帧算法则更侧重于开辟新的研究领域,例如近重复照片插值,并针对这一新应用提出相应的模型设计和损失函数。OpenAI的系列工作,从GPT4到Sora,都展现了前代模型未曾拥有的新现象,例如ChatGPT的对话能力、GPT4的解题能力以及Sora的长视频生成能力等。这些新现象的出现,引发了研究者的广泛关注和讨论。
作者呼吁研究者应更关注新方法带来的新现象,而非仅仅追求SoTA或纠结于模型的本质。因为新的现象才能孕育新的可能性,推动深度学习领域的持续发展。
怜星夜思:
2、文章中提到的“结构重参数化”在RepVGG中取得了成功,大家觉得这种技术在其他类型的深度学习模型中是否也有应用潜力?
3、OpenAI 的一系列工作,例如 Sora,引发了很多讨论,大家觉得这些工作最大的贡献是什么?对未来的深度学习研究有什么启示?
原文内容
ACNet 到 RepVGG 的现象上升
王婆卖瓜 - RIFE 插帧
-
把先前一些模型的误差解释为光流逆转时忽略了物体空间移动,所以我们有更强的动机在轻量化网络中端到端估计中间帧光流
-
对于为什么要做光流蒸馏,先指出输入中间帧信息为“特权”的模型会有高得多的性能
-
多倍插帧,我们发现把目标时间 T 输入进网络是可以实现控制任意时刻插帧的,而且训练之后还可以放入梯度式的时间编码实现场景融合或果冻效应模拟
-
将光流和融合权重先一起预测,可以用来做其它模态的插帧
-
性能上我们也改成强调整体设计带来的多倍插帧场景的效果提升等等
不用刷 SoTA 的 Film 插帧
– 我们调整了一个共享权重的多尺度特征提取器,并提出了一个尺度无关的双向运动估计器,使用常规训练帧来很好地处理小范围和大范围的运动
– 我们采用基于Gram矩阵的损失函数来修复由大场景运动引起的大范围遮挡,从而生成清晰且令人满意的帧
– 我们提出了一个统一、单阶段的架构,以简化训练过程,并消除对额外光流或深度网络的依赖