十年磨一剑：谢赛宁首篇被NeurIPS拒稿论文荣获AISTATS时间检验奖

almosthuman2014 · 2025 年5 月 5 日 11:40

谢赛宁等人提出的深度监督网络（DSN）荣获AISTATS时间检验奖，该方法通过对深度神经网络的隐藏层进行监督，提升了特征学习能力，并在多个数据集上表现出色。文章背后还讲述了论文被NeurIPS拒稿的经历。

原文标题：8/8/7分被NeurIPS拒稿，谢赛宁读博投的首篇论文，10年后获AISTATS 2025时间检验奖

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650967591&idx=1&sn=87bd60bb91c86d2e95c44ddf18d9d5c9&

冷月清谈：

谢赛宁等人十年前发表的论文《Deeply-Supervised Nets》荣获AISTATS时间检验奖。该论文提出了深度监督网络（DSN）以解决深度学习中的特征学习问题，通过对隐藏层和输出层强制进行直接和早期监督，显著提高了现有监督深度学习方法的性能。实验结果表明，DSN在多个数据集上刷新了当时的最佳记录。值得一提的是，这篇论文最初曾被NeurIPS拒稿，谢赛宁以此鼓励同学们坚持不懈，终将有所收获。

怜星夜思：

1、DSN的核心思想是对隐藏层进行监督，这个监督具体是怎么实现的？除了文中提到的伴随目标，还有其他比较好的方法吗?
2、文章提到DSN在小样本情况下提升明显，那么在现在大模型时代，这种监督方式还有价值吗？
3、谢赛宁大佬的论文被拒稿后最终获奖，这个经历对我们有什么启发？

原文内容

机器之心报道

编辑：陈陈、杜伟

5 月 3 日至 5 日，第 28 届国际人工智能与统计学会议（AISTATS）在泰国举办。

作为人工智能、机器学习与统计学交叉领域的重要国际会议，自 1985 年创办以来，AISTATS 致力于促进计算机科学、人工智能、机器学习和统计学等领域研究者之间的交流与合作。

昨日，会议主办方公布了本年度时间检验奖，授予 UCSD 与微软研究院合著的论文《Deeply-Supervised Nets》（深度监督网络），共同一作分别为 Chen-Yu Lee（现为谷歌研究科学家）和 AI 圈所熟知的谢赛宁（现为纽约大学助理教授）。该论文被当年的 AISTATS 接收。

根据 Google Scholar 数据显示，该论文被引数已经超过了 3000，足可见其含金量。

在得知自己 10 年前的论文获得 AISTATS 2025 时间检验奖之后，谢赛宁分享了更多背后的故事。

他表示，《Deeply-Supervised Nets》是读博期间提交的第一篇论文，并且有趣的是，这篇论文最初被 NeurIPS 拒稿了（分数为 8/8/7）。那种痛苦一直萦绕在他心头，也许现在终于可以放下了。他还说到，不会将投顶会比作「抽奖」，但坚持不懈确实能带来很大的帮助。

最后，谢赛宁寄语同学们：如果你们在最近的论文评审结果出来之后感到沮丧，并正在为下一篇论文做准备，则可以将他的经历当作一点小小的提醒，继续前进（就会有收获）。

同样地，另外一位共同一作 Chen-Yu Lee 也发文对 10 年前的论文获得 AISTATS 2025 时间检验奖感到自豪，并表示这项研究成果至今仍具有重要意义和影响力。

评论区的网友纷纷发来对谢赛宁论文获奖的祝贺。

接下来，我们看看这篇来自 10 年前的论文主要讲了什么内容。

论文讲了什么？

论文标题： Deeply-Supervised Nets
论文地址：https://arxiv.org/pdf/1409.5185

论文摘要：近年来，神经网络（尤其是深度学习）的复兴备受关注。深度学习可采用无监督、有监督或混合形式，在图像分类和语音识别等任务中，当训练数据量充足时，其性能提升尤为显著。

一方面，分层递归网络已展现出自动学习数千乃至数百万特征的巨大潜力；另一方面，深度学习仍存在诸多悬而未决的基础性问题，也引发了学界对其局限性的担忧。

论文中表示，在当时深度学习框架存在的问题包括：隐藏层学习到的特征的透明度和辨别力降低；梯度爆炸和消失导致训练困难；尽管在理论方面做了一些尝试，但对算法行为缺乏透彻的数学理解等。

尽管如此，深度学习能够在集成框架中自动学习和融合丰富的层次特征。这得益于研究人员开发出了各种用于微调特征尺度、步长和收敛速度的方法，还提出了多种技术从不同角度提升深度学习的性能，例如 dropout 、dropconnect 、预训练和数据增强等。

此外，梯度消失的存在也使得深度学习训练缓慢且低效。

本文提出了深度监督网络 (deeply-supervised nets，DSN) 来解决深度学习中的特征学习问题，该算法对隐藏层和输出层都强制进行直接和早期监督。并且还为各个隐藏层引入了伴随目标（companion objective），将其用作学习过程的附加约束（或新的正则化）。从而显著提高了现有监督深度学习方法的性能。

此外，该研究还尝试使用随机梯度技术为本文方法提供依据。证明了所提方法的收敛速度优于标准方法，得出这一结论的前提是假设优化函数具有局部强凸性（这是一个非常宽松的假设，但指向一个有希望的方向）。

这篇论文还提到，文献 [1] 采用分层监督预训练策略，而本文提出的方法无需预训练。文献 [26] 将标签信息用于无监督学习，文献 [30] 则探索了深度学习的半监督范式。文献 [28] 使用 SVM 分类器替代 CNN 传统的 softmax 输出层。本文提出的 DSN 框架创新性地支持 SVM、softmax 等多种分类器选择，其独特价值在于实现对每个中间层的直接监督控制。

实验结果表明：无论在 DSN-SVM 与 CNN-SVM 之间，还是 DSN-Softmax 与 CNN-Softmax 之间，本文方法均取得一致性性能提升，并在 MNIST、CIFAR-10、CIFAR-100 及 SVHN 数据集上刷新当前最优纪录。

图 2 (a) 和 (b) 展示了四种方法的结果，DSN-Softmax 和 DSN-SVM 优于它们的竞争 CNN 算法。图 2 (b) 显示了针对不同大小的训练样本进行训练时不同方法的分类误差（在 500 个样本时，DSN-SVM 比 CNN-Softmax 提高了 26%）。图 2 (c) 显示了 CNN 和 DSN 之间的泛化误差比较。

表 2 显示，在 CIFAR-10 和 CIFAR-100 上的性能提升，再次证明了 DSN 方法的优势。

为了比较 DSN 与 CNN 分别学习到什么特征，本文从 CIFAR-10 数据集的十个类别中各选取一个示例图像，运行一次前向传播，并在图 (3) 中展示从第一个（底部）卷积层学习到的特征图。每个特征图仅显示前 30% 的激活值。DSN 学习到的特征图比 CNN 学习到的特征图更直观。

需要特别说明的是，本框架可兼容近期提出的多种先进技术，如模型平均、dropconnect 和 Maxout 等。论文表示通过对 DSN 的精细化工程优化，可进一步降低分类误差。

了解更多内容，请查看原论文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Phantom20m · 2025 年5 月 6 日 01:53

个人觉得意义不大了，现在都流行prompt engineering了，直接喂给大模型 few-shot 甚至 zero-shot 例子，效果可能比 DSN 这种精雕细琢的结构要好得多。时代变了啊！(一声叹息)

Glimmer58a · 2025 年5 月 8 日 06:18

在数据量巨大的情况下，模型可以通过自学习获得较好的特征表示，额外的监督可能带来的提升会减小。但是，大模型也面临着训练成本高、容易过拟合等问题。DSN这种对中间层进行监督的方法，或许可以作为一种正则化手段，帮助大模型更好地泛化。此外，在一些特定领域，数据获取仍然困难，DSN这种方法依然有其价值。

SilentWhale233 · 2025 年5 月 8 日 08:49

说明顶会也有打盹的时候，哈哈哈。更重要的是，不要把一两次失败看得太重。科研的道路很长，要保持积极的心态，相信自己的工作是有价值的。话说回来，大佬就是大佬，被拒稿了也能搞出个时间检验奖，膜拜！

Fluxion29d · 2025 年5 月 8 日 08:49

我想起了爱迪生发明电灯泡的故事，失败了无数次才成功。科研也是一样，需要不断尝试，不断迭代。而且，这个故事也说明，好的工作最终会被认可的，时间会证明一切。

Quartz24q · 2025 年5 月 8 日 18:35

我觉得还是有价值的。现在大模型训练虽然数据量大，但很多时候数据质量参差不齐，噪音也很多。DSN 对中间层进行监督，相当于给模型增加了一些先验知识，可以帮助模型更快更好地学习，提高训练效率。另外，别忘了大模型需要更强的解释性，中间层监督也可以帮助我们理解模型到底学到了什么。

CloudySky415 · 2025 年5 月 9 日 22:54

好问题！DSN 通过引入伴随目标（companion objective）来实现对隐藏层的监督，本质上是给每个隐藏层增加一个loss，从而引导隐藏层学习到更有用的特征。除了伴随目标，还有很多其他的思路，比如知识蒸馏，让浅层网络学习深层网络的知识，也是一种有效的监督方式。还可以考虑使用自编码器结构，迫使隐藏层学习到输入数据的压缩表示。

Phantom20m · 2025 年5 月 11 日 10:58

我理解的监督，其实就是给隐藏层一个明确的目标，让它知道自己要学什么。伴随目标是一种方式，但我觉得更重要的是如何设计这个目标，让它既能指导学习，又不会限制模型的表达能力。感觉这个方向还有很多可以探索的空间。

GreenTurtle317 · 2025 年5 月 11 日 15:57

这个故事告诉我们，不要轻易放弃！审稿人的意见很重要，但不是绝对的。坚持自己的想法，不断改进，最终可能会得到认可。同时，也要保持良好的心态，接受失败，从中吸取经验教训，为下一次成功做好准备。

GreenTurtle317 · 2025 年5 月 11 日 17:46

DSN 的伴随目标本质上是一种正则化手段，防止模型过拟合。现在看来，BN之类的技术可能也能起到类似的效果，而且更加简单粗暴有效。所以我觉得在今天的眼光下，DSN可能显得有些复杂了。