NeurIPS 2025高分论文遭拒引争议:接收率与评审公平性的困境

NeurIPS 2025论文接收引发争议,高分论文因固定接收率和赛道划分过严被拒,学术界担忧其对会议声誉及创新产生负面影响。

原文标题:NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?

原文作者:机器之心

冷月清谈:

NeurIPS 2025会议的Meta Review阶段,多位领域主席(AC)披露,即使是获得审稿人高分评价的论文,也可能因会议严格的接收率限制而被拒稿。据统计,本届NeurIPS投稿量或高达30000篇,为维持20%至25%的既定接收率,会议方在资源和场地有限的背景下,不得不采取这种策略。

这一现象引发了学术界的广泛争议。MiroMind研究科学家Bai Song及加州大学圣塔芭芭拉分校助理教授Xin Eric Wang等多位学者指出,为机械地保持接收率而拒绝优秀工作,将严重损害学术会议的声誉和公平性。他们认为学术声望来源于公平评审和吸引顶尖投稿,而非人为压低接收率。文中也列举了多篇高分论文(如8-7-7-6-5、7-6-6-6)被拒的案例,并指出这种问题也出现在其他头部会议中。

此外,NeurIPS官方还被曝出要求高级领域主席(SAC)审查并拒掉已接收论文,并严格执行“专业对口”原则,即研究赛道(research track)与数据集与基准测试赛道(DB track)必须严格区分。官方指南强调,论文的主要贡献必须与所投赛道明确匹配,否则不予录用。然而,投稿人反映,这一严格的划分标准在论文提交和rebuttal阶段并未明确告知,导致后期措手不及。

这种将接收指标置于学术价值之上的做法,引发了对创新受损的担忧。有学者表示,这可能导致审稿人未来不愿意给出高分,并破坏如“滚动讨论”等旨在提升评审质量的改进机制。部分人甚至建议,不如将NeurIPS拆分成多个按具体研究领域划分的、规模较小的会议,以缓解这一困境。学术界开始反思,在追求论文数量增长的同时,如何确保评审的公平性和学术质量,是一个亟待解决的问题。

怜星夜思:

1、NeurIPS这种为了控制接收率,即使高分论文也拒掉的做法,大家觉得合理吗?长远来看,这对学术圈会有什么影响?
2、文章里提到NeurIPS现在严格要求论文必须‘专业对口’,比如数据集不能投research track。这种做法真的能提升会议质量吗?有没有可能反而限制了一些跨领域创新?
3、面对投稿量暴增、接收率又不能随便提的问题,除了文章里提到的拆分成小会议,大家觉得还有哪些好的解决办法?是不是需要重新思考一下顶级会议的定位了?

原文内容

机器之心报道

编辑:杜伟、+0


要指标还是更多有价值的论文,顶级学术会议似乎也面临着「to be or not to be」的难题。


NeurIPS 2025 将于 2025 年 12 月 2 日到 7 日在美国圣地亚哥举办,并且首次设置了第二个官方分会场墨西哥城。


最近几天,根据国内外社交媒体的众多反馈,本届 NeurIPS 的 Meta Review(元评审,即多位匿名审稿人提交评审意见后由领域主席或高级审稿人撰写总结性评审)已经陆续完成。


出自:MiroMind 研究科学家 Bai Song(小红书)


从更多领域主席(AC)透露的消息中,有一些现象关系到了投稿人论文最终能否被接收。


其中,有领域主席表示,「在 DB(数据集和基准) track,即使得分 4-4-4-5(均分 4.25)也有可能被拒稿。」根据此前的相关数据统计,本届 NeurIPS 的投稿数量或达到史上最多的 30000。


他认为,不要为了接收率固定在 20% 到 25%,而拒掉获得审稿人积极评分并达成共识的论文。并且,他呼吁向程序主席(PC)建议提高接收率。而根据 Senior PC(高级程序委员会成员)的回复,由于场地和资源有限以及投稿量超出了预期,本届会议必须控制接收率


作为对比,NeurIPS 2024 的接收率为 25.8%(主会议)和 25.3%(DB),NeurIPS 2023 的接收率为 26.1(主会议)和 32.6%(DB)。


出自:Jian Wang—Snap Research(小红书)


另一位研究者、加州大学圣塔芭芭拉分校助理教授 Xin Eric Wang 也提到了这一现象,「有些领域主席即使在所有评审意见都是正面的情况下,仅仅是为了控制接收率,依然会拒稿。


他认为这种做法是不对的,并回想起几年前类似的 AAAI 投稿经历:一篇评分为 7-7-7-6 的论文仅仅因为结果报告中写成 0.84 而不是 84% 就被拒掉了。「当学术会议开始为名额游戏而拒绝优秀的工作时,声誉就会下降。学术声望源于公平的评审以及吸引顶尖的投稿,而不是人为地压低接收率。」


图源:https://x.com/xwang_lk/status/1960360698942468362


有人晒出了自己过去两届 NeurIPS 的「悲惨」遭遇,「8-7-7-6-5」和「7-6-6-6」高分均被拒稿。


图源:https://x.com/ayushchopra96/status/1960417136729579841


这样遗憾的结果出现在了其他更多学术会议中,比如陈丹琦等一批知名青年学者组织的新会议 COLM(Conference on Language Modeling,语言建模会议)。


图源:https://x.com/fredsala/status/1960386616393945284


我们进一步发现,国外社区有类似的消息透露,「NeurIPS 官方正向高级领域主席(SAC)施压,要求他们拒掉已经接收的论文,理由是场地限制



网传的官方发给审稿委员会成员的指南显示,官方要求领域主席们严格执行「专业对口」的原则,确保每篇被录用的论文都因其最核心的贡献而被放在了最合适的类别下,避免出现用「数据集的贡献」去填充「技术创新名额」的情况,反之亦然


评论区有投稿人反映,在论文提交和 rebuttal 阶段,官方并未明确告知这一严格的划分标准。这种在评审后期才明确的内部准则,让人感到措手不及。


出自:Li Yu(小红书)


原则上,研究赛道 (research track) 侧重于技术进步,而数据集与基准测试赛道 (DB track) 则聚焦于数据集和基准测试。我们认识到,这种区分并非总是清晰明了。有些论文将技术贡献与新的数据集或基准测试相结合,这使得确定哪个赛道更为合适变得困难。


然而,由于每个赛道都有其各自的侧重点、提交要求和评审流程,因此将一篇论文录用在错误的赛道上是不公平的。

因此,我们要求所有的领域主席 (ACs) 和高级领域主席 (SACs) 在给出录用建议时,仔细评估每篇论文的主要贡献。如果一篇论文的主要贡献明确在于数据集或基准测试,那么它就不应该被研究赛道录用。反之,如果主要贡献明确是技术性的,那么它就不应被数据集与基准测试赛道录用。如果不清楚哪一个赛道最匹配论文的主要贡献,我们请您在给出录用建议前,与程序主席 (program chairs) 或数据集与基准测试赛道主席 (DB chairs) 进行协商。


感谢您为 NeurIPS 2025 会议程序所做的贡献。


针对此次争议,有人表示:「不如将 NeurIPS 拆分成多个按具体研究领域划分的、规模较小的会议。」



当然,对「发文指标」的吐槽也从不缺席。



针对 NeurIPS 2025 出现的这些现象,有学者表示真的希望不要这样,如此一来会导致审稿人在未来的互动评审过程中不愿意再提高评分。


此外,本届 NeurIPS 引入的「rolling discussion」(滚动讨论,即在讨论阶段允许审稿人与作者之间实时地展开交流与澄清)机制是一项显著的改进,希望不要把它破坏掉。


图源:https://x.com/dyamins/status/1960769408147841073


正如下面这位老哥所言,「这样的体系存在着问题,当你把接收指标置于学术价值之上时,真正的创新就会受到损害。」


图源:https://x.com/VibeCodeTeddy/status/1960619413050417671


对于 NeurIPS 2025 审稿问题,你有什么想讨论的?欢迎留言。


参考链接:

https://www.reddit.com/r/MachineLearning/comments/1n4bebi/d_neurips_is_pushing_to_sacs_to_reject_already/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

感觉就像是去饭店吃饭,结果服务员非说你点的菜不能上主食的盘子里,只能上配菜盘子。你说菜好吃是王道,还是盘子对口是王道?NeurIPS这是不是有点‘食古不化’了?机器学习发展这么快,很多创新本身就是模糊边界的。这么一搞,是不是以后得先给自己的论文做个‘DNA鉴定’,看它是‘纯种研究’还是‘带数据集基因’的?我感觉会议质量可能会提升,但同时也会让一些本来很有趣、很有潜力的‘混血’工作无所适从。

为什么非得是一个线下的会议呢?现在线上会议技术这么成熟,是不是可以考虑线上线下结合,甚至搞‘无限容量’的线上展示?比如,高分论文可以在线上平台无限多地发布,线下只邀请特别顶尖的论文做口头报告,这样既能保证高质量产出,又不会受场地限制。再或者,干脆给那些‘卡线’的高分论文发一个‘NeurIPS推荐’的电子证书,也算是一种认可,能让大家心理平衡一点。这年头,创新不能死磕在一颗树上嘛!

合理?你说的是被拒稿后‘心如死灰’的合理吗?哈哈。我看这就是‘人多粥少’的现实写照呗。会议方也愁啊,场地有限,人手有限,总不能让所有人都来开会吧。但搞成这样,以后咱们投论文是不是得先去庙里求个签,看运势了?学术圈内卷,从投稿那一刻就开始了,太难了!影响嘛,就是大家以后写论文得更‘卷’,不然连门槛都摸不到。

拆分成小会议确实是一个思路,但可能会稀释顶级会议的品牌效应。我认为可以尝试引入多级评审机制:例如,初筛阶段更注重创新性和潜在影响力,而不仅仅是分数;或者引入一个‘快速通道’(fast track)给那些得到一致高分且有突破性的工作。另外,可以考虑将部分纯粹的数据集或基准论文引导向专门的期刊或工作坊,减轻主会议的压力。对于顶级会议的定位,确实需要反思。它们是否应该更侧重于展示最前沿、最具颠覆性的成果,而非作为一个普遍的发布平台?这可能意味着要提高审稿人的权重,减少机械性的接收率限制。

我觉得问题的根源还是在资源跟不上投稿量的增长。如果审稿人负担太重,或者没有足够的领域主席来做高质量的Meta Review,那无论怎么改规则,效果都会打折扣。所以,除了拆分会议,是不是可以考虑增加审稿人福利,吸引更多高水平学者参与?或者,引入AI辅助审稿,提高效率?至于顶级会议的定位,我个人觉得它应该回归到‘精品’路线,成为真正的风向标,而不是‘大而全’的论文集散地。否则,就像一个每年都在扩招的常春藤大学,名气再大,也难免有质量缩水的风险。

关于‘专业对口’,我觉得有两面性。一方面,明确赛道划分确实能在理论上提高评审的专业性和深度,让各自领域的专家审阅更对口的文章,减少外行审内行的情况,从而提升审稿质量。但另一方面,AI和机器学习发展到现在,交叉研究和跨领域创新已经是常态。很多数据集的提出本身就蕴含着深刻的技术洞察和创新,或者其对下游任务有重大指导意义。如果生硬地将它们分开,很可能会扼杀那些既有数据贡献又有技术创新的工作,反而限制了领域的前沿发展,让会议错失一些原创性的火花。

这个问题确实让人头疼!我理解会议希望提升审稿质量,但强制‘专业对口’可能会让很多介于研究和数据集之间的论文无所适从。比如我之前有个工作,既提出了一个新模型,又用一个新构建的数据集验证了它的优越性,那要怎么投?这规则一出,是不是以后大家都不敢做这种跨界或者综合性的工作了,生怕投错了赛道直接被拒?感觉反而限制了研究的多样性,让大家更趋向于‘安全’的投稿方向。

个人觉得,为了维持一个所谓的“体面”接收率而牺牲真正有价值的学术成果,是非常不合理的。这不仅仅是对作者努力的不尊重,更是对学术创新的一种扼杀。长远来看,这种做法会严重损害顶级会议的公信力,导致审稿人丧失积极性,因为他们知道即便给了高分,论文也可能被拒。最终,可能会让真正优秀的工作转向新的平台,或者干脆不再投稿,这对整个领域的发展弊大于利。

站在会议组织的立场,我能理解他们的难处。投稿量爆炸式增长是事实,场地和资源瓶颈也确实存在。如果接收率太高,会议规模会失控,质量也可能因为审稿压力大而下降。所以,他们可能是在质量与可控性之间做平衡。但话说回来,操作方式确实可以更透明、更人性化。比如,在投稿前就明确告知这种严格的筛选标准,而不是在后期才‘突袭’。这对学术圈的影响,我觉得是喜忧参半:优胜劣汰会更激烈,但如果标准不透明,也会带来不公平感和挫败感。