ICML 2025 接收结果公布:接收率 26.9%,评审争议引关注

ICML 2025 放榜,接收率26.9%。高分论文被拒、低分论文录用引争议,评审过程的公平性受质疑。

原文标题:ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议

原文作者:机器之心

冷月清谈:

ICML 2025 大会共收到 12107 篇投稿,接收率 26.9%,其中少量论文被选为 spotlight poster。文章整理了部分高分接收论文,如关于数学神经发现、蒙特卡罗树扩散、视觉语言模型安全对齐等方面的研究。同时,字节跳动等国内大厂也有论文入选,并在 LLM 优化和长文本处理上有所突破。此外,文章也指出了一些评审争议现象,如高分论文被拒、低分论文被接收、评审意见不完整或敷衍、元评审记录错误等。这些现象引发了对 ICML 评审机制的讨论,值得研究者们关注。

怜星夜思:

1、ICML 评审流程中,是否存在一些固有的缺陷或偏见,导致优秀论文被错误地拒绝?
2、对于大厂背景的论文,ICML 的评审是否会更加严格?是否存在对学术界和工业界研究成果的评价标准不同的情况?
3、如果你是 ICML 组委会成员,你会如何改进评审流程,以减少争议,提高评审的公正性和有效性?

原文内容

机器之心报道

编辑:张倩、+0


第 42 届国际机器学习大会(ICML)将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行。刚刚,ICML 官方向投稿者发送了今年论文接收结果的通知。


数据显示,今年大会共收到 12107 篇投稿,较去年增加了 28%。共有 3260 篇论文被接收,接收率为 26.9%。其中,只有 313 篇论文被选为「spotlight poster」。


在收到邮件的第一时间,不少研究者都晒出了自己被接收的论文。当然,也有研究者感到沮丧或对评审结果有所质疑。在这篇文章中,我们汇总了一些被接收的优秀论文以及有争议的论文,方便大家探讨。


被接收的高分论文


首先,我们检索了一些 spotlight 论文,因为这是 ICML 官方推荐度最高的一批论文,能搜到的论文包括但不限于:


  • Neural Discovery in Mathematics: Do Machines Dream of Colored Planes?(数学中的神经发现:机器会梦见彩色的平面吗?)

  • Monte Carlo Tree Diffusion (MCTD) for System 2 Planning(用于 System 2 规划的蒙特卡罗树扩散(MCTD)方法)

  • Layer-wise Alignment:Examining Safety Alignment Across lmage Encoder Layers in Vision Language Models(逐层对齐:视觉语言模型中图像编码器层间的安全对齐)

  • The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes(试验次数在无限时域一般效用马尔可夫决策过程中的重要性)

  • Implicit Language Models are RNNs: Balancing Parallelization and Expressivity(隐式语言模型即 RNN:平衡并行性与表达能力)

  • ……





此外,我们还发现,一些国内大厂的论文在评审中拿到了高分或 Spotlight,比如字节跳动的两篇论文:


论文 1:MARS: Unleashing the Power of Variance Reduction for Training Large Models(平均得分:4.25)


MARS 是一个用于 LLM 的方差缩减自适应优化器框架,其收敛速率为𝒪(T⁻²/³),优于 AdamW 的𝒪(T⁻¹/²)。该方法的 2.0 版本将在之后发布。


论文 2:ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference(Spotlight)



还有一些论文虽然拿到了高分,但并未被选为 Spotlight,这类论文同样值得关注,比如下面这篇伊利诺伊大学厄巴纳-香槟分校的论文:EMBODIEDBENCH: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents(平均得分:4.5)



  • 链接:https://arxiv.org/pdf/2502.09560


EmbodiedBench 是一个用于评估多模态大语言模型(MLLMs)作为视觉驱动的具身智能体的综合性基准测试平台。它包含 1128 个测试任务,涵盖四个环境,从高级语义任务(如家务)到涉及原子动作的低级任务(如导航和操作)。此外,EmbodiedBench 还设有六个精心策划的子集,用于评估智能体的关键能力,如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。


充满争议的被拒论文


除了被接收的论文,一些被拒的论文同样值得讨论,因为这些论文的价值可能未被充分挖掘。


一个研究者晒出了元评审截图,尽管其论文获得高度评价,却仍被拒绝。



这并非孤例,其他研究者也反映了类似遭遇。 



令人费解的是,一些评分较低的论文反而被接收。



另一位研究者表示,他收到了不完整、无关且敷衍的评审意见。虽然向科学诚信委员会举报并得到确认该评审质量确实低下,但领域主席(AC)依然拒绝了他的论文。



评审过程中的矛盾同样引人关注。


有研究者发现,他的论文实际获得了两个 4 分,但元评审却错误地将其记录为三个 3 分加一个 4 分。同时,元评审声称某位评审人还有疑问,而该评审人在反驳阶段已明确表示其疑虑已解决。 



其他研究者也指出了评审和编辑的粗心。



如果你对自己论文的接收结果也有疑问,欢迎在评论区讨论。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

阴谋论一下,会不会存在某些评审人对大厂有偏见,觉得他们只是在“paper inflating”?毕竟现在很多大厂都在招揽学术界的大牛,然后用大量的计算资源来刷论文。如果是这样,那对真正有价值的大厂研究成果就太不公平了。

想要完全消除评审争议是不可能的,但我们可以通过技术手段来辅助评审。比如,利用 AI 技术对论文进行初步筛选,排除明显不符合要求的论文。或者,利用自然语言处理技术分析评审意见,识别出不完整、无关或敷衍的评审意见。这些技术可以减轻评审人的工作负担,提高评审效率和质量。

首先,我会优化评审人匹配机制,确保每个评审人都有足够的专业知识来评估论文。其次,我会引入更细化的评审标准,明确创新性、贡献、实验有效性等方面的评价指标。此外,我还会加强评审人的培训,提高他们的评审水平和职业道德。最后,我会建立更完善的申诉机制,让作者可以对评审意见提出异议,并得到公正的处理。

这个问题问到了点子上!我觉得评审机制肯定有改进空间。一方面,评审人的专业背景和研究方向可能和论文主题不完全匹配,导致理解上出现偏差。另一方面,评审人也可能存在个人偏见,比如对某些研究方向或机构存在先入为主的看法。

我提个更激进的想法:引入“评审人评审”机制!让作者可以匿名评价评审人的评审质量,并对评审人的评审行为进行打分。如果某个评审人的评分过低,或者被发现存在学术不端行为,就取消其评审资格。这样可以倒逼评审人认真对待评审工作,提高评审质量。

同意楼上的观点,评审人也是人,不可能完全客观。而且 ICML 投稿量这么大,评审时间有限,难免出现疏漏。有些评审可能只是简单扫一眼,然后根据自己的经验打个分,根本没有认真阅读和思考论文的创新点。建议 ICML 引入更严格的评审标准和流程,比如增加交叉评审环节,或者对评审意见进行质量评估。

我觉得学术界和工业界的研究侧重点确实不同。学术界更注重理论创新和方法的普适性,而工业界更注重解决实际问题和提升产品性能。因此,ICML 的评审标准应该兼顾这两方面的价值。对于大厂论文,除了关注其学术创新性,也应该关注其在工业应用上的潜力。

从概率学角度分析,再完美的系统也无法避免误差,高分被拒、低分录用这种现象属于小概率事件,可以理解为评审过程中的“噪音”。但如果这种现象过于频繁,那肯定说明评审机制存在问题。关键是要建立有效的反馈机制,让作者可以对评审意见提出异议,并确保这些异议得到认真对待。

这是一个很有意思的问题!大厂论文自带光环,可能评审人会下意识地提高期待值,从而导致评审更加严格。毕竟,大家会觉得大厂应该做出更有突破性的成果。但另一方面,大厂的资源和数据优势也可能让他们的论文更容易出彩。所以,很难说评审是否真的会特殊对待大厂论文。