ICLR 2025 论文分享会北京站全日程公布:聚焦AI前沿,共话智能未来

机器之心4月20日北京举办ICLR 2025论文分享会,聚焦AI训练推理、多模态、Agent等前沿话题,大咖云集,共话智能未来。

原文标题:全日程揭晓!ICLR 2025论文分享会我们北京见

原文作者:机器之心

冷月清谈:

机器之心将于4月20日在北京举办 ICLR 2025 论文分享会,旨在帮助从业者了解 AI 社区的最新创新成果和发展趋势。本次分享会将围绕训练推理、多模态、Agent 等热门主题,邀请顶级专家和论文作者与参会者进行交流。会议包含 Keynote、论文分享、圆桌对话、Poster 交流等环节。Keynote 演讲嘉宾包括清华大学的陈键飞副教授和中国人民大学的李崇轩副教授,他们将分别分享关于高效训练推理和语言模型新范式的最新研究成果。此外,活动还设置了论文 Poster 环节,并提供线上直播。本次活动由黄大年茶思屋科技网站、腾讯青云计划、真格基金、博世集团联合支持。

怜星夜思:

1、从OpenAI的o1到DeepSeek的R1,再到本次ICLR 2025分享会关注的Agent,你认为AI推理模型的未来发展方向是什么?会给我们的生活带来哪些颠覆性的改变?
2、Keynote中提到的量化稀疏技术,如何在保证精度的前提下,最大限度地降低大模型的计算成本?除了量化稀疏,还有哪些潜在的优化方向?
3、李崇轩副教授提出的LLaDA模型挑战了自回归范式,你认为非自回归模型在生成式AI领域有哪些优势和劣势?未来会成为主流吗?

原文内容


从 OpenAI o1 到 DeepSeek R1,推理模型进入到了全新的发展阶段,展现出来的「慢思考、强推理」能力正在加速从语言智能到认知智能的进程,并构筑起未来 AGI 的重要基石。同时,学界对大语言模型范式的探索仍在继续,扩散模型不断向主流的自回归架构发起挑战。


当然,在 2025 智能体元年,大语言模型(LLM)驱动的智能体借助手机等移动终端的落地,深刻改变了人机交互范式。多模态大模型的竞争也趋于白热化,提升跨模态理解与生成能力的同时注重低成本和低门槛应用。


为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 4 月 20 日在北京举办「ICLR 2025 论文分享会」,围绕着训练推理、多模态、Agent 等热门主题邀请顶级专家、论文作者与现场参会观众共同交流。


作为机器学习和深度学习领域的顶级会议,ICLR 具有极高的含金量, 每年都会吸引大量研究机构和高校参会。今年,ICLR 2025 共接收 11,565 份投稿,录用率为 32.08%。


作为一场为国内 AI 人才打造的盛会,本次论文分享会设置了 Keynote、论文分享、圆桌对话、Poster 交流等丰富环节。今天,论文分享会的全日程、Keynote 分享嘉宾及演讲主题正式公布,感兴趣的读者可以继续扫描文中二维码报名



Keynote 嘉宾及演讲主题


上午 Keynote:陈键飞 基于量化稀疏的高效训练推理:理论及算法



分享人介绍:陈键飞,清华大学计算机系准聘副教授。2010-2019 年获清华大学学士和博士学位。从事高效机器学习研究,谷歌学术引用 5000 余次。担任 IEEE TPAMI 的编委,担任 ICLR 等会议领域主席。获得 CCF 青年人才发展计划、清华大学学术新人奖等。


分享摘要:大模型所需计算成本高昂,而低精度、稀疏等高效训练推理方法均在原有计算基础上引入了近似,可能会引起精度损失。本报告将介绍近似梯度下降理论,该理论可以为高效的近似训练方法的收敛性、收敛速度提供理论保证。基于该理论,将分别介绍通过量化和稀疏两条技术路线设计的前馈神经网络计算加速、注意力计算加速、激活压缩、优化器压缩、通信压缩等高效训练推理算法。将从机器学习的角度出发,介绍高效训练的过程中遇到的训练不稳定等问题及克服方法。


下午 Keynote:李崇轩 LLaDA:语言模型新范式



分享人介绍:李崇轩,中国人民大学高瓴人工智能学院准聘副教授、博士生导师,2010-2019 年获清华大学学士和博士学位。主要研究机器学习、深度生成模型,代表性工作部署于 DALL・E 2、Stable Diffusion、Vidu 等生成式大模型。获国际会议 ICLR 杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文等,主持国家自然基金重大研究计划培育项目、面上项目等。担任 IEEE TPAMI 编委、软件学报编委和 ICLR、NeurIPS 等国际会议的领域主席。


分享摘要:本次报告聚焦一个问题:自回归是否是通向当前乃至更高水平的生成式智能的唯一范式?本次报告首先从统一概率建模的视角总结当前基础生成模型的发展,并从这个视角出发指出大语言模型的性质(如可扩展性、指令追随、情景学习、对话、无损压缩)主要来自于生成式准则,而非自回归建模独有。基于这些洞察,本次报告基于掩码的扩散语言模型的技术路线,包括基础理论和扩展定律。最终,基于前期成果,训练 8B 扩散大语言模型 LLaDA(Large Language Diffusion with mAsking)。在 20 多个语言、代码、数学等评测集上,LLaDA 8B 全面超过 LLaMA 2,对标 LLaMA 3。并且 LLaDA 通过非自回归的方式,展示了令人惊讶的可扩展性和多轮对话能力。这些结果不仅挑战了自回归的地位,更加深了我们对生成式人工智能的理解。


Poster


在本次论文分享会中,将会有一批论文作者进行论文分享与 Poster 展示,感兴趣的读者可以通过下图了解具体信息:



此次论文分享会也将在机器之心视频号以及黄大年茶思屋科技网站两个平台进行直播,欢迎大家关注、预约。




合作伙伴介绍


黄大年茶思屋科技网站


黄大年茶思屋科技网站是致力于推动科学与技术交流的开放平台。我们汇聚全球科学家、研究人员和技术专家,共同探讨最前沿的学术话题,分享最新的科研成果,激发创新思维的火花。在这里,您可以看到学术热点、精选论文、学术峰会、技术难题、专利、开源和科技赛事等内容。茶思屋科技网站,汇聚全球科研智慧,推动科技创新,让科技百花园更加繁荣。


网址:https://www.chaspark.com


腾讯青云计划


腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工作机会、解锁前瞻性技术课题培养中国未来的科技人才。


今年腾讯将继续深度参与多场全球顶级学术会议,并组织群星未来之夜的系列活动。


加入青云计划,不负少年意气!


青云官网:https://join.qq.com/qingyun.html


真格基金


真格基金创立于 2011 年,是国内最早的天使投资机构之一。自创立伊始,真格基金一直积极寻找最优秀的创业团队和引领时代的投资机会,从早期陪伴了小红书、Nuro、Momenta、依图科技、出门问问、晶泰科技、星竞威武、XCharge、地平线、云天励飞、禾赛科技、亿航智能、格灵深瞳、水滴、逸仙电商等公司一路成长,并连续 9 年获评清科「中国早期投资机构 30 强」TOP3。


网址:https://www.zhenfund.com/


博世集团


博世集团是全球领先的技术和服务供应商,博世在智能出行,工业技术,能源与建筑技术,消费品等领域持续深耕,助力全球社会的可持续发展。


在加速变革的时代,博世始终坚持 “科技成就生活之美的理念”, 以创新为驱动,用信息与决心坚定向前。


网址:https://www.bosch.com.cn/careers/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从工程角度来说,量化和稀疏是trade-off。更激进的量化可能导致精度显著下降,而过度的稀疏化会使得硬件利用率降低。因此,需要在精度、计算效率和硬件支持之间找到平衡点。此外,动态稀疏化也是一个值得探索的方向,即根据输入动态调整模型的结构。

从学术角度看,未来的发展方向必然是结合符号主义和连接主义的优势,构建更加鲁棒和可解释的混合模型。这需要我们在知识表示、推理算法和神经网络架构等方面取得突破。同时,需要关注模型的可信赖性,确保其决策过程是透明、公正和符合伦理的。

想起之前看过一篇paper,提出用神经架构搜索(NAS)来自动寻找最优的量化和稀疏策略,效果好像还不错。感觉这方面还有很大的潜力可以挖掘,毕竟人工设计的策略可能并不是最优的。让AI自己来优化AI,想想就很有意思。

Agree!感觉未来的AI推理模型会更注重“常识”和“逻辑”,不仅仅是记忆和匹配。想象一下,AI能像福尔摩斯一样推理案情,或者像医生一样诊断病情,想想就刺激。不过,我更期待的是AI能解放我们的双手,让我们有更多时间去享受生活,而不是被各种琐事缠身。

我觉得这取决于任务类型。对于需要高度连贯性和流畅性的文本生成任务,自回归模型可能更胜一筹。但对于图像生成、语音合成等任务,非自回归模型的并行性可能更具优势。未来可能会出现混合模型,结合两者的优点。

量化稀疏的核心思想是用更少的比特表示权重和激活,并减少不必要的计算。关键在于如何在压缩模型的同时,保留重要的信息。感觉除了量化稀疏,模型剪枝、知识蒸馏也是不错的方向。甚至可以从硬件层面入手,设计更高效的AI芯片。

我觉得AI推理模型会朝着更通用、更智能的方向发展。现在这些模型更多还是在特定领域内表现出色,未来可能出现能像人一样理解和解决各种问题的通用模型。生活方面,可能从自动驾驶到个性化医疗,再到更智能的家居,各个领域都会被彻底改变。当然,伦理问题也需要重视,比如隐私保护和AI对人类工作的替代。

LLaDA 的出现确实让人眼前一亮。如果非自回归模型能解决好生成质量的问题,并且在可扩展性上展现出优势,那么挑战自回归范式并非不可能。关键在于找到合适的训练方法和模型架构,充分利用非自回归模型的潜力。

非自回归模型最大的优势就是生成速度快,可以并行生成所有token。劣势可能在于难以捕捉长距离依赖关系,生成质量不如自回归模型。我觉得短期内自回归模型仍是主流,但随着技术的进步,非自回归模型肯定会越来越重要,特别是在对延迟敏感的场景下。