合成数据:2025 年的希望与挑战

合成数据技术在2025年备受关注,其解决数据稀缺的潜力与模型崩溃的风险并存。

原文标题:合成数据,能与不能?

原文作者:机器之心

冷月清谈:

合成数据作为解决AI数据稀缺问题的方案,在2024年取得了一些理论和实践上的进展,但仍面临模型崩溃的风险。

Ilya Sutskever、马斯克等人的观点,以及Semianalysis的分析,都表明高质量训练数据日益匮乏,合成数据的重要性日益凸显。然而,模型崩溃现象的存在,使得合成数据的应用受到限制。牛津大学的研究指出,即使少量合成数据也可能引发模型崩溃,这与微软、Meta、OpenAI等机构在其旗舰模型中使用合成数据的做法形成了矛盾。

合成数据具有大规模生成、可定制、保护隐私等优势,但如何规避模型崩溃风险仍是关键挑战。

怜星夜思:

1、如果合成数据导致的模型崩溃问题得到解决,除了文章提到的优势,它还会带来哪些新的可能性?
2、文章提到了多家机构都在使用合成数据训练旗舰模型,它们是如何规避或减轻模型崩溃风险的?
3、除了模型崩溃,合成数据在实际应用中还会面临哪些其他挑战?

原文内容

机器之心PRO · 会员通讯 Week 03

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---


1. 合成数据,能与不能?
合成数据又火了?模型崩溃问题得到改善了吗?哪些团队已经用合成数据训出旗舰模型了?合成数据的理论缺口补上了?用好「带毒」的合成数据有哪些秘方?...
2. 黄仁勋「看中」的14款人形机器人,国产机器人胜算几何?
机器人技术一旦实现通用性意味着什么?最适合通用具身智能的形态会是人形吗?要想迎来通用机器人领域的「GPT」时刻,哪些因素才是核心关键?黄仁勋展示的 14 款人形机器人都是什么「来头」?国产机器人厂商「突飞猛进」,占据近一半?国内外的各家机器人在技术路线上有何差异?在 CES 2025 展会上,还有哪些值得关注的机器人?...
3. AI 时代下,2025 年有哪些关键法律问题?
AI 技术的爆发式增长给传统行业带来了哪些影响?不同地区的 AI 监管政策有何差异?AI 监管政策重点关注哪些风险?企业 AI 业务落地面临哪些合规挑战?AI 驱动下,监管政策的发展趋势如何?...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 14 项,国内方面 10 项,国外方面 5 项。
本期通讯总计 28622 字,可免费试读至 5% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  合成数据,能与不能?
引言:在2024年里,一系列合成数据的理论理解、机理分析和技巧探索工作似乎让这项技术开始兑现潜力,绕开模型崩溃的障碍,有望真正开始解决数据稀缺的问题。
2025 年了,合成数据导致「模型崩溃」的「解药」炼到几成了?
1、合成数据一直是解决人工智能开发中数据稀缺、隐私问题和高成本挑战的一种很有前景的解决方案。在 LLM 竞赛中,高质量语料数据即将耗尽的讨论不时翻新,合成数据又一次成为 AI 领域的热门话题。
① Ilya Sutskever 在 NeurIPS2024 演讲中「训练数据即将枯竭,预训练时代已经结束」的判断又一次将这个话题搬上热点;
② 年初马斯克在 X 的直播对话中「训练数据已经耗尽,唯一的补充方法是使用合成数据」的说法则进一步为该话题添加了热度。[1-1]
③ Semianalysis 的 Dylan Patel 则在在年底的谈话中认为,合成数据已经解锁了一个新的规模轴(New Axis),而这个方向的 Scaling 仍处于非常早期的阶段,因此 AI 改进的速度在未来的 6-12 个月内将会比过去一年更快。[1-2]
2、在大量期待下,合成数据目前的定位仍处于「充满潜力」而非「已是主流」,其原因则在于模型崩溃的风险。
① 「模型崩溃」现象最早由牛津大学的 Shumailov 等人在 2023 年提出,指 AI 模型在训练数据包含合成数据时性能严重下降。
② Shumailov 等在 2024 年 7 月的《Nature》封面论文中进一步指出LLM 生成的数据会污染下一代模型的训练集,导致模型崩溃,使用合成数据无异于投毒。该工作引起了许多争议。彼时,英伟达刚刚发布 Nemotron-4 340B 开源模型,称使用了 98%的合成数据。[1-3]
② Meta、NYU 等高校的研究者在 10 月的《Strong Model Collapse》中证明了即使训练数据中只有很小比例(1%)的合成数据,也可能引发模型崩溃。[1-4]
3、对比 2024 年项间多项工作对合成数据的质疑,微软、Meta、OpenAI 和 Anthropic 等领先机构在近期发布的模型中均声称采用了合成数据来训练旗舰 AI 模型,引起 AI 社区对这项技术的又一次热议。[1-5]
① 在2024年下半年,包括 Llama 3.1、o1、DeepSeekV3 和 Phi-4 等先进的模型在各自的论文/技术报告中均表示采用了合成数据。
用好「带毒」的合成数据有哪些秘方?
1、合成数据的优势涵盖可以大规模生成,可定制,可避开敏感信息,适应多模态学习和可帮助 AI Alignment 等。但这种看似美好的期许下,模型崩溃风险仍是阻止该技术广泛使用的最大障碍。

我觉得如果模型崩溃问题解决了,合成数据可以用于模拟各种极端或罕见情况,比如在自动驾驶领域模拟极端天气或交通事故,这在现实世界中难以获取足够的数据,但对模型训练至关重要。

我觉得一个挑战是如何保证合成数据的质量。即使解决了模型崩溃,如果合成数据本身不够逼真或多样化,训练出来的模型性能也不会好。

合成数据的生成成本也是个问题。虽然比采集真实数据便宜,但如果需要大量的合成数据,成本也不容忽视,尤其是对于一些小公司或研究团队来说。

从科研角度来说,合成数据可以帮助我们更好地理解模型的学习过程,甚至可以用来探索新的模型架构。通过控制合成数据的生成方式,我们可以更精准地研究模型的行为,这对于理论研究非常有价值。

解决了模型崩溃,合成数据或许可以实现真正的个性化AI。想想看,可以用合成数据训练一个完全符合你个人习惯和偏好的AI助手,多酷!

我看到一些研究提到了用“提纯”的方法来处理合成数据,就是去除可能导致模型崩溃的部分,但这好像比较复杂,而且效果也不一定好。估计大公司有更高级的玩法。

还有一个挑战是如何评估合成数据的有效性。目前还没有一个通用的标准来衡量合成数据的质量,这使得选择和使用合成数据变得比较困难。

或许他们用了某种混合训练策略,就是把合成数据和真实数据结合起来用,这样可以既利用合成数据的优势,又降低模型崩溃的风险。不过这其中的比例如何控制,应该是个技术活。

这个问题我也很好奇!文章里没细说,我猜可能用了什么特殊的合成数据生成方法,或者在训练过程中加入了某种机制来检测和抑制模型崩溃。哪位大佬了解内幕的,求科普!