斯坦福AI Index 2025发布:中国DeepSeek引人注目,AI发展趋势全览

斯坦福AI Index 2025报告发布,美国AI模型数量领先,中国模型质量追赶迅速,DeepSeek备受关注。报告聚焦AI成本、碳足迹及政策影响。

原文标题:斯坦福2025 AI Index报告来了:DeepSeek在全文中被提到45次

原文作者:机器之心

冷月清谈:

斯坦福大学发布《2025 AI Index》报告,全面梳理了人工智能领域的最新发展。报告显示,美国在AI模型发布数量上遥遥领先,但中国模型的质量正在迅速赶上。DeepSeek作为中国公司,在报告中被重点提及。报告还关注了AI训练成本、碳足迹、模型性能差距、基准测试饱和、数据限制等问题。此外,报告还探讨了企业对AI的投资回报、AI在科学和医学领域的应用、AI政策的演变以及公众对AI的态度。总体而言,报告对AI领域的现状进行了细致的分析,并对未来的发展趋势进行了展望。

怜星夜思:

1、报告中提到AI模型在基准测试中出现“饱和”现象,导致测试失去区分价值。除了不断设计新的基准测试外,还有什么其他更根本的解决思路吗?
2、报告提到DeepSeek用远低于其他公司(例如Gemini)的成本训练出了R1模型,你怎么看待这件事?这代表AI领域会出现“性价比”革命吗?
3、报告显示,公众对AI取代自己工作的担忧程度并不高。你认为这种乐观态度是合理的吗?在什么情况下,这种乐观可能会被打破?

原文内容

机器之心报道

编辑:蛋酱、+0


刚刚,斯坦福大学正式发布了《2025 AI Index》报告。


在过去的一段时间里,人工智能领域经历了一场蓬勃的发展,但与此同时,也有人说「人工智能是一个泡沫」。其他的讨论话题包括但不限于:人工智能的现有技术和架构将不断取得突破;人工智能走在一条不可持续的道路上;人工智能将取代你的工作;人工智能最擅长的就是把你的家庭照片变成吉卜力工作室风格的动画图像……


每一年的斯坦福 AI Index 报告都会对领域的发展进行系统的梳理,今年也是如此。《2025 AI Index》报告总共 400 多页,涵盖了研发、技术性能、负责任的人工智能、经济影响、科学和医学、政策、教育和公众舆论等主题的图表和数据。


报告地址:https://hai.stanford.edu/ai-index/2025-ai-index-report


目录如下:


除了谷歌、OpenAI 之外,中国公司 DeepSeek 也成为报告关注的焦点,在 PDF 全文中被提到了 45 次。


关于今年 AI Index 报告的核心内容,我们通过 12 张图片来了解:


美国公司的遥遥领先


虽然衡量国家在人工智能竞赛中「领先」的方式多种多样(如期刊文章发表或引用数量、专利授权等),但一个直观的评估指标是观察哪些国家发布了具有影响力的模型。研究机构 Epoch AI 拥有一个从 1950 年至今的重要人工智能模型数据库,AI Index 从中提取了相关数据进行分析。


数据显示,去年美国发布了 40 个知名模型,中国发布了 15 个,欧洲仅有 3 个(均来自法国)。另有数据表明,2024 年发布的这些模型几乎全部来自产业界,而非学术界或政府部门。关于 2023 年至 2024 年知名模型发布数量减少的现象,AI Index 认为可能是由于技术复杂度提高和训练成本持续攀升所致。


说到训练成本……


在这方面,AI Index 缺乏精确数据,因为许多领先的人工智能公司已停止公开其训练过程信息。斯坦福研究人员与 Epoch AI 合作,基于训练时长、硬件类型和数量等详细信息,估算了部分模型的成本。在可评估的模型中,最昂贵的是谷歌的 Gemini 1.0 Ultra,训练成本约达 1.92 亿美元。训练成本的全面上涨与报告中的其他发现相符:模型在参数数量、训练时间和训练数据量等方面持续规模化扩张。


值得注意的是,DeepSeek 并未包含在这一分析中。这家公司在 2025 年 1 月声称仅用 600 万美元训练出了 DeepSeek-R1,引发金融市场震动,虽然部分行业专家对此说法持怀疑态度。


AI Index 指导委员会联合主任 Yolanda Gil 在接受 IEEE Spectrum 采访时表示,她认为 DeepSeek「非常令人印象深刻」,并指出计算机科学历史上充满了早期低效技术被更优雅解决方案取代的案例。她补充道:「我不是唯一一个相信某个时点会出现更高效版本大语言模型的人。我们只是不知道谁会构建它以及如何构建。」


使用人工智能的成本正在下降


尽管大多数 AI 模型的训练成本持续攀升,但报告中强调了几个积极趋势:硬件成本降低、硬件性能提升及能源效率提高。


这使得推理成本(即查询已训练模型的费用)正在急剧下降。这张使用对数比例的图表展示了 AI 性能每美元的发展趋势。报告指出,蓝线表明每百万 tokens 的成本从 20 美元降至 0.07 美元;粉线则显示在不到一年时间内,成本从 15 美元降至 0.12 美元。


人工智能的显著碳足迹


虽然能源效率提高是一个积极的趋势,但存在一个不容忽视的问题:尽管效率有所提升,整体能耗仍在增长,这意味着处于人工智能热潮中心的数据中心留下了巨大的碳足迹。AI Index 基于训练硬件、云服务提供商和地理位置等因素,估算了特定 AI 模型的碳排放,发现前沿人工智能模型的训练碳排放量呈稳步增长趋势 —— 其中 DeepSeek 模型是个例外。


数据显示,最大的排放源是 Meta 的 Llama 3.1 模型,估计产生了 8930 吨二氧化碳排放,相当于约 496 个美国人一年的生活碳排放量。这一显著的环境影响解释了为何人工智能公司正积极采用核能作为可靠的零碳能源来源。


人工智能模型性能差距持续缩小


美国在已发布的知名模型数量上仍然保持领先地位,但中国模型在质量方面正在迅速赶上。数据显示,在聊天机器人基准测试上的性能差距正在不断缩小。2024 年 1 月,顶尖美国模型的表现比最优中国模型高出 9.26%;到 2025 年 2 月,这一差距已缩小至仅 1.70%。报告在推理、数学和编程等其他基准测试中也发现了类似趋势。


人类最后的考试


今年的报告指出了一个不可忽视的事实:用于评估人工智能系统能力的众多基准测试已经「饱和」—— 人工智能系统在这些测试上获得的分数如此之高,以至于它们不再具有区分价值。这种现象已在多个领域出现:通用知识、图像推理、数学、编程等。


Gil 表示,她惊讶地目睹一个又一个基准测试逐渐失去参考意义。她指出:「我一直认为性能会趋于平稳,会达到一个需要新技术或根本不同架构才能继续取得进展的临界点。但事实并非如此。」


面对这种局面,执着的研究人员不断设计新的基准测试,以期挑战人工智能系统。其中一项是「人类的最后考试」,它由来自全球 500 个机构的专业领域专家贡献的极具挑战性问题组成。到目前为止,即使对最顶尖的人工智能系统而言,这项测试仍然难以攻克:OpenAI 的推理模型 o1 目前以 8.8% 的正确答案率位居榜首。业界正密切关注这种局面能持续多久。


公共数据面临的威胁


当今生成式 AI 系统通过训练海量从互联网抓取的数据获得智能,这导致了一个经常被提及的观点:「数据是 AI 经济的新石油」。随着人工智能公司不断挑战可输入模型的数据量极限,业界开始担忧「数据峰值」问题,以及何时会耗尽这种关键资源。一个问题是,越来越多的网站正在限制机器人爬取并抓取其数据(可能是因为担忧人工智能公司从其数据中获利,同时破坏其商业模式)。网站通过机器可读的 robots.txt 文件声明这些限制。


数据显示,顶级网络域名中 48% 的数据现已被完全限制访问。然而,Gil 指出,人工智能领域可能会出现新方法,终结对庞大数据集的依赖。她认为:「预计在某些时候,数据量将不再如此关键。」


企业资金持续涌入人工智能领域


过去五年,企业界已为人工智能投资敞开了资金闸门。虽然 2024 年的全球总体投资未能达到 2021 年的疯狂高峰,但值得注意的是,私人投资规模达到了前所未有的水平。在 2024 年 1500 亿美元的私人投资中,相关指数的另一项数据表明,约 330 亿美元流向了生成式 AI 领域。


企业等待人工智能投资的巨大回报


理论上,企业投资人工智能是因为期望获得可观的投资回报。在这个话题上,人们常以激昂语气讨论人工智能的变革性本质和前所未有的生产力提升。然而,企业尚未见到能带来显著成本节省或实质性新收益的转变。


麦肯锡调查数据显示,在报告成本降低的企业中,大多数节省幅度不足 10%;在因人工智能获得收入增长的企业中,大多数报告的增长幅度不到 5%。巨大的回报可能仍在路上,从投资数据来看,众多企业正在押注于此,但目前尚未实现。


AI 医生或将很快接诊


科学与医疗领域的人工智能应用是人工智能浪潮中的一个重要分支。报告列举了多个新发布的基础模型,这些模型旨在协助材料科学、天气预报和量子计算等领域的研究人员。众多公司正尝试将人工智能的预测和生成能力转化为盈利性药物研发。OpenAI 的 o1 推理模型最近在医学执照考试问题集 MedQA 的基准测试中取得了 96% 的得分。


然而,这似乎仍是一个潜力巨大但尚未转化为显著实际影响的领域 —— 部分原因可能是人类尚未完全掌握如何有效使用这项技术。2024 年的一项研究测试了医生在使用 GPT-4 作为常规资源补充时是否能做出更准确的诊断。结果表明,这既未提高诊断准确性,也未加快诊断速度。值得注意的是,单独使用的 GPT-4 表现却优于人机团队和单独的人类医生。


美国的人工智能政策行动转向州级层面


这张图表显示,美国国会虽有大量关于人工智能的讨论,但实际行动寥寥无几。报告指出,美国的政策制定已转移至州级层面,2024 年共有 131 项法案在各州获得通过。其中 56 项与深度伪造(deepfake)相关,禁止在选举中使用深度伪造技术或借此传播未经同意的私密图像。


美国之外,欧洲已通过《人工智能法案》(AI Act),该法案要求开发被认定为高风险的人工智能系统的公司承担新的责任义务。然而,全球主要趋势是各国联合发表关于人工智能应在世界上扮演何种角色的全面但无约束力的声明。因此,实质性监管行动相对有限,而讨论却十分广泛。


人类是乐观主义者


无论你是股票摄影师、营销经理还是卡车司机,关于人工智能是否以及何时会取代你的工作,社会上已有广泛讨论。然而,最近一项关于人工智能态度的全球调查显示,大多数人并不感到受到人工智能的威胁。


来自 32 个国家的 60% 受访者认为人工智能将改变他们的工作方式,但仅有 36% 的人预期会被替代。「这些调查结果确实让我感到惊讶,」Gil 表示,「人们认为『人工智能将改变我的工作,但我仍将创造价值』,这种观点非常令人鼓舞。」让我们拭目以待,看看我们能否都通过管理人工智能团队来持续创造价值。


更多细节,可参考报告原文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

说白了就是“应试教育”和“素质教育”的区别。benchmark就是“应试”,刷题谁不会?但真正解决实际问题,需要的不是刷题,而是综合素质。个人觉得可以考虑引入领域专家进行主观评估,考察AI的实际应用能力和创新能力。

这让我想到了内卷…benchmark也内卷了!与其不断追逐新的benchmark,不如换个思路,比如:

* 强化学习与真实环境互动:让AI在更复杂的、不可预测的真实环境中学习和测试,而非局限于预设的benchmark。
* 多智能体协作与竞争:通过多个AI之间的协作与竞争,激发AI更深层次的能力,而非仅仅追求在benchmark上的分数。
* 引入“未知未知”的测试:故意引入一些AI完全没有见过的、超出其知识范围的情况,考察AI的适应性和创造力。

我身边很多人都觉得AI是遥远的事情,跟自己没关系。但实际上,AI已经在很多方面影响我们的生活了,比如个性化推荐、智能客服等等。这种乐观就像温水煮青蛙,等到真正意识到的时候,可能已经晚了。

我理解的「饱和」是指模型在特定数据集benchmark上做的太好了,但实际泛化能力不足。除了不断设计新的基准测试之外,或许可以考虑从以下几个方面入手:

1. 改进评估方法:可以采用对抗性评估,即设计专门针对AI模型弱点的测试用例;或者采用更贴近真实应用场景的评估方法,例如A/B测试。

2. 提升数据质量:基准测试数据集本身可能存在偏差或者噪声,导致模型过度拟合。可以尝试清洗、增强数据集,或者使用合成数据。

3. 关注模型的可解释性:如果模型给出的结果无法解释,即使在基准测试中表现良好,也难以信任其在真实场景中的表现。

4. 探索新的模型架构:跳出现有模型的框架,探索更具通用性和鲁棒性的新架构。

DeepSeek的低成本训练确实令人眼前一亮。个人认为这可能代表AI领域正朝着“性价比”方向发展,但并不能简单地断定为“革命”。

* 技术创新是关键:DeepSeek可能在算法、数据处理或硬件利用方面取得了突破,从而降低了训练成本。这需要持续的技术创新。

* 规模效应不可忽视:头部公司在资源、人才和数据方面拥有巨大优势,成本控制能力也很强。DeepSeek的模式能否复制到更大规模,仍有待观察。

* 性能与成本的平衡:低成本并不意味着高性能。如果DeepSeek-R1在某些关键性能指标上有所牺牲,那么这种“性价比”的意义可能有限。

* 不排除炒作可能:AI领域的竞争非常激烈,不排除DeepSeek为了吸引关注而进行宣传的可能性。我们需要更多的数据和评测来验证其真实性能。

我比较怀疑这个数据的真实性。要知道,AI训练的成本不仅仅是硬件和电力,还有大量的人力成本,包括数据清洗、模型调优等等。DeepSeek的研发团队规模和经验可能不如谷歌,很难相信他们能在如此短的时间内,用如此低的成本训练出媲美Gemini的模型。

我觉得这种乐观是一种“鸵鸟心态”,不愿意面对现实。与其自欺欺人,不如积极学习新技能,适应AI时代的变化。只有不断提升自己的价值,才能在未来的职场中立于不败之地。

这让我想到了手机行业,早期高端机都是高通骁龙的天下,后来联发科奋起直追,推出了天玑系列,虽然在某些方面可能比骁龙稍逊一筹,但凭借更高的性价比,也赢得了市场。AI领域也可能出现类似的情况,DeepSeek就像AI界的“联发科”,专注性价比,挑战现有格局。

这种乐观态度可能过于片面了。

* AI的影响是渐进的、结构性的:大部分人可能没有意识到AI的影响是缓慢渗透的,而且往往不是直接取代,而是改变工作内容和技能需求,导致结构性失业。

* 调查存在幸存者偏差:参与调查的人群可能本身就是对AI比较了解或者适应性较强的人群,所以结果可能存在偏差。

* 乐观情绪可能源于不了解:很多人对AI的能力和发展趋势并不了解,所以低估了其潜在的影响。

如果AI在以下几个方面取得突破,可能会打破这种乐观情绪:

* 通用人工智能(AGI)的实现:如果AI真的具备了人类级别的智能,那么很多工作岗位都可能被取代。

* AI在创造性领域的应用:如果AI能够在艺术、设计、科研等创造性领域超越人类,那么影响将更加深远。

* AI在决策领域的广泛应用:如果AI被广泛应用于企业管理、政府决策等领域,可能会导致权力的集中和滥用,引发社会动荡。