陶哲轩警示:奥赛AI金牌的背后,是规模化应用下AI的‘降本增效’挑战

陶哲轩警示AI发展:从“能否做到”到“如何低成本实现”,须关注资源消耗与标准化评估。

原文标题:解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」

原文作者:数据派THU

冷月清谈:

知名华人数学家陶哲轩教授,在谷歌Gemini模型于IMO竞赛中取得金牌水平的表现后,表达了对人工智能发展和评估的深入看法。他指出,随着AI技术日趋成熟,关注点正从“能否实现”的定性成就,转向“如何以更低成本、更高安全性和更强可扩展性实现”的定量衡量。陶教授认为,目前对AI模型在竞赛中的表现应谨慎看待,避免简单化比较,呼吁在明年能有更受控、统一的测试方法进行科学评估,以避免误判AI的真实能力。

他强调,技术的大规模部署,关键在于“降本增效”。例如,若AI工具解决一道奥赛题的成功率仅20%但单次尝试成本1000美元,其实际每成功解决一次的成本高达5000美元。此外,即便是成功案例,如果背后存在高薪专家“待命”的隐性成本,也应计入总开销。陶哲轩通过莱特兄弟的首次飞行与喷气式航空普及的对比,以及阿波罗计划的高昂月球探索成本,阐释了技术从“概念验证”到“大规模应用”所面临的挑战,即必须关注资源消耗和实际效益。

展望未来,他预测AI项目的发展路径可能趋同于其“等式理论项目”:绝大部分任务将由“廉价”AI高效完成,而“昂贵”的高级AI则与人类专家协同攻克少数疑难问题。因此,标准化、要求提前披露资源使用和方法细节的基准测试和竞赛,对于准确衡量AI技术的“量变”进展变得尤为重要,以取代当前依赖自我报告成果的模式,确保AI评估的透明度和可信度。

怜星夜思:

1、文章里提到AI解奥赛题的实际成本很高,那是不是意味着AI现在离咱们普通人的日常生活应用还很远呢?它的高成本会阻碍我们享受到它带来的便利吗?
2、陶哲轩教授提出要用更受控的环境来评估AI,还要披露资源使用和失败案例,这听起来有点过于“学术”了。对于我们普通老百姓来说,这种评估方式具体有什么好处呢?是不是意味着以后AI的宣传会更“真实”?
3、文章里提到,未来大部分AI项目会由“廉价”AI来完成,而“昂贵”的高级AI则与人类专家协同。大家觉得这种人机协作的模式会在哪些领域率先普及?这对我们普通人的工作和生活会有什么样的影响呢?

原文内容

图片
来源:机器之心
本文约2000字,建议阅读5分钟
人工智能技术现已迅速接近从定性到定量成果的转型阶段。


人工智能和数学是密不可分的。

AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。

在刚结束不久的 IMO 竞赛中,谷歌的新一代 Gemini 进阶版模型成功解决了六道超高难度试题中的五道,达到了今年 IMO 的金牌水平(35/42),成为首个获得奥赛组委会官方认定为金牌的 AI 系统。

加州大学洛杉矶分校数学系终身教授,菲尔兹奖获得者,被称为「数学莫扎特」的华人数学家 陶哲轩参加了今年度 IMO 竞赛的颁奖典礼。

他同样也对在 IMO 取得成绩的 AI 模型十分关注。

但他同样表达了一定程度的担忧,希望明年能够在更加受控的环境下对 AI 模型进行科学比较和评估。

陶教授认为:一些在标准考试条件下可能连铜牌都难以稳定获得的学生或队伍,在某些经过修改的赛制下,反而可能稳定地达到金牌水平。

因此,在没有采用统一、非参赛队自选的控制性测试方法的前提下,对于不同 AI 模型在类似 IMO 等竞赛中的表现,应当谨慎看待,避免作出过于简单化的「对等」比较。

陶教授对人工智能的发展和评估的关心是一贯的。近期,他在 mathstodon 上发表了对于人工智能发展现状的观点和对于未来的评估策略的建议。

人工智能技术现已迅速接近从定性到定量成果的转型阶段。

随着一项技术成熟,关注点往往会从定性的成就转移,例如谁第一个实现了某个目标,转向更定量的衡量标准,例如完成单个任务需要多少资源和专业知识,以及会产生多少环境影响和伤害风险。

这是一个必要的转变,以便将技术从概念验证扩展到大规模应用。

举两个例子:诸如莱特兄弟在 1903 年首次实现动力、可控、比空气重的飞行;林德伯格在 1927 年首次独自不间断跨大西洋飞行。

但真正让跨大西洋航空旅行变得低成本、安全且对发达国家中产阶级来说可以定期负担得起的,并不是这些初期的壮举,而是从上世纪 50 年代开始,长达数十年的喷气式航空技术的持续发展,以及与之配套的基础设施和后勤系统的稳步完善。这些工作虽枯燥,却至关重要。

相比之下,阿波罗计划虽曾在 1969 年成功实现了载人登月的里程碑,但代价极为高昂。与航空领域的发展不同,太空探索在成本降低方面并未取得显著进展。

如今,几乎任何一个具体的概念验证目标,只要投入足够的资源和专业团队,都有可能在未来几年内通过类似「登月计划」式的 AI 项目实现。

但真正要将这些技术大规模部署到现实世界中,关键问题已经从「能否做到」转向了「如何以更低成本、更高安全性和更强可扩展性实现」。

简而言之,就是人工智能需要「降本增效」这与评估 AI 模型的方式密不可分。

在宣布某一目标完成时,显然有必要同步报告其所消耗的资源成本。但同样重要的是,也应报告失败案例,以更准确地评估成功率 —— 这是衡量预期成本的关键部分。

举例来说,如果某个先进的 AI 工具每次尝试解决一道奥赛级别的问题需要耗费约 1000 美元的算力资源,但成功率只有 20%,那么平均每成功解决一次问题的实际成本就是 5000 美元。如果只报告那 20% 的成功案例,就会对实际成本形成严重误导。

同理,如果这些成功案例是在有高薪专家全程监督、监控,甚至准备随时介入的前提下完成的 —— 即使最终没有触发人工干预,这部分「待命成本」也应计入整个过程的实际成本。

尽管未来的扩展规律(scaling laws)可能会有所变化,但可以预见的是,最耗费资源的 AI 系统依然会比那些廉价模型更强大。因此,在实际应用中,「轻量型」与「密集型」AI 工具各有其用武之地

以陶教授最近完成的「等式理论项目(Equational Theories Project)」为例:在总共需要证明的 2200 万条蕴涵关系中,绝大多数是通过非常简单的暴力方法完成的;剩下的很大一部分则由中等强度的自动定理证明器(ATP)解决;再往后,一部分由人类参与者解决,最后少数几个疑难问题,则依赖多个研究人员与 ATP 工具协作攻克。

尽管并未大量使用像大型语言模型这样的现代 AI,但陶教授预计未来类似的大规模项目会呈现类似的发展路径:

项目的绝大部分由「廉价」AI 完成,而「昂贵」的高级 AI 则与人类专家协同作战。

展望未来,标准化的基准测试和竞赛将变得越来越重要,特别是那些要求提前披露资源使用和方法细节的评测机制。这对于准确衡量 AI 技术的「量变」进展至关重要。

这与陶教授在 IMO 竞赛后对 AI 公司自我披露竞赛结果担忧的观点是一脉相承的。

当前依赖自我报告成果的现状,在技术发展的「质变」初期阶段尚且可以接受,但随着 AI 进入广泛落地和实际部署阶段,这种方式就必须被更透明、可对比的标准化评估所取代

陶哲轩教授的观点站在了历史的角度,但同样也有网友回望历史而对人工智能的普及暗含的风险而表示担忧。

完整内容请参阅原始推文:https://mathstodon.xyz/@tao/114910028356641733

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


关于“AI成本高是否离生活很远”的问题,其实得看具体是哪种AI。文章里说的是解决IMO这种顶尖数学问题的AI,这种属于“概念验证”阶段,而且解决的是“高精度、高难度”问题,投入的资源肯定大。但咱们日常用的AI,比如手机里的语音助手、各种推荐算法、美颜滤镜,这些都是经过大规模优化和部署的“廉价”AI。它们的训练成本可能很高,但一旦训练完成,推理成本(即每次使用时消耗的资源)就非常低了,通过云服务和规模化效应,成本被摊薄到几乎可以忽略不计。所以,不用担心,AI早已渗透到我们的日常,而且会越来越便宜、方便。

从信息披露和消费者保护的角度来看,这种看似“学术”的评估方式意义重大。当前AI领域存在“AI幻觉”、数据偏见等问题,公众对AI能力的认知容易被过度简化或夸大的宣传所误导。要求披露资源使用和失败案例,实际上是在建立一个更透明、可审计的评估体系,这有助于构建AI产业的公信力。它能让使用者知道在什么条件下AI能表现好,在什么条件下容易出错,从而避免在关键领域(比如医疗、金融)产生不可预期的风险。对于普通人来说,这意味着未来我们接触到的AI应用会更加可靠、可预测,因为它在推广前已经过更严苛的“压力测试”和“成本核算”,最大限度地减少了隐藏的风险和投入。

这个好处可大了!“学术”点反而意味着更严谨、更真实。你想啊,现在很多AI产品动不动就宣传自己多么多么牛,解决这解决那。但是,如果它只展示成功案例,不告诉你失败了多少次,用了多少算力资源,就像一个推销员只告诉你A产品有多好,却不跟你说它坏的概率多大,或者维修保养多贵。陶教授的建议,就是要求AI的“体检报告”和“消费清单”公开透明。这样一来,作为普通用户,我们就能更清楚地知道一个AI产品到底有多靠谱,它的“性价比”怎么样,而不是被各种“黑科技”、“超能力”的宣传给忽悠了。这绝对是促使AI行业走向成熟和负责任的重要一步。

这个问题要分两面看。一方面,是的,攻克奥赛级别难题的AI,其研发和运行成本目前确实非常高昂,这决定了它在短期内难以直接应用于普通消费级市场。这笔“智力投资”更像是科研范畴,旨在拓展AI能力的边界。但另一方面,AI技术一旦在某个领域成熟并实现范式突破,其边际成本会随着规模化应用而大幅降低。就像工业革命初期,蒸汽机是很贵的科技,但一旦普及,带来的是全社会生产力的巨大提升和商品成本的降低。AI的高成本创新是为了撬动更广泛的、低成本的普及应用。所以,高成本的AI研究是在为未来更普惠的AI应用铺路,它只会加速而非阻碍我们享受到AI的便利。

说白了,陶教授这就是要给AI“挤水分”呢!现在好多AI公司都在吹自家模型有多厉害,结果呢,往往只报喜不报忧,或者成功一个例子就大吹特吹。如果能披露失败案例,就像考试要看总分而不是只看错蒙对的那几道题;如果能披露资源消耗,那就像你买个电动车,不只看里程数,还得看充电多贵、损耗多大。这样咱们普通人就能更客观地去看待AI,不会被那些天花乱坠的宣传给迷惑了。避免花了大价钱,结果买了个“智商税”。

我认为这种人机协作模式会在许多重复性高、数据量大但对精确性有要求的领域率先普及。比如,在法律领域,廉价AI可以快速筛选海量案例、法规,高级AI协助律师分析复杂案情,而人类律师则负责最终的庭审和人际沟通。医疗方面,廉价AI用于影像初筛、病历整理,高级AI辅助诊断,医生负责最终诊疗方案和与病患交流。金融业也是,风险评估、交易分析等。对我们普通人的影响是,那些基础的、重复性的工作可能会被“廉价”AI替代,但需要复杂判断、创新、情感交流和跨领域协作的工作,则会变成“高级AI+人类专家”的组合。这就要求我们提升自己的软技能和判断力,成为能够驾驭AI的“驾车人”,而不是被“车”淘汰的旧马车夫。

哇塞,这不就是《钢铁侠》里贾维斯和托尼·斯塔克的关系嘛!哈哈。廉价AI大概就是贾维斯负责处理那些琐碎的、日常的数据和信息,就像帮你订餐、回复邮件之类的;高级AI就好比贾维斯帮你分析战况、提供解决方案;而托尼·斯塔克本人呢,就是那个最终拍板、有创意、有情怀的人。我觉得这种模式在客服(AI客服+高级人工客服)、内容创作(AI写稿+人类编辑润色)、编程(AI辅助编码+资深开发者优化)等等领域会很快普及。对于我们来说,那些纯粹的体力活和重复劳动可能会被取代,但需要创造力、共情能力、以及复杂问题解决能力的工作,反而会因为有AI辅助而变得更高效、更有趣。说不定以后,我们都能拥有自己的“贾维斯”呢!

这种分层级的人机协作模式,其普及速度和影响深度,在很大程度上取决于行业对效率提升和成本控制的迫切性。我预判,在制造业的智能工厂物流仓储管理农业的精准种植、乃至教育个性化辅导等领域会率先看到大规模应用。廉价AI负责日常监测、数据收集、基础操作;高级AI进行复杂决策、优化调度;人类专家则专注于战略规划、异常处理和创新研发。

对我们普通人而言,这意味着就业结构将发生重大调整。低技能、重复性劳动岗位将持续减少,但同时,新兴的与AI协作、管理AI、或专注于AI难以替代的创造性和人际交流的岗位会涌现。我们需要不断学习和适应,培养批判性思维、解决复杂问题的能力,以及与AI工具高效协作的技能。未来的工作,可能不再是“人与人”或“人与机器”的竞争,而是“人+AI”与“人+AI”的高效团队之间的竞争。

哎呀,这问题问到点子上了!就像刚出来的iPhone,是挺贵的,普通人吃瓜看热闹。但等技术成熟了,山寨机都铺天盖地了,自然就平民化了。AI现在很多高精尖的玩意儿确实烧钱,搞科研、攻克难题嘛,烧的都是未来。但你看那些已经落地的大数据分析、个性化推荐啥的,你都没感觉它有多贵,因为它就是通过‘量大走薄利’的模式,把成本分摊到亿万用户身上了。所以,该享受的便利,一样少不了,而且会越来越多、越来越智能,最终都会变成你生活的一部分,让你“如呼吸般自然”!