AI大模型进步停滞?创业者质疑基准测试作弊与实用性脱节

AI创业者质疑:自去年8月以来,AI大模型在基准测试中的进步与实际应用脱节,或存在作弊、实用性不足及对齐瓶颈等问题。

原文标题:AI应用创业公司:大模型最近的突破,全是作弊

原文作者:机器之心

冷月清谈:

一篇来自Lesswrong的博客文章指出,AI大模型自去年8月以来在基准测试上的显著进步与实际应用中的提升不成正比。作者作为AI应用创业者,通过实际经历发现,最新模型在官方基准测试中表现出色,但在解决实际问题、提升产品体验方面并未带来质的飞跃。许多YC创业者也反映了类似情况。文章提出了几种可能的原因:基准测试作弊、基准测试无法衡量实用性,以及模型可能很聪明但在对齐方面存在瓶颈。作者认为,如果这些问题得不到解决,AI系统可能会在表面上显得很智能,但在组合成社会系统时会出现根本问题。文章还探讨了AI实验室可能存在的作弊行为,以及基准测试的局限性,强调了关注模型在长期任务和实际应用中的表现的重要性。最后,作者呼吁关注AI系统的道德和社会影响,避免在评估标准失效的情况下,将重要社会职能委托给AI。

怜星夜思:

1、文章提到AI实验室可能存在“作弊”行为,例如在公开数据集上训练模型。你认为这种行为在AI研究中是否常见?如果是,有哪些方法可以避免或减轻其影响?
2、文章强调目前AI模型的基准测试可能无法有效衡量其实际应用能力。你认为哪些类型的任务或基准测试更能反映AI模型的“实用性”?
3、文章提到AI模型存在“对齐”问题,即模型可能很智能,但无法按照人类的意图行事。你认为如何才能更好地“对齐”AI模型,使其更符合人类的需求和价值观?

原文内容

选自Lesswrong

作者:lc

机器之心编译

编辑:泽南、张倩

Llama 4 或许只是冰山一角。


「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。


他在创业过程中发现,自去年 8 月以来,AI 大模型(如 Claude 3.7 等)在官方发布的基准测试上声称的巨大进步与实际应用场景中的有限提升之间存在明显脱节。这导致他们无法借助模型能力来提升产品体验。很多 YC 创业者也有类似的体验。


作者认为,这其中可能的原因包括基准测试作弊、基准无法衡量实用性或模型实际很聪明但对齐存在瓶颈。如果不解决这些基础问题,AI 系统可能会在表面上显得很聪明,但在组合成社会系统时会出现根本问题。


以下是博客原文:   


模型得分与消费者体验脱节


大约九个月前,我和三个朋友认为人工智能已经足够好,可以自主监控大型代码库的安全问题了。我们围绕这个任务成立了一家公司,试图利用最新的大模型能力来创建一种工具,用以取代至少很大一部分渗透测试人员的价值。我们从 2024 年 6 月开始从事这个项目。


在公司成立后的头三个月内,Anthropic 的 Claude 3.5 sonnet 就发布了。只需切换在 GPT-4o 上运行的服务部分,我们刚刚起步的内部基准测试结果就会立即开始饱和。我记得当时很惊讶,我们的工具不仅似乎犯的基本错误更少,而且其书面漏洞描述和严重性估计似乎也有了质的提高。就好像即使是在不完整的信息中,这些模型也能更善于推断人类提示背后的意图和价值。


事实上,安全研究基本上没有公开的基准。有「网络安全」评估会向 AI 模型询问有关孤立代码块的问题,「CTF」评估会为模型提供明确的挑战描述和对 <1kLOC Web 应用程序的 shell 访问权限。但没有什么能触及 LLM 应用程序渗透测试的难点 —— 一是浏览一个太大而无法放在上下文中的真实代码库;二是推断目标应用程序的安全模型;三是深入理解其实现,以了解该安全模型在哪里出现了问题。


出于这些原因,我认为漏洞识别任务是衡量 LLM 在狭窄的软件工程领域之外的泛化性的一个很好的试金石。


自 3.5-sonnet 以来,我们一直在监控 AI 大模型的发布,并尝试过几乎每个声称有所改进的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我们尝试的所有新模型都没有对我们的内部基准或开发人员发现新错误的能力产生重大影响。这包括新的测试时间计算 OpenAI 模型。


起初我很紧张,不敢公开报告此事,因为我认为这可能会对我们团队产生不良影响。自去年 8 月以来,我们的扫描有了很大的改进,但这是因为常规工程,而不是模型改进的提升。这可能是我们设计的架构存在问题,随着 SWE-Bench 分数的上升,我们并没有获得更多的进展。


但最近几个月,我与其他从事 AI 应用初创企业的 YC 创始人进行了交谈,他们中的大多数人都有相同的经历:1. 见证了 o99-pro-ultra 大模型发布,2. 基准测试看起来不错,3. 实际应用评估表现平平。尽管我们从事不同的行业,处理不同的问题,但情况大致相同。有时创始人会对这种说法做出回应(「我们只是没有任何博士级的问题可以问」),但这种说法是存在的。


我读过这些研究,也看过这些数字。也许与大模型的交谈变得更有趣了,也许他们在受控考试中表现得更好了。但我仍然想根据内部基准以及我自己和同事们使用这些模型的看法提出观点:大模型公司向公众报告的任何提升都不能反映经济实用性或普遍性。它们不能反映我或我客户的实际体验。就能够执行全新的任务或更大比例的用户智力劳动而言,我认为自去年 8 月以来它们就没有太大进步了。


如果你是大模型竞品公司的工程师,这或许是个好消息!对我个人而言,作为一个试图利用大模型能力赚钱的人,它们还没有聪明到能解决整个问题,对那些担心快速过渡到 AI 经济会带来道德风险的人来说,或许也不需要太过担忧了。


与此同时,有一种观点认为,模型得分与消费者体验脱节是一个不好的迹象。如果业界现在还搞不清楚如何衡量模型的智力,而模型大多局限于聊天机器人,那么当 AI 在管理公司或制定公共政策时,又该如何制定衡量其影响的标准呢?如果我们在将公共生活中繁琐而艰难的部分委托给机器之前就陷入了古德哈特定律(当一个政策变成目标,它将不再是一个好的政策),我想知道原因。


AI 实验室是在作弊吗?


AI 实验室的创始人们经常认为,他们正在进行一场文明竞争,以控制整个未来的光锥,如果他们成功了,世界就将会改变。指责这些创始人从事欺诈行为以进一步实现这些目的是相当合理的。


即使你一开始对科技大佬的评价异常高,你也不应该指望他们在这场竞赛中成为自己模型表现的诚信来源。如果你能规避惩罚,那么夸大能力或有选择地披露有利的结果有非常强大的短期激励。投资是其中之一,但吸引人才和赢得(具有心理影响力的)声望竞赛可能也是同样重要的激励因素。而且基本上没有法律责任迫使实验室对基准测试结果保持透明或真实,因为从来没有人因为在测试数据集上进行训练然后向公众报告该表现而被起诉或被判犯有欺诈罪。


如果你尝试过,任何这样的实验室仍然可以声称自己在非常狭隘的意义上说的是实话,因为该模型「确实在该基准上实现了该性能」。如果对重要指标的一阶调整在技术意义上可以被视为欺诈,那么负责伪造统计数据的团队还有一百万种其他方式来稍微间接地处理它。


在本文的初稿中,我在上面一段后面加上了这样一句话:「话虽如此,不可能所有收益都来自作弊,因为一些基准测试有保留数据集。」最近有一些私人基准测试,如 SEAL,似乎显示出了改进。但 OpenAI 和 Anthropic 发布的每一个基准测试都有一个公开的测试数据集。我能想到的唯一例外是 ARC-AGI 奖,其「半私人」评估中的最高分由 o3 获得,但尽管如此,它尚未对 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 进行过公开评估。关于 o3 本身:



所以也许没有什么秘密:AI 实验室公司在撒谎,当他们改进基准测试结果时,是因为他们之前已经看到过答案并把它们写下来了。从某种意义上说,这可能是最幸运的答案,因为这意味着我们在衡量 AGI 性能方面其实并没有那么糟糕;我们只是面临着人为的欺诈。欺诈是人的问题,而不是潜在技术困难的迹象。


我猜这在一定程度上是正确的,但并非全部。


基准测试是否没有跟踪实用性?


假设你对一个人的唯一了解是他们在瑞文渐进矩阵(智商测试)中得分为 160。你可以对这个人做出一些推断:例如,RPM 得分越高,可推断出生活条件越积极,比如职业收入很高、健康状况很好、不会进监狱等等。


你可以做出这些推断,部分原因是在测试人群中,瑞文渐进矩阵测试的分数可以反映人类在相关任务上的智力能力。完成标准智商测试并获得高分的能力不仅能让你了解这个人的「应试」能力,还能让你了解这个人在工作中的表现如何,这个人是否做出了正确的健康决定,他们的心理健康是否良好,等等。


至关重要的是,这些相关性不必很强,瑞文测试才能成为有用的诊断工具。患者不会接受智商测试训练,而且人类大脑的设计也并非是为了在 RPM 等测试中获得高分。我们在这些测试中的优异表现(相对于其他物种而言)是过去 5 万年中偶然发生的事情,因为进化间接地让我们能够追踪动物、灌溉庄稼和赢得战争。


然而在大模型领域,除了几个明显的例外,我们几乎所有的基准测试都具有标准化测试的外观和感觉。我的意思是,每一个都是一系列学术难题或软件工程挑战,每个挑战你都可以在不到几百个 token 的时间内消化并解决。也许这只是因为这些测试评估起来更快,但人们似乎理所当然地认为,能够获得 IMO 金牌的 AI 模型将具有与陶哲轩相同的能力。因此,「人类的最后考试」(ENIGMAEVAL)不是对模型完成 Upwork 任务、完成视频游戏或组织军事行动的能力的测试,而是一个自由反应测验。


我不会做任何「人类的最后考试」的测试问题,但我今天愿意打赌,第一个拿到满分的大模型仍然无法作为软件工程师就业。 HLE 和类似的基准测试很酷,但它们无法测试语言模型的主要缺陷,比如它们只能像小商贩一样通过复述的方式来记住东西。Claude Plays Pokemon 是一个被过度使用的例子,因为视频游戏涉及许多人类特定能力的综合。这项任务适合于偶尔回忆 30 分钟前学到的东西,结果不出所料地糟糕。



就我个人而言,当我想了解未来能力的改进时,我将几乎只关注 Claude Plays Pokemon 这样的基准测试。我仍然会查看 SEAL 排行榜,看看它在说什么,但我的 AI 时间表的决定因素将是我在 Cursor 中的个人经历,以及 LLM 处理类似你要求员工执行的长期任务的能力,其他的一切都太过嘈杂。


这些模型或许已经很智能,但在对齐方面存在瓶颈?


在介绍下一点之前,让我先介绍一下我们的业务背景。


正如我所提到的,我的公司使用这些模型来扫描软件代码库以查找安全问题。从事这个特定问题领域(维护已交付软件的安全性)工作的人被称为 AppSec 工程师。


事实上,大多数大公司的 AppSec 工程师都有很多代码需要保护。他们的工作过度,典型要回答的问题不是「我如何确保这个应用程序没有漏洞」,而是「我如何管理、筛选和解决我们 8000 条产品线中已经存在的大量安全问题」。


如果他们收到一条警报,他们希望它影响活跃的、理想情况下可通过互联网访问的生产服务。任何低于这个水平的情况都意味着要么有太多结果需要审查,要么安全团队是在浪费有限的沟通资源来要求开发人员修复甚至可能没有影响的问题。


因此,我们自然会尝试构建我们的应用程序,以便它只报告影响活跃的、理想情况下可通过互联网访问的生产服务的问题。但是,如果你只是向聊天模型解释这些限制,它们会偶尔遵循人的指示。例如,如果你告诉他们检查一段代码是否存在安全问题,他们倾向于像你是刚刚在 ChatGPT UI 中询问该代码的开发人员一样做出回应,因此会推测代码有问题或险些失误。即使你提供了我刚刚概述的情况的完整书面描述,几乎每个公共模型都会忽略你的情况,并将无法利用的 SQL 查询连接报告为「危险」。


这并不是说 AI 模型认为它遵循了你的指示,但实际上并没有。LLM 实际上会在简单的应用程序中说,它报告的是一个「潜在」问题,并且可能无法验证。我认为发生的情况是,大型语言模型被训练成在与用户的实时对话中「看起来很聪明」,因此它们更喜欢突出显示可能的问题,而不是确认代码看起来不错,就像人类想要演得很聪明时所做的那样。


每个 LLM 应用初创公司都会遇到这样的限制。当你是一个直接与聊天模型交互的人时,阿谀奉承和诡辩只是小麻烦,甚至也是能适应的。当你是一个团队试图将这些模型组合成更大的系统时(由于前面提到的内存问题,这是必要的),想要看起来不错会引发严重的问题。更智能的模型可能会解决这个问题,但它们也可能使问题更难检测,特别是当它们取代的系统变得更加复杂并且更难验证输出时。


有很多不同的方法来克服这些缺陷。在有人想出解决问题的外在表现之前,我们完全有可能无法解决核心问题。


我认为这样做是一个错误。这些 AI 机器很快就会成为我们生活的社会的跳动的心脏。它们在组合和互动时创造的社会和政治结构将定义我们周围看到的一切。更重要的是,它们要尽可能地有道德。


原文链接:

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

学术界对这种现象其实挺敏感的,毕竟科研诚信是底线。但诱惑确实存在,尤其是在竞争激烈的领域。我觉着吧,除了技术上的改进,更重要的是要建立一个健康的学术氛围,鼓励开放和透明的研究。

我觉得像文章里提到的Claude Plays Pokemon那种,模拟现实场景的Benchmark更有参考价值。毕竟,真实世界的问题往往是复杂和模糊的,需要AI模型具备一定的泛化能力和解决问题的能力。

关键在于要考察模型在长期、复杂的任务中的表现。比如,让AI参与一个软件项目的长期维护,或者让它负责一个小型企业的日常运营。通过观察它在这些实际场景中的表现,才能更准确地评估其“实用性”。

嗨,这事儿搁哪儿都一样。想完全杜绝肯定不可能,只能尽量提高作弊的成本。比如搞个匿名提交系统,评估的时候压根不知道是谁提交的,这样相对公平些。不过话说回来,道高一尺魔高一丈,总有人能找到空子钻。

对齐问题是个大坑啊!我觉得关键在于要让AI模型理解人类的意图。除了技术上的改进,还需要引入更多的人文社科知识,让AI模型更好地理解人类的需求和价值观。

别忘了,实用性也跟领域相关。一个在医疗领域很实用的模型,在金融领域可能就抓瞎。所以,benchmark的设计也要考虑到特定领域的特点,不能一概而论。我觉得可以搞一些行业内的Challenge,让大家来PK,这样更能看出真本事。

与其想着怎么“对齐”,不如反过来想想,是不是人类的需求本身就有问题?有时候,我们想要的可能并不是真正需要的。也许,通过AI反思人类自身,才能更好地解决对齐问题。细思极恐啊!

我觉得强化学习是个不错的方向,通过人类的反馈来不断调整AI模型的行为,使其更符合人类的期望。当然,这个过程需要谨慎,避免引入偏见和歧视。

文章里说的“作弊”现象,我觉得在AI圈子里或多或少都存在。毕竟,大家都想在榜单上名列前茅,拿到更多的Funding。为了避免这种情况,我觉得可以尝试引入更多Private的Benchmark,或者采用一些更复杂的评估指标,增加“作弊”的难度。