高中生自制AI基准测试:用Minecraft搭建作品,用户投票决定大模型排名

高中生用Minecraft做AI基准,用户投票给AI建造的作品,决定大模型排名,有趣又有效。

原文标题:火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

原文作者:机器之心

冷月清谈:

本文介绍了一项由高中生Adi Singh创建的名为MC-Bench的AI基准测试,该测试利用Minecraft游戏,通过用户投票的方式评估AI模型在指令遵循、代码完成度和创造力三个维度上的表现。用户通过对比AI模型生成的Minecraft作品,根据提示词进行投票,累计票数决定模型的ELO排名。该基准测试的创新之处在于其利用了人们对Minecraft的熟悉度,降低了参与门槛,从而能够收集更多数据,更全面地评估AI模型。MC-Bench目前主要进行简单的构建,未来计划扩展到更长形式的任务,并可能开放后端查看权限和数据下载。包括Anthropic、谷歌、OpenAI和阿里在内的多家公司为该项目提供了支持。

怜星夜思:

1、MC-Bench这种利用游戏进行AI评测的方式,相较于传统的基准测试,有哪些优势和不足?
2、文章提到Claude 3.7/3.5和GPT-4.5在MC-Bench中表现突出,你认为这说明了什么?这些模型在哪些方面更有优势,才使得它们在此类测试中脱颖而出?
3、如果你来设计一个类似的AI基准测试,你会选择哪个游戏或平台?你会侧重于考察AI的哪些能力?

原文内容

机器之心报道
编辑:蛋酱

偶然发现了一个很有趣的 AI 基准测试,点开链接,竟然是一个 MineCraft 作品投票页面?

图片

如图所示,这些作品都是 AI 完成的,灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

网站地址:https://mcbench.ai/

来都来了,先投个票吧。投票之前,作品都是「匿名」的。只有在投票后,我们才能看到每个 Minecraft 作品是由哪个模型完成的。



在这个基准里,主要看三个维度:指令遵循、代码完成度和创造力。

AI 技术飞速演进的时代,传统的人工智能基准测试显然不够用了。总有人能想出一些新颖的测试方法,比如的沙盒建造游戏 Minecraft。

这就是我们刚刚看到的 Minecraft Benchmark(MC-Bench)。作为用户,我们能够参与的部分就是:投票。累计票数中的 ELO 分数决定了每个模型的排名。

有趣的是,无论采用哪种指标,排行榜的收敛程度都很高:Claude 3.7 & 3.5 和 GPT-4.5 都是断层领先。


从技术上讲,MC-Bench 是一个编程基准,因为模型需要编写代码来创建所提示的构建,如「冰霜雪人」(Frosty the Snowman)或「原始沙滩上迷人的热带海滨小屋」(a charming tropical beach hut on a pristine sandy shore)。


Prompt:"build a detailed steampunk-style airship flying among the clouds"(一艘在云层中飞行的详细蒸汽朋克风格飞艇)

创办 MC-Bench 的 Adi Singh 是个高中生,在他看来,用 Minecraft 做测试基准的价值并不在于游戏本身,而在于「人们对它的熟悉程度」,毕竟它是有史以来最畅销的视频游戏。

对于大多数 MC-Bench 用户来说,评价雪人是否更好看要比研究代码更容易,这使得该项目具有更广泛的吸引力,从而有可能收集更多数据,以了解哪些模型的得分始终更高。

退一万步说,即使是没有玩过这款游戏的人,也可以评估出哪个菠萝的块状表现形式更好,请参考下面这个例子:


「目前,我们只是在进行简单的构建,以思考我们自 GPT-3 时代以来已经走了多远,但(我们)可以看到自己正在扩展到这些较长形式的计划和目标导向型任务。游戏可能只是一种测试智能体推理的媒介,它比现实生活中更安全,测试目的也更可控,因此在我看来更理想。」

研究人员经常在标准化评估中对人工智能模型进行测试,其中很多测试都会给人工智能带来主场优势。由于人工智能模型的训练方式,它们天生就擅长解决某些具体的问题,尤其是需要死记硬背或基础推理的问题。

简单地说,OpenAI 的 GPT-4 可以在 LSAT 考试中取得第 88 百分位数的成绩,但却无法辨别「Strawberry」一词中有多少个 「R」。Anthropic 的 Claude 3.7 Sonnet 在一项标准化软件工程基准测试中取得了 62.3% 的准确率,但在玩《口袋妖怪》时却比大多数的五岁孩子还差。

所以一些开放式的游戏反而能「另辟蹊径」,提供检验 AI 性能的新颖视角。在此之前,已经有很多知名游戏被加入 AI 基准测试的名单,比如《口袋妖怪》(Pokémon Red)、《街头霸王》(Street Fighter)和《猜字游戏》(Pictionary)。

推荐阅读:


MC-Bench 的作者表示,他其实希望能够让用户自由提示、自由投票,但这个玩法「又慢又贵」,目前阶段还不现实。


社区给 MC-Bench 的评价还是很高的,特别指出了它在「3D 空间理解和创造力」评估层面的价值。


MC-Bench 的网站目前列出了八位「特别鸣谢」的贡献者:Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴,但这些公司在其他方面并无关联。


MC-Bench 团队还表示,面向研究人员,他们愿意开放后端查看权限,最终他们还将完全开放数据以供下载。


参考链接:
https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

我可能会选《我的世界》的 Mod 开发。让 AI 自动生成各种好玩的 Mod,考察它的代码生成能力、创造力,以及对游戏引擎的理解程度。想想以后 AI 自动生成各种有趣的 Mod,简直太棒了!

从技术角度分析,这些模型可能在以下几个方面具有优势:1) 更先进的 Transformer 架构,能够更好地捕捉文本中的依赖关系;2) 更大的参数规模,使其能够记忆更多的知识和模式;3) 更有效的训练方法,例如强化学习,使其能够更好地优化生成结果。 当然,也不排除这些模型针对 Minecraft 进行了专门的优化。

优势在于更直观、更贴近用户体验,能够考察AI的创造力和3D空间理解能力,用户参与度高。不足之处在于评判标准可能更主观,不够精确,且对AI的计算资源消耗可能更大。传统基准测试更客观、可重复,但可能缺乏对AI真实应用场景的模拟。

从学术角度来看,MC-Bench 提供了一个更接近现实世界的评估环境。传统的基准测试往往过于理想化,而游戏环境引入了更多的不确定性和复杂性。然而,这种方法的有效性依赖于大量的用户参与和高质量的评判标准。如果缺乏这两点,评测结果可能会有偏差。

这说明这些模型在理解人类指令、生成代码以及进行创造性设计方面更胜一筹。可能得益于它们强大的语言理解能力、代码生成能力和知识储备,能够更好地将文字描述转化为具体的Minecraft建筑。

从可行性角度来看,选择一个拥有开放API和活跃社区的游戏或平台会更方便。我可能会考虑Roblox或Unity,因为它们都提供了强大的工具和资源。在能力考察方面,我会侧重于AI的语义理解、内容生成和人机协作能力。例如,让AI根据用户的描述生成游戏场景、角色或故事情节。

我会选择《星际争霸2》。这个游戏对AI的策略规划、实时决策和资源管理能力要求很高。我想重点考察AI在复杂环境中,能否制定有效的长期战略并灵活应对突发情况。

我觉得吧,这就像考试一样,有的学生就是天生会考试。这些模型可能就是更擅长解决这种需要综合能力的“考试”。也可能是因为它们训练的时候“刷”过更多类似的数据,更有经验。

我觉得这种方式挺有意思的,让人更容易理解AI的能力。但是,用游戏来评测,会不会让AI专门针对游戏进行优化,反而忽略了其他方面的能力?就像学生为了考试而刷题一样。