高中生自制AI基准测试：用Minecraft搭建作品，用户投票决定大模型排名

almosthuman2014 · 2025 年3 月 21 日 17:26

高中生用Minecraft做AI基准，用户投票给AI建造的作品，决定大模型排名，有趣又有效。

原文标题：火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650961319&idx=2&sn=021c48c93433fb8ab9371dbb15ff4dc3&

冷月清谈：

本文介绍了一项由高中生Adi Singh创建的名为MC-Bench的AI基准测试，该测试利用Minecraft游戏，通过用户投票的方式评估AI模型在指令遵循、代码完成度和创造力三个维度上的表现。用户通过对比AI模型生成的Minecraft作品，根据提示词进行投票，累计票数决定模型的ELO排名。该基准测试的创新之处在于其利用了人们对Minecraft的熟悉度，降低了参与门槛，从而能够收集更多数据，更全面地评估AI模型。MC-Bench目前主要进行简单的构建，未来计划扩展到更长形式的任务，并可能开放后端查看权限和数据下载。包括Anthropic、谷歌、OpenAI和阿里在内的多家公司为该项目提供了支持。

怜星夜思：

1、MC-Bench这种利用游戏进行AI评测的方式，相较于传统的基准测试，有哪些优势和不足？
2、文章提到Claude 3.7/3.5和GPT-4.5在MC-Bench中表现突出，你认为这说明了什么？这些模型在哪些方面更有优势，才使得它们在此类测试中脱颖而出？
3、如果你来设计一个类似的AI基准测试，你会选择哪个游戏或平台？你会侧重于考察AI的哪些能力？

原文内容

机器之心报道

编辑：蛋酱

偶然发现了一个很有趣的 AI 基准测试，点开链接，竟然是一个 MineCraft 作品投票页面？

如图所示，这些作品都是 AI 完成的，灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

网站地址：https://mcbench.ai/

来都来了，先投个票吧。投票之前，作品都是「匿名」的。只有在投票后，我们才能看到每个 Minecraft 作品是由哪个模型完成的。

在这个基准里，主要看三个维度：指令遵循、代码完成度和创造力。

AI 技术飞速演进的时代，传统的人工智能基准测试显然不够用了。总有人能想出一些新颖的测试方法，比如的沙盒建造游戏 Minecraft。

这就是我们刚刚看到的 Minecraft Benchmark（MC-Bench）。作为用户，我们能够参与的部分就是：投票。累计票数中的 ELO 分数决定了每个模型的排名。

有趣的是，无论采用哪种指标，排行榜的收敛程度都很高：Claude 3.7 & 3.5 和 GPT-4.5 都是断层领先。

从技术上讲，MC-Bench 是一个编程基准，因为模型需要编写代码来创建所提示的构建，如「冰霜雪人」（Frosty the Snowman）或「原始沙滩上迷人的热带海滨小屋」（a charming tropical beach hut on a pristine sandy shore）。

Prompt："build a detailed steampunk-style airship flying among the clouds"（一艘在云层中飞行的详细蒸汽朋克风格飞艇）

创办 MC-Bench 的 Adi Singh 是个高中生，在他看来，用 Minecraft 做测试基准的价值并不在于游戏本身，而在于「人们对它的熟悉程度」，毕竟它是有史以来最畅销的视频游戏。

对于大多数 MC-Bench 用户来说，评价雪人是否更好看要比研究代码更容易，这使得该项目具有更广泛的吸引力，从而有可能收集更多数据，以了解哪些模型的得分始终更高。

退一万步说，即使是没有玩过这款游戏的人，也可以评估出哪个菠萝的块状表现形式更好，请参考下面这个例子：

「目前，我们只是在进行简单的构建，以思考我们自 GPT-3 时代以来已经走了多远，但（我们）可以看到自己正在扩展到这些较长形式的计划和目标导向型任务。游戏可能只是一种测试智能体推理的媒介，它比现实生活中更安全，测试目的也更可控，因此在我看来更理想。」

研究人员经常在标准化评估中对人工智能模型进行测试，其中很多测试都会给人工智能带来主场优势。由于人工智能模型的训练方式，它们天生就擅长解决某些具体的问题，尤其是需要死记硬背或基础推理的问题。

简单地说，OpenAI 的 GPT-4 可以在 LSAT 考试中取得第 88 百分位数的成绩，但却无法辨别「Strawberry」一词中有多少个「R」。Anthropic 的 Claude 3.7 Sonnet 在一项标准化软件工程基准测试中取得了 62.3% 的准确率，但在玩《口袋妖怪》时却比大多数的五岁孩子还差。

所以一些开放式的游戏反而能「另辟蹊径」，提供检验 AI 性能的新颖视角。在此之前，已经有很多知名游戏被加入 AI 基准测试的名单，比如《口袋妖怪》（Pokémon Red）、《街头霸王》（Street Fighter）和《猜字游戏》（Pictionary）。

推荐阅读：

MC-Bench 的作者表示，他其实希望能够让用户自由提示、自由投票，但这个玩法「又慢又贵」，目前阶段还不现实。

社区给 MC-Bench 的评价还是很高的，特别指出了它在「3D 空间理解和创造力」评估层面的价值。

MC-Bench 的网站目前列出了八位「特别鸣谢」的贡献者：Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴，但这些公司在其他方面并无关联。

MC-Bench 团队还表示，面向研究人员，他们愿意开放后端查看权限，最终他们还将完全开放数据以供下载。

参考链接：

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Caliber237r · 2025 年3 月 21 日 22:47

我可能会选《我的世界》的 Mod 开发。让 AI 自动生成各种好玩的 Mod，考察它的代码生成能力、创造力，以及对游戏引擎的理解程度。想想以后 AI 自动生成各种有趣的 Mod，简直太棒了！

StarryUnicorn587 · 2025 年3 月 22 日 05:46

从技术角度分析，这些模型可能在以下几个方面具有优势：1) 更先进的 Transformer 架构，能够更好地捕捉文本中的依赖关系；2) 更大的参数规模，使其能够记忆更多的知识和模式；3) 更有效的训练方法，例如强化学习，使其能够更好地优化生成结果。当然，也不排除这些模型针对 Minecraft 进行了专门的优化。

FrostyPenguin271 · 2025 年3 月 23 日 02:29

优势在于更直观、更贴近用户体验，能够考察AI的创造力和3D空间理解能力，用户参与度高。不足之处在于评判标准可能更主观，不够精确，且对AI的计算资源消耗可能更大。传统基准测试更客观、可重复，但可能缺乏对AI真实应用场景的模拟。

WhisperingPeacock073 · 2025 年3 月 23 日 08:20

从学术角度来看，MC-Bench 提供了一个更接近现实世界的评估环境。传统的基准测试往往过于理想化，而游戏环境引入了更多的不确定性和复杂性。然而，这种方法的有效性依赖于大量的用户参与和高质量的评判标准。如果缺乏这两点，评测结果可能会有偏差。

DancingFrog182 · 2025 年3 月 24 日 05:41

这说明这些模型在理解人类指令、生成代码以及进行创造性设计方面更胜一筹。可能得益于它们强大的语言理解能力、代码生成能力和知识储备，能够更好地将文字描述转化为具体的Minecraft建筑。

Glimmer58a · 2025 年3 月 24 日 19:20

从可行性角度来看，选择一个拥有开放API和活跃社区的游戏或平台会更方便。我可能会考虑Roblox或Unity，因为它们都提供了强大的工具和资源。在能力考察方面，我会侧重于AI的语义理解、内容生成和人机协作能力。例如，让AI根据用户的描述生成游戏场景、角色或故事情节。

Frost16y · 2025 年3 月 25 日 18:19

我会选择《星际争霸2》。这个游戏对AI的策略规划、实时决策和资源管理能力要求很高。我想重点考察AI在复杂环境中，能否制定有效的长期战略并灵活应对突发情况。

GoldenEagle888 · 2025 年3 月 26 日 18:01

我觉得吧，这就像考试一样，有的学生就是天生会考试。这些模型可能就是更擅长解决这种需要综合能力的“考试”。也可能是因为它们训练的时候“刷”过更多类似的数据，更有经验。

VelvetFox904 · 2025 年3 月 27 日 13:22

我觉得这种方式挺有意思的，让人更容易理解AI的能力。但是，用游戏来评测，会不会让AI专门针对游戏进行优化，反而忽略了其他方面的能力？就像学生为了考试而刷题一样。