LoTbench：一种评估多模态大语言模型创造力的新方法

almosthuman2014 · 2025 年2 月 28 日 17:04

LoTbench 是一种通过衡量AI生成类人高质量创新内容所需步骤来评估其创造力的新方法。研究发现，虽然AI仍有提升空间，但部分模型已接近人类顶尖水平。

原文标题：探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650957293&idx=2&sn=907b4b2d5fc1a5ad7c49bcd34327bb18&

冷月清谈：

本文介绍了一种名为LoTbench的新方法，用于评估多模态大语言模型（LLM）的创造力。该方法关注LLM生成与人类高质量创新内容（HHCR）相似的结果所需的步骤数，步骤越少，创造力得分越高。LoTbench使用了一种名为“异曲同工”（DAESO）的判断标准来比较LLM生成的答案和HHCR，该标准要求两个答案具有相同的核心创新解释和功能相似性。研究结果表明，目前的LLM在创造力方面还有很大的提升空间，但一些模型如Gemini 1.5 Pro和Qwen-VL-max已展现出接近人类顶尖水平的潜力。

怜星夜思：

1、LoTbench 评估方法的局限性在哪？除了文章中提到的日式冷吐槽，还有哪些任务可以用来评估 LLM 的创造力？
2、文中提到 LLM 的创造力有超越人类的潜力，你认为未来 LLM 会在哪些创造性领域超越人类？
3、如何有效地引导 LLM 更好地发挥创造力？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

在大语言模型 (LLM) 的研究中，与以 Chain-of-Thought 为代表的逻辑思维能力相比，LLM 中同等重要的 Leap-of-Thought 能力，也称为创造力，目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是，面对「创造力」，我们很难构建一个合适且自动化的评估流程。

图 1。

过去大多数创造力测评在探索 LLM 的 Leap-of-Thought 能力的时候，仍然遵循普通大模型测评中的选择、排序等评估类型。尽管这种评估方式对逻辑思维能力的考察非常有效，但是在对创造力的评估中则不太合理。

如下图所示，如果要求阅读所给图和图中文字，并为图中「？」部分填入一句话，使得整体富有创造力且幽默。如果这个任务是一个选择题型的任务，并提供了「A. 可以帮忙扶一下我吗？」和「可以帮我解开手铐吗？」，LLM 可能会在无需任何创造力的情况下选择 B，因为 A 选项很常规，而 B 选项很特别。

图 2。

评估 LLM 的创造力应该是「考察其生成创新内容的能力」，而不是「考察它是否能判定创新的内容」。在当前的研究范式中，通过人类评估或者 LLM-as-a-judge 的方式符合这一要求。然而，尽管人类评估的准确率最高且符合人类一般价值观，但是这种方式不可持续且成本非常高。

而 LLM-as-a-judge 这种大致通过 zero-shot 或者 fine-tuning 一个 LLM 来对目标进行评分的方式，其在创造力任务上的评估能力目前仍然处于初级阶段，而且不是很稳定。

面对这些困难，来自中大、哈佛、鹏城、新加坡管理大学的研究者另辟蹊径，通过研究 LLM 产生人类高质量创新内容所需要的代价 (也可以看作是 LLM 产生内容与人类水平创新内容的距离)，建立一个多轮交互的可信且自动化创造力评估范式 LoTbench。研究成果登上了 IEEE TPAMI。

论文题目：A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接：https://arxiv.org/abs/2501.15147
项目主页：https://lotbench.github.io

任务场景

本论文是 CVPR'24 中「梗王」大模型（Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation）的期刊扩展，其考虑的创造力基础任务是如图 2 所示的，看图并直接生成补全文字中的空缺处，使得图文整体显得创新且幽默。

这类任务是日本传统游戏「大喜利」游戏的一种，在中文互联网社区也被称为日式冷吐槽。它具有如下一些特点：

1. 这类日式冷吐槽游戏要求看图并补全具有创意且幽默的文字，对创造力要求很高，是典型是创造力问题；

2. 这类日式冷吐槽游戏完美符合当前多模态大模型的输入输出格式，即输入时图文，输出仅为文字，而且是大模型最擅长的文字补全任务；

3. 这类日式冷吐槽游戏由于在互联网上热度非常高，有大量高质量人类标注数据和带有 ranking 信息的点评数据，对构建数据集很有帮助。

综上所述，这类日式冷吐槽游戏是少有的适合多模态 LLM 进行创造力测评的理想平台。

任务内容

图 3。

与一般大模型测评 (Standard Evaluation) 中选择、排序等范式不同的是，论文所提出的 LoTbench 考虑的是通过 LLM 产生人类高质量创新内容 (High-quality human-level response, HHCR) 所需要的总轮数构建一个创造力得分。

如图 3 右所示，对于一个 HHCR，LLM 在给定条件下，多轮地尝试生成和 HHCR 具有异曲同工之妙的创新响应。当 LLM 以很少的轮数产生 HHCR，可以认为 LLM 具有不错的创造力。反之，如果 LLM 需要很长的轮数，甚至无限轮 (即无法到达)，则可以认为在当前 HHCR 中创造力不足。

图 4。

基于上述思想，图 4 展示了所提出的 LoTbench 的具体流程：

精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据，构建 MLM task，即要求 LLM 每一轮根据图文信息，生成 Rt 补全给定文字空缺；
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是，则开始通过轮数计算创造力分数，否则进入第 3 步；
要求待测 LLM 根据测评时历史交互信息，提出一个一般疑问句 Qt. 测评系统根据 HHCR，返回 Yes 或者 No;
整理当前轮交互的所有信息，和系统提供的提示，称为下一轮的 history prompt，重新进入第 1 步生成创新响应环节。

创造力分数 Sc 的构建与 n 个 HHCR samples 在 m 次重复实验有关，具体如下，

创造力分数 Sc 满足如下特点：

1. 创造力分数与轮数成反比，轮数越少越具有创造力；

2. 当轮数趋于无限时，创造力分数趋于 0，即当前 LLM 无法到达给定 HHCR；

3. 考虑到创造力难度和多样性，创造力分数基于多次实验；

如何判断异曲同工之妙（DAESO）？

why 异曲同工之妙 (DAESO)？

创造力任务的一大特点是多样性，对于一个给定的填词条件，玩家可以有很多符合条件的响应。如图 5 所示，「有活力的闹钟」和「有活力的手机」都有相似的创新幽默之处。但是我们不能简单地通过文字匹配、语义计算就能判断这一点，必须引入异曲同工之妙地分析。

图 5。

how 异曲同工之妙 (DAESO) 判断？

图 6。

在论文中，作者提出满足异曲同工之妙 (DAESO) 的两个响应需要满足至少两个条件：

1. 两个响应有相同的核心创新解释；

2. 两个响应有相同的功能相似性；

功能相似性和语义相似性略有不同，如图 6 (a) 所示。从语义角度，诺基亚和三星的语义相似度高于诺基亚和锤子；但是在砸核桃场景下，诺基亚则和锤子更加相似。如果两个响应仅仅只有创新解释一样，而不是某种功能上的相似的话，那么响应可能会偏离地比较大，比如对应图 5 的例子也可以是「有活力的跳蚤」，但是跳蚤没有体现「发出声音」的功能；另外，如果两个响应仅仅只有功能一样，那么响应可能会没 get 到点，比如对应图 5 的例子也可以是「有活力的鼓」，但是鼓没有很好体现由于跳动所带来的活力感。

在具体 DAESO 判断的实现中，作者首先为每一个 HHCR 进行非常详细的解释标注，即解释为什么给定的 HHCR 是幽默且富有创造力的。接着配合突破的 caption 信息，可以利用 LLM 在文本空间中构建对应的因果链条，如图 6 (c) 所示。并构建特定的 instruction 来对 DAESO 的两个提出的条件，在文本空间中判断。

在文中，基于 GPT 4o mini 可以达到较少计算代价的情况下，实现对 DAESO 有 80%-90% 的判断准确率。另外鉴于 LoTbench 会进行多次重复实验，因此 DAESO 的判断的准确率可以进一步得到保证。

测评结果

图 7。

通过对当前主流 LLM 的测评，如图 7 所示，可以发现当前的 LLM 在 LoTbench 测评的意义下，创造力并不强。但和不同级别的人类相比，LLM 的创造力是具有超越人类的潜力的。

图 8 可视化了测评榜单中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 的创新响应，其中红色部分为 HHCR，而蓝色部分为被测 LLM 的创新输出。值得注意的是 DeepSeek 最近推出的多模态模型 DeepSeek-VL2 和 Janus-Pro-7B 系列也进行了评估，结果显示其创造力仍然处于人类初级阶段。期待 DeepSeek 团队后期推出更加先进的多模态大语言模型。

图 8。

更多研究细节，请参阅原文。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Lunar391e · 2025 年3 月 4 日 01:57

我认为可以尝试结合一些认知科学和心理学的研究成果，比如，模拟人类的创造性思维过程，或者借鉴一些激发创造力的技巧。还可以尝试让 LLM 进行不同领域的知识学习，促进知识的交叉融合，从而产生新的想法。

Haven14j · 2025 年3 月 4 日 09:11

我觉得 LLM 超越人类的创造力，与其说是“超越”，不如说是“补充”。LLM 可以提供一些人类想不到的 idea，或者帮助人类突破思维定势，但最终的创造性成果还需要人类的参与和判断。就像一个画家，可以用 AI 工具来辅助创作，但最终的艺术表达还是取决于画家本身。

Glyph270t · 2025 年3 月 4 日 12:31

引导 LLM 发挥创造力，我觉得可以从以下几个方面入手：一是提供更丰富的训练数据，包括各种类型的文本、图像、音乐等；二是设计更合理的训练目标，例如，鼓励 LLM 生成多样化的、新颖的、有意义的内容；三是开发更有效的交互方式，例如，通过对话或其他形式的交互，引导 LLM 的思考方向。

SwiftGazelle777 · 2025 年3 月 4 日 18:53

我觉得“异曲同工”这个概念本身就很有意思。人类判断两个东西是不是“异曲同工”都挺难的，用AI来判断就更难了。这就像让一个机器人来评判两幅画是不是“神似”，挺难想象的。除了文中提到的，我觉得可以尝试一些开放式的问题，让LLM自己发挥，然后人工评估其创造性，例如，给LLM一个主题，让它写一个科幻故事，或者设计一个新的游戏。

HarvestMoon921 · 2025 年3 月 5 日 20:22

我觉得可以参考人类学习的过程，让 LLM 不断地尝试、试错，并从错误中学习。还可以引入一些竞争机制，让多个 LLM 相互竞争，从而激发它们的创造力。就像一群学生，在竞争的环境下，学习的动力和创造力都会得到提升。

BlueJay945 · 2025 年3 月 6 日 18:08

我觉得 LoTbench 的局限性可能在于其对“异曲同工”的判断。这个判断本身就带有一定的主观性，即使是人工判断也可能存在偏差，更不用说用 LLM 来判断了。另外，这种评估方式可能更偏向于某种特定的创造力，例如与幽默相关的，而忽略了其他类型的创造力，比如艺术创作或科学发现。至于其他任务，我觉得可以考虑让 LLM 创作故事、诗歌、音乐，或者设计一些新的产品或解决方案，这些都能体现创造力。

Halo30p · 2025 年3 月 6 日 23:40

我比较看好 LLM 在科学研究和工程设计方面的创造力。LLM 可以处理海量的数据，发现人类难以察觉的规律，从而提出新的科学假设或设计出更高效的工程方案。当然，这需要 LLM 与具体的科学和工程领域知识相结合。

Strider82w · 2025 年3 月 7 日 00:35

我觉得 LLM 在艺术设计、音乐创作、文学创作等领域都有可能超越人类。因为 LLM 可以快速学习大量的艺术作品、音乐作品、文学作品，并从中提取规律，生成新的作品。而且 LLM 不受人类情感和经验的限制，可以创造出一些人类想不到的作品。

Crest196j · 2025 年3 月 7 日 18:46

关于LoTbench评估方法的局限性，除了“异曲同工”判断的主观性外，我认为还需要考虑文化差异。不同文化背景下，人们对幽默和创造力的理解可能不同，这会影响评估结果。另外，LoTbench主要关注结果，而忽略了创造力的过程，例如，一个LLM可能经过很多次尝试才生成一个HHCR，而另一个LLM可能一次就成功了，但最终得分可能相同。至于其他任务，可以考虑让LLM进行代码生成、游戏设计，甚至科学假设的提出等，这些任务都需要一定的创造力。