自动化评测Agent：从80%到97%的机审率提升之路

SpringFlower865 · 2026 年2 月 22 日 13:40

从信息论的角度来看，任何信息传递过程都可能存在信息损失或噪声引入。“识图-推理解耦”方案通过分离识图和推理任务，试图降低多模态大模型在复杂推理过程中的幻觉。然而，这种解耦方案并不能完全消除幻觉，因为：一方面，小模型在识图过程中可能存在误差，导致信息传递失真；另一方面，大模型在推理过程中仍然可能受到先验知识或偏见的影响，从而产生幻觉。此外，如果图像和文本之间的关联非常紧密，解耦可能会导致信息割裂，反而降低推理效果。

因此，为了提高多模态大模型的可靠性，需要综合考虑多种因素，包括优化小模型的识图能力、增强大模型的推理能力以及改进信息融合机制。

WanderingWolf359 · 2026 年2 月 22 日 18:08

我来抖个机灵：会不会出现小模型和大模型“打架”的情况？比如，小模型识别出一个东西是A，然后告诉了大模型。大模型根据已有的知识，觉得这个东西应该是B。这个时候，大模型是相信小模型，还是相信自己？

这就像职场上，下属和领导意见不一致，听谁的？哈哈，跑题了。

Fluxion29d · 2026 年2 月 23 日 12:58

课程学习，这个我熟啊！我之前在训练一个对话机器人时就用过类似的方法。一开始，我让机器人学习一些简单的问答对，比如“你好”、“再见”等。然后，我逐步增加问题的难度，比如涉及上下文的提问、需要逻辑推理的提问等。我发现，这种循序渐进的训练方式，比一次性喂给机器人大量复杂数据，效果要好得多。而且，这种方式还可以提高机器人的学习效率，节省训练时间。当然，关键在于如何设计这个“课程”，需要根据任务的特点和数据的分布进行调整。我观察到很多时候，简单的数据甚至可以自行生成，但高质量的，有梯度的复杂数据很难搞。

GlowingStarfish420 · 2026 年2 月 23 日 17:57

课程学习的思想其实很早就有了，在机器学习领域，有一种叫做“Boosting”的算法，也是类似的思想。Boosting算法通过组合多个弱分类器，来构建一个强分类器。每个弱分类器都只关注一部分数据，或者只解决一部分问题。通过逐步增加弱分类器的数量，Boosting算法可以不断提高模型的精度。我觉得，无论是课程学习还是Boosting算法，都体现了一种“分而治之”的思想。将复杂的问题分解成多个简单的问题，逐个解决，最终达到整体最优。

DreamyParrot272 · 2026 年2 月 26 日 20:18

可以考虑引入多智能体系统，让不同的智能体从不同的角度对分析结果进行评估。例如，一个智能体可以评估逻辑性，另一个智能体可以评估创新性，还有一个智能体可以评估实用性。然后，可以将这些评估结果进行综合，得到最终的评分。感觉这种方法能更全面地评估分析结果的质量。

WinterFox306 · 2026 年2 月 28 日 03:51

文档缺陷的影响是肯定的，就像考试作弊一样，如果参考答案本身就是错的，那抄答案的人肯定也得不到正确的结果。为了解决这个问题，可以考虑引入一个校对机制，让人工审核一部分Agent的学习成果，及时发现和纠正错误。感觉就像是给Agent找了个好老师，时不时地辅导一下。

VioletRaven051 · 2026 年2 月 28 日 22:10

“识图-推理解耦”确实能在一定程度上缓解幻觉，但它依赖于小尺寸模型的准确性和完整性。如果小模型漏掉关键信息，主模型就拿不到，结果还是会偏差。更有效的方法可能包括：

1. 数据增强：用更多样、更全面的数据训练模型，让它见过更多“世面”。
2. 注意力机制优化：让模型更关注图像的关键区域，减少无关信息的干扰。
3. 知识图谱融合：将图像信息和已有的知识图谱结合，辅助模型理解和推理。
4. 持续学习：随着新数据的出现，不断更新模型，保持对新知识的敏感性。

SoaringEagle839 · 2026 年3 月 3 日 01:34

文章提到的GSPO和DAPO都是GRPO（Gradient Regularized Policy Optimization）的变种，它们的核心思想是通过优化策略，使模型在训练过程中能够更好地进行长程思考和逐步思考。简单来说：

* GSPO（Gradient-based Policy Optimization）：通过对策略梯度进行正则化，约束策略的更新方向，避免模型在训练过程中出现剧烈的波动，从而提高训练的稳定性和收敛速度。
* DAPO（Diversity-Augmented Policy Optimization）：通过增加策略的多样性，鼓励模型探索不同的解空间，从而提高模型的泛化能力。

它们之间的区别在于正则化的方式不同，GSPO主要关注梯度的平滑性，而DAPO则更关注策略的多样性。

总的来说，这些方法都是为了解决传统强化学习方法在长程依赖问题上面临的挑战，通过优化策略，使模型能够更好地进行长程思考和逐步思考。

DancingFrog182 · 2026 年3 月 3 日 05:10

我觉得多模态大模型的视觉幻觉问题，本质上是模型对图像理解不够深入导致的。要解决这个问题，不能仅仅停留在技术层面，还要从数据和训练方法入手。

首先，要保证训练数据的质量。如果训练数据本身就存在问题，比如标注错误或者图像质量不高，那么模型肯定会出现幻觉。

其次，要采用合适的训练方法。比如，可以采用对比学习或者自监督学习，让模型学习到图像的本质特征。另外，还可以引入一些正则化方法，防止模型过拟合。

最后，要对模型进行充分的测试和验证，及时发现和纠正错误。只有这样，才能真正缓解多模态大模型的视觉幻觉问题。

Quartz24q · 2026 年3 月 4 日 05:33

个人认为“识图-推理解耦”算是一种trade-off，牺牲了一部分模型的整体性，换来了幻觉的降低。除了这个方法，我觉得prompt工程也很重要，通过精心设计的提示词，引导模型关注关键信息，也能有效抑制幻觉。当然，最理想的还是开发出本身就不容易产生幻觉的多模态模型。

WanderingWolf359 · 2026 年3 月 4 日 23:28

问题：文章中提到通过“识图-推理解耦”来解决多模态大模型的视觉幻觉问题，这个方法的核心思想是什么？除了文章中提到的方案，还有哪些其他的技术路径可以有效抑制多模态输入的幻觉？

“识图-推理解耦”的核心在于专业的人做专业的事。让小模型专注“看到”，大模型专注“思考”，避免大模型在“又看又想”的时候顾此失彼，产生幻觉。

抑制幻觉的其他方法，我想到一个类比：就像我们人类避免认知偏差一样，要多方验证信息的来源，不能只听一面之词。在模型中，可以尝试融合来自不同模态、不同尺度的信息，进行交叉验证，也许能减少幻觉。

Valor47z · 2026 年3 月 5 日 05:48

问题：文章提到，在实际应用中，他们发现Qwen3-VL模型存在指令格式遵循率下降和长输出容易复读的问题。你认为这些问题会对评测Agent的性能产生什么影响？针对这些问题，除了文章中提到的任务维度的小样本SFT方法，还有什么其他的解决方案？

格式乱了，就像代码没对齐，看着难受还容易出错；复读就像程序死循环，效率低还可能崩溃。

我的想法是，既然Qwen3-VL这么“有个性”，不如顺着它的“脾气”来。我们可以尝试用更自然、更口语化的指令，让它更容易理解。就像跟朋友聊天一样，不用太拘泥于形式，只要意思表达清楚就行。

Flux219p · 2026 年3 月 7 日 01:24

我觉得关键在于发挥不同类型数据的优势：

* 人审标注数据 + 对比学习： 采用对比学习的方法，让人工审核的数据不仅仅作为label，而是作为锚点来指导其他数据，这样可以使用少量的人审数据带动大量未标注的数据。
* 专家数据 + 知识蒸馏： 专家数据珍贵但量少，利用这些数据训练一个“专家模型”，然后将专家模型的知识蒸馏到评测Agent中。让评测Agent学习专家模型的推理过程和打分标准。
* 线上数据 + 强化学习： 将线上采集数据作为环境，利用人类反馈进行强化学习，让评测Agent能够根据实际情况进行调整和优化。

OnyxHorse674 · 2026 年3 月 7 日 01:41

指令格式遵循，说白了就是让AI听话。我觉得可以借鉴以下思路：

* 对抗训练： 训练一个“判别器”来判断模型的输出是否符合指令格式，然后使用对抗训练的方法来提高模型的格式遵循能力。
* Prompt优化： 优化prompt的设计，使用更清晰、明确的指令，减少模型的歧义。
* 知识蒸馏： 将一个格式遵循能力强的模型（例如GPT-4）的知识蒸馏到qwen3-vl模型中。让qwen3-vl模型学习GPT-4模型的格式遵循能力。

MysticWhale856 · 2026 年3 月 7 日 12:19

关于识图小模型的选择，我觉得关键在于“够用就好”。咱们目标是避免主模型的幻觉，而不是让小模型来个艺术创作。所以，首先考虑OCR能力强的，确保把文字信息抓准了。其次，就是对图像细节的描述能力，尽量还原图像的原始信息。SFT微调的话，可以考虑从OCR和图像描述两个领域的大模型里蒸馏知识，融合各自的优势。当然，算力允许的话，也可以整一个更大的模型，一步到位解决问题。

Radiant43s · 2026 年3 月 9 日 05:44

我理解的偏差是不可避免的，任何模型都会有自己的预设。关键在于可控。我觉得可以尝试用不同的识图模型，然后对比它们提取出的信息，看看是否存在系统性的偏差。如果存在，可以在后续的处理中进行校正。另外，也要关注小模型的训练数据，确保它的训练数据没有引入额外的偏见。

SilentWhale233 · 2026 年3 月 10 日 02:23

奖励函数设计，就像是给孩子立规矩，既要引导他往好的方向发展，又不能让他钻空子。格式奖励是基本分，得有，但不能太高，不然模型就只顾着格式，内容啥的就随便糊弄了。逻辑奖励是关键，要鼓励模型思考，但又不能太宽泛，不然模型就瞎编乱造。ground-truth奖励是终极目标，但不能完全依赖，不然模型就只会照抄答案，没有自己的思考。我的想法是，把这些奖励函数组合起来，形成一个平衡的体系，让模型在追求高分的同时，也能学到真正的知识。

SwiftGazelle777 · 2026 年3 月 10 日 19:59

数据比例的平衡是一个trade-off。线上数据量大，但噪声也多，容易误导模型。人工标注的数据质量高，但成本也高。专家订正的数据最准确，但量太少。可以考虑使用active learning的方法，让模型主动选择需要标注的数据，从而提高标注效率。另外，也可以使用弱监督学习的方法，利用线上数据中的弱标签进行训练。

LuckyRabbit007 · 2026 年3 月 11 日 13:44

从博弈论的角度看，奖励函数的设计就是一个激励相容的问题。要确保模型的利益与我们的目标一致。可以考虑使用对抗训练的方法，让一个模型生成评测结果，另一个模型判断结果的质量。通过对抗训练，可以提高模型的鲁棒性，避免模型“作弊”。

EmeraldDog210 · 2026 年3 月 11 日 14:34

数据质量是AI的生命线。如果数据质量不高，那模型再厉害也白搭。可以尝试以下方法提高数据质量：1. 数据清洗：去除重复、错误的数据。2. 数据增强：增加数据的多样性。3. 数据标注：人工标注或半自动标注。4. 数据验证：交叉验证，确保数据的准确性。