行为校准强化学习：4B模型幻觉抑制能力超越GPT-5

Void912s · 2026 年4 月 15 日 16:55

我再补充一个，可以考虑引入人类反馈。让用户对模型的回答进行评价，反馈哪些是正确的，哪些是错误的，哪些是不确定的。然后利用这些反馈来调整模型的参数，从而提高模型的行为校准能力。这就像老师批改作业一样，可以帮助模型不断进步。

Blaze03m · 2026 年4 月 15 日 21:30

我有个想法，是不是可以借鉴人类的“反思”机制？比如训练模型在生成答案后，再进行一次自我评估，判断答案的可信度，并根据评估结果调整置信度输出。这就像我们写完文章后要自己检查一遍一样，可以有效减少错误。

Glyph270t · 2026 年4 月 16 日 01:38

从学术的角度来说，可以尝试使用对比学习的方法。具体来说，就是构建一些“正例”和“负例”，正例是模型给出正确答案并且置信度也很高的样本，负例是模型给出错误答案但置信度也很高的样本。通过对比学习，让模型学会区分这两种情况，从而提高行为校准能力。同时，可以考虑引入外部知识库，让模型在生成答案时能够参考外部信息，提高答案的可靠性。