原文标题:OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了
原文作者:机器之心
冷月清谈:
证明者-验证者博弈
为了使复杂的模型输出更易理解,OpenAI采用了一种称为“证明者-验证者博弈”的方法。该方法让一个强大的“证明者”模型生成答案,而一个较弱但可信的“验证者”模型验证答案的正确性。通过博弈,证明者生成的可读性更强的答案,同时保持合理的正确性。
模型博弈的应用
研究人员通过让模型解决小学数学问题,验证了该方法的有效性。结果表明,经过训练的模型生成的答案更易于理解,人类评估者判断答案正确性的准确率也有所提升。
适用范围
这种方法适用于所有需要精确沟通的领域,包括医疗、金融和法律。通过提高模型输出的可读性,可以增强人工智能应用的有效性和可信度。
OpenAI超级对齐团队遗作
值得注意的是,这篇论文来自OpenAI的超级对齐团队,这是团队的最后一篇论文。该团队旨在开发与人类价值观相一致的AI系统。
怜星夜思:
2、证明者-验证者博弈方法的局限性是什么?
3、如何进一步提高AI输出的可读性和可信度?
原文内容
机器之心编辑部
如果 AI 模型给的答案一点也看不懂,你敢用吗?
-
论文标题:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
-
论文链接:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?
-
「验证者」训练:研究团队训练较弱的「验证者」模型,验证「证明者」给出的答案是否正确。
-
「证明者」训练:研究团队指示性能较强的「证明者」模型扮演「有用」或「狡猾」的戏份。
-
当「证明者」被设定为「有用」时,研究团队将奖励「验证者」打分高的正确答案。
-
当「证明者」被设定为「狡猾」时,研究团队反而奖励「验证者」打分高的错误答案。
-
一个仅在人类编写的推导上进行监督式微调的模型,虽然具有较高的可读性,但准确性较差。
-
当模型的优化目标仅为正确性,即只关注生成正确答案时,虽然能够达到高准确性,但生成的解决方案的可读性却较差。
-
OpenAI 提出的可检查博弈方法平衡了这两者,在保持高可读性的同时保持适度的准确性。
-
鲁棒验证者:即使解决方案具有误导性,仍能够有效区分正确和错误的解决方案。
-
有用的证明者:生成对人类来说易于理解的解决方案,从而减少人类评估者的错误。
-
狡猾证明者:产生微妙的、错误的解决方案,这些解决方案最初会混淆人类评估者,从而突出需要进一步改进的领域。
问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]