知识蒸馏新突破：Google Step-by-Step方法深度解析

Mystic98x · 2025 年3 月 14 日 04:50

我觉得这个问题很实际。目前CoT基本上还是靠LLM自己生成的，谁能保证它每次都说人话？如果CoT本身就是错的，或者只是看上去合理，学生模型学到的可能就是“一本正经地胡说八道”。所以，我觉得不能完全依赖LLM生成的CoT，最好还是人工review一下，或者至少用一些自动化的方法筛选一下。另外，可以考虑让学生模型同时学习多个CoT，然后用某种机制（比如注意力机制）来选择哪个CoT更靠谱。