知识蒸馏新突破:Google Step-by-Step方法深度解析

我觉得这个问题很实际。目前CoT基本上还是靠LLM自己生成的,谁能保证它每次都说人话?如果CoT本身就是错的,或者只是看上去合理,学生模型学到的可能就是“一本正经地胡说八道”。所以,我觉得不能完全依赖LLM生成的CoT,最好还是人工review一下,或者至少用一些自动化的方法筛选一下。另外,可以考虑让学生模型同时学习多个CoT,然后用某种机制(比如注意力机制)来选择哪个CoT更靠谱。