图结构助力大语言模型提升逻辑推理能力

本文探讨图结构的数据合成如何提升大语言模型的逻辑推理能力,尤其在复杂多跳推理任务中的表现。

原文标题:图结构赋能语言模型:华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

原文作者:数据派THU

冷月清谈:

本文探讨了基于图的合成推理数据如何增强大语言模型(LLM)在复杂逻辑推理任务中的表现,强调了此方法的创新性及其潜力。尽管大语言模型在自然语言处理上取得显著进展,但在多跳推理和复杂关系的理解上仍面临挑战。研究团队提出利用图结构化的数据进行后期训练,以提高模型在逻辑推理任务中的精度与生成质量。通过构建关系图并进行随机游走采样,该方法能有效创建抽象推理链,从而显著提升多跳逻辑推理的效果。实验在CLUTRR与StepGame两个基准任务上表明,基于图的数据合成方式优于传统方法,尤其在高复杂度场景下表现突出。此外,研究还提出了一种新型提示策略ETA-P,通过提取逻辑链来提升模型的推理能力。这一研究不仅展示了结构化数据在逻辑推理中的重要性,也为未来的LLM研究提供了新的思路。

怜星夜思:

1、基于图的数据合成与传统方法相比,最大的优势是什么?
2、新型提示策略ETA-P是否能广泛应用于其他LLM的训练?
3、该研究对未来的LLM发展有哪些启示?

原文内容

图片
来源:深度图学习与大模型LLM

本文约2200字,建议阅读5分钟

本文探讨了通过基于图的合成推理数据作为训练监督信号,以提升大语言模型(LLM)在逻辑推理任务中的表现,同时揭示了这种方法的潜力和局限性。


https://arxiv.org/abs/2409.12437

大语言模型(LLMs)在理解和生成类人语言方面取得了巨大的进步,展现了其在自然语言处理上的强大潜力。然而,当涉及逻辑推理,尤其是多跳推理和复杂关系时,这些模型的能力仍然有待提高。LLM 的未来不只是通过更大的模型和更多的数据来实现,而在于如何使用更智能的数据和更有效的方法来训练这些系统,从而增强其逐步推理的能力。最近的研究表明,基于图的合成数据可能是提升 LLM 逻辑推理能力的关键突破口。

1. 研究目的


本文探讨了通过基于图的合成推理数据作为训练监督信号,以提升大语言模型(LLM)在逻辑推理任务中的表现,同时揭示了这种方法的潜力和局限性。研究团队提出了一种创新方法,利用图结构化数据进行任务特定的后期训练,以提高模型在逻辑推理任务中的准确性和生成质量。

论文链接: https://arxiv.org/abs/2409.12437

2. 逻辑推理的挑战


尽管近年来在训练和提示策略上取得了显著进展,大语言模型(LLMs)在处理多跳推理任务时仍然面临挑战。例如,像 Mistral 和 Llama 这样的模型在理解上下文方面表现得非常出色,但在推断家庭关系或处理空间位置等多跳复杂推理任务上,仍然存在性能瓶颈。这些任务不仅需要记忆和模式识别能力,还需要模型能够深入理解和处理复杂的逻辑关系链。


3. 数据合成相关工作


近期几项研究[1] [2]已经证明通过在更强大的LLMs生成的合成数据上进行微调,可以有效提升LLMs的推理能力。然而,如何使这种合成数据生成对特定应用有效且保证可控生成仍是一个悬而未决的问题。同时需要进行广泛的提示工程和进一步的人工干预来指导LLMs的生成,但生成的长链推理问题的难度及其标签的质量仍然不可保证[3][4].

4. 基于图的合成数据


研究团队提出了一种创新方法[5],利用基于图的合成数据来弥补 LLM 在推理能力上的不足。与仅依赖自然语言数据不同,他们将逻辑推理任务转换为图表示——节点代表实体(如家庭成员或空间位置点),边代表它们之间的关系。

为了生成这些合成数据,研究人员采用了一种关系图构建方法,通过迭代建立连接并生成推理样本。通过随机游走采样,可以可控的创建不同复杂度的抽象推理链(通过游走的步数控制数据的复杂度),并进一步实例化推理链条完成数据合成。这种方法在生成长逻辑链方面表现优于传统方法,同时在经济性上也更加高效。

他们将此方法应用于两个基准逻辑推理任务:用于人物关系推理的 CLUTRR 和空间推理的 StepGame。这些基准代表了多跳推理任务,模型必须通过多步逻辑推导来得出正确结论。实验结果表明,利用基于图的合成数据SFT大模型后可以显著提升模型在多跳逻辑推理任务中的表现,尤其是在复杂情境下效果尤为显著。



5. 互补的提示策略


除了合成数据,研究团队还提出了一种新型的提示策略,称为 ETA-P (Extract then Answer - Prompting: 提取逻辑链然后回答的提示)。与标准提示策略STD-P (Standard Prompting)不同,ETA-P 首先引导模型从输入文本中提取关系图,然后再尝试回答问题。这种方法类似于Graph版本的“Chain of Thought Prompting”,帮助模型系统分解复杂问题,先整理关键信息形成推理链条,再逐步推导出结论。

6. 基线设置


作者评估了三种系统配置,均使用指令调教的 LLM 作为主干模型:

  1. FS(Few-shot):模型在少样本条件下测试,无额外微调。
  2. SFT-S(监督微调):模型在官方训练集上进行监督微调,使用自然语言故事数据。
  3. SFT-S+k:微调数据由原有训练故事加上 k 条基于图游走的合成样本组成。
在主要实验中,作者使用了 Mistral-2-7B 作为主干模型,并包含商业闭源模型 GPT-4o 的少样本测试结果。

7. 研究结果


基于图的合成数据和提示策略在实验中取得了显著效果。微调后的模型在高复杂度场景中的表现明显优于仅依赖传统标注数据训练的模型。具体来说,作者在 StepGame 和 CLUTRR 这两个基准数据集上进行实验,观察到添加合成数据后模型在推理复杂度上取得显著进步并且符合训练数据的scaling law,甚至在某些情况下超越了商业闭源模型 GPT-4o。此外,所有模型在推理复杂度从低到中再到高时,性能都出现了系统性下降,这表明特别复杂的推理任务仍然对 LLMs 构成了重大挑战。


8. 提示词策略消融实验


作者还研究了不同提示词对推理任务的影响。在少样本设置下,使用 ETA-P 提示词反而导致性能下降,主要原因是模型未能准确提取故事中的图关系,导致整体性能不佳。然而,在监督微调(SFT)条件下,使用 ETA-P 提示策略显著提高了模型的推理性能,这表明提示词工程在推理任务中是有效的补充手段。


9. 结论


这项工作凸显了结构化数据增强在提高 LLM 推理能力方面的巨大潜力。通过使用基于图的合成数据和新型提示策略,研究团队显著提升了大型语言模型在逻辑推理任务中的表现,尤其是在多跳推理和复杂逻辑关系处理方面。未来工作可能包括对更复杂图结构数据的研究,或将该方法应用于更多类型的通用逻辑推理任务,从而进一步推动 LLM 在实际应用中的性能提升。

[1] Can Xu, et al. 2024. Wizardlm: Empowering large language models to follow complex instructions. In ICLR.

[2] Marah Abdin, et al. 2024. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219.

[3] Arnav Gudibande, et al. 2023. The false promise of imitating proprietary llms. arXiv preprint arXiv:2305.15717.

[4] Yizhong Wang, et al. 2023. How far can camels go? exploring the state of instruction tuning on open resources. In NeurIPS.

[5] Jiaming Zhou, et al. 2024. Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data. arXiv preprint arXiv: 2409.12437.


编辑:王菁
编辑:龚力



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

这项研究强调了数据的质量和结构化的重要性,未来的LLM或许会更多地依赖于高质量的合成数据,而非单纯依赖于大规模的未标注数据。

未来的模型发展可以借鉴这样的创新思路,即通过改进训练数据的智能化构建,提升模型在复杂推理任务中的表现。

我认为还可以探索其他潜在的结构化数据方式,比如结合图像或视频数据,这样的多模态学习可能会开启新的研究方向。

ETA-P的逻辑提取方法听起来很有前景,但我认为仍需要根据具体任务进行调整。不同类型的任务可能对提示策略有不同的要求。

这取决于具体的模型架构和任务需求。如果能够将ETA-P与其他成功策略结合,效果可能会更明显。

有可能,但建议在实际运用中进行充分的测试,确保策略的通用性和灵活性。毕竟每个模型的训练数据和应用场景都是不同的。

基于图的数据合成能够更系统地表示实体及其关系,从而提供更清晰的逻辑链条,这使得模型在多跳推理的表现上更加优于传统方法。

感觉最大的优势在于可控性,通过不同的图结构和关系,可以灵活地生成各种复杂度的数据,这让模型能更好地应对意外情况。

通过迭代建立连接和随机游走,基于图的方法可以产生更丰富的推理样本,避免传统方法中的数据稀疏和不平衡问题。