阿里云发布金融领域推理大模型DianJin-R1,32B模型登顶榜首

阿里云发布DianJin-R1金融大模型,融合推理增强监督和强化学习,32B模型性能领先,推动金融科技智能化。

原文标题:阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

原文作者:机器之心

冷月清谈:

阿里云通义点金团队联合苏州大学推出金融领域推理大模型DianJin-R1,该模型通过融合推理增强监督和强化学习,显著提升了金融推理任务的表现。DianJin-R1的关键亮点包括:全面开源的Reasoning数据集DianJin-R1-Data,该数据集整合了FinQA和中国合规检查(CCC)数据集;全面开源的Financial Reasoning模型DianJin-R1-7B和DianJin-R1-32B,通过监督微调(SFT)和强化学习(RL)两阶段精细优化;以及基于通义点金平台的Multi-Agent System数据合成,实现了高效的模型优化。实验结果表明,DianJin-R1在金融领域的三大核心任务以及通用领域的数据集上均表现出色,尤其DianJin-R1-32B在性能测试中荣获第一名。该模型的发布推动了金融科技的智能化进程,并巩固了阿里云在金融大模型领域的领先地位。

怜星夜思:

1、DianJin-R1通过Multi-Agent System进行数据合成,这种方法在金融领域的应用前景如何?是否可以扩展到其他需要复杂决策的行业?
2、文章中提到DianJin-R1在CFLUE数据集上进行了训练,这个数据集主要针对金融从业资格考试。那么,这种训练方式对于提升模型在实际金融场景中的应用效果有多大帮助?是否会带来过度拟合特定类型问题的风险?
3、DianJin-R1在强化学习阶段使用了GRPO算法,并引入了格式奖励和准确性奖励。这两种奖励机制分别解决了什么问题?在实际应用中,如何确定合适的奖励权重?

原文内容


本文由阿里云通义点金团队和苏州大学联合完成。


近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果:DianJin-R1。这款推理增强型金融大模型,融合了先进的技术和全面的数据支持,专为金融任务而设计。



  • 论文地址:https://arxiv.org/abs/2504.15716

  • GitHub:https://github.com/aliyun/qwen-dianjin
  • Hugging Face:https://huggingface.co/DianJin
  • ModelScope:https://modelscope.cn/organization/tongyi_dianjin
  • 点金官网:https://tongyi.aliyun.com/dianjin


全面开源的 Reasoning 数据集DianJin-R1 的独特亮点之一是其全面开源的 Reasoning 数据集——DianJin-R1-Data。该数据集基于通义点金团队去年在 ACL-2024 上发表的 CFLUE Benchmark 上进行的全面升级,整合了 FinQA 和中国合规检查(CCC)数据集,为金融推理任务提供了强大的基础。目前已经开源,旨在支持和推动金融领域的研究和应用。


全面开源的 Financial Reasoning 模型DianJin-R1-7B 和 DianJin-R1-32B 模型已向公众全面开放。这些模型通过监督微调(SFT)和强化学习(RL)两阶段精细优化,在复杂金融任务中表现卓越。开源的强大模型为行业提供了更广泛的应用可能性,推动了金融 AI 的创新发展。


基于通义点金平台的 Multi-Agent System 数据合成更值得关注的是,我们通过通义点金平台实现了基于 Multi-Agent System 的数据合成。通过点金平台,我们构建了数据飞轮和模型优化机制,使得单次调用效果媲美高计算成本的多智能体系统。这不仅展现了 DianJin-R1 的出色性能,也展示了我们在模型优化和智能系统集成上的创新能力。


DianJin-R1-7B 以其轻量化参数和高效表现,成功媲美行业标杆模型 QwQ,展现出不凡的竞争力。而 DianJin-R1-32B 更是超越了所有参评模型,包括 DeepSeek-R1,荣膺性能测试的第一名,彰显了我们团队在人工智能和金融科技领域的卓越创新能力。


我们的评测基准不同于传统标准,DianJin-R1 不仅严谨测试了金融领域的三大核心任务,还特别引入了两个通用领域的数据集进行综合评估。这一全新方法不仅证明了 DianJin-R1 在专业金融领域的显著提升,也展示了其在通用任务中的表现。

DianJin-R1 的发布,不仅推动了金融科技的智能化进程,也进一步巩固了我们在金融大模型领域的领先地位,让我们期待 DianJin-R1 能在更多领域释放其强劲潜能。


背景

近年来,大型语言模型(LLMs)的进步引发了增强其推理能力的浓厚兴趣。像 OpenAI o1、DeepSeek R1 和 QwQ 等模型已经显示出,通过显式建模推理过程,可以显著提高在复杂任务上的表现。


尽管取得了这些改进,最近在金融基准上的评估揭示出,由于需要领域特定的知识、精准的数值推理以及严格遵循监管要求,金融领域的推理仍然特别具有挑战性。有效应对这些挑战需要专门的推理策略,能够处理结构化的金融信息和开放性问题解决。


为此,我们推出了 DianJin-R1,这是一种融合推理增强监督和强化学习来提高金融推理任务表现的 LLM。

DianJin-R1-Data 构建

首先通过三个主要来源构建了高质量的推理数据集 DianJin-R1-Data:CFLUE、FinQA 以及我们的专有合规数据集,用于中国合规检查(CCC)任务。


  • CFLUE包含了 38,638 道来自 15 种金融资格模拟考试的多项选择题,涵盖不同科目和难度。通过三步过滤流程,我们筛选了高质量问题:首先,移除少于 15 个词的简单题;其次,剔除能被所有较小语言模型正确回答的题目,以确保需要更深的推理能力;最后,利用 GPT-4o 去除含糊不清的问题,确保每个题目清晰明确。最终得到的题目集不仅有明确的正确答案,还附有详细解释,有助于评估模型的金融推理能力。


  • FinQAFinQA 是一个开源的英文基准数据集,包含 8,281 个金融问答对,这些问答对需要对财务报告进行数值推理。在我们的研究中,我们采用了与 CFLUE 数据集相同的长度和难度过滤条件,以确保质量和复杂性。因此,我们精心整理出了一个高质量的问答对子集,非常适合在英语语境中评估金融推理能力。


  • CCC(基于 Multi-Agent System 数据合成):聚焦于需要多步骤逻辑的复杂合规场景。为确保推理质量,我们利用通义点金平台 Multi-Agent System 进行了 Reasoning 数据合成,并采用了 GPT-4o 的验证过程,检查生成的答案、推理步骤和参考解释之间的对齐。这一过程产生了一套可靠的推理增强和非推理样本,支持更稳健的模型训练。



基于 Multi-Agent 系统的数据合成样例

DianJin-R1 两阶段训练

对于监督微调(SFT),我们基于 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 训练了 DianJin-R1-7B 和 DianJin-R1-32B,生成的推理过程和最终答案采用结构化输出格式。为了进一步提高推理质量,我们应用了群体相对政策优化(GRPO),这是一种强化学习算法,引入了两个奖励信号:一种格式奖励以鼓励结构化输出,还有一种准确性奖励以促进答案的正确性。这些机制引导模型生成连贯、可验证的推理路径和可靠的答案。


实验结果

我们对 DianJin-R1 模型以及其他通用领域的推理和非推理模型进行了评估,评估范围包括 CFLUE、FinQA、CCC、MATH-500 和 GPQA-Diamond 等多样化的基准。结果表明,增强推理的模型在金融领域始终优于其对应的非推理模型。特别是,单独在 CFLUE 上进行训练在所有任务中都取得了显著提升,结合所有数据集进一步增强了性能。我们的分析还强调了强化学习的益处,尤其当奖励信号与任务领域对齐时。


最后,我们在 CCC 数据集上展示了这一方法的实际应用,采用 LLMs 构建的 Multi-Agent 系统进行基于条件的合规检查。通过为工作流中的每个决策节点分配专门的代理,该系统有效地整合了中间推理步骤,最终做出合规判断。


结论

综上所述,DianJin-R1 通过结合高质量监督、结构化推理生成和基于奖励的强化学习改进,提供了一种可扩展且有效的策略来增强 LLMs 中的金融推理能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

格式奖励,我理解是为了让模型输出更规范、更易于理解,就像写作文要符合格式一样。准确性奖励,那肯定是为了保证答案的正确性,毕竟金融领域数据可不能出错。至于奖励权重,我觉得可以尝试一些自动化的方法,比如用强化学习或者进化算法来搜索最优的权重组合。当然,也可以结合人工经验,不断进行调整和优化。

我来抛砖引玉。Multi-Agent System 在金融领域数据合成中的应用,我认为关键在于它能模拟真实的市场环境和参与者行为。这对于生成高质量的、具有挑战性的训练数据非常重要。比如,可以模拟不同投资者的交易策略,或者监管机构的合规检查等。这种方法当然可以扩展到其他行业,只要这些行业涉及到复杂的决策过程和多方参与者之间的互动,比如供应链管理、智能交通、甚至医疗决策等。不过,需要注意的是,不同行业的具体应用场景和数据特征差异很大,需要进行定制化的设计和优化。

楼上的,刷题这个比喻很形象!我补充一点哈,CFLUE数据集主要考察的是金融从业人员需要掌握的基础知识,比如金融法规、会计准则、投资策略等等。这些知识对于理解金融市场的运作规律和风险管理非常重要。因此,通过CFLUE数据集的训练,可以提高模型对金融领域专业术语和概念的理解能力,这对于模型在实际金融场景中的应用是有帮助的。至于过度拟合的风险,我觉得可以通过一些技术手段来避免,比如数据增强、正则化、dropout等等。

关于CFLUE数据集训练,我感觉像是在给AI“刷题”。刷题当然有用,可以提高模型对金融知识的掌握程度,就像我们备考一样。但是,实际金融场景远比考试复杂,充满了不确定性。如果模型只学会了“套路”,可能会在面对新问题时束手无策。所以,我觉得关键在于如何平衡“知识”和“能力”,既要让模型掌握金融知识,又要培养它解决实际问题的能力。除了CFLUE,还需要更多真实数据的训练,以及一些“开放式”问题的训练。

GRPO算法是一种Policy Optimization的算法,引入格式奖励和准确性奖励的目的是为了引导模型生成高质量的金融推理过程。其中,格式奖励鼓励模型生成结构化的输出,例如包含推理步骤和最终答案的报告。准确性奖励则鼓励模型生成正确的答案。在实际应用中,确定合适的奖励权重是一个难题,通常需要进行大量的实验和调参。一种常用的方法是使用强化学习中的超参数优化算法,例如贝叶斯优化或者进化算法,来搜索最优的奖励权重组合。另一种方法是通过人工经验进行调整,例如根据模型的实际表现,调整格式奖励和准确性奖励的比例。

从技术角度看,Multi-Agent System 的数据合成方法的核心在于agent的设计和agent之间的交互机制。金融领域的agent可以代表不同的市场参与者,例如投资者、交易员、监管机构等,每个agent都有自己的目标、策略和约束条件。而交互机制则模拟了市场上的各种交易行为、信息传递和监管规则。这种方法可以生成大量带有标签的训练数据,用于训练金融领域的AI模型。个人认为这种思想具有一定的通用性,可以应用于其他领域的数据合成,比如智能制造、智能交通等。但是,需要根据具体领域的特点,设计合适的agent和交互机制。

格式奖励解决了大语言模型输出不稳定,经常胡说八道的问题。尤其是在金融领域,报告,研报,各种分析都有固定的模版和格式,输出如果不贴合格式,那价值会大打折扣;准确性奖励,这没啥好说的,金融领域对于准确性要求极高,一个小数点错位可能就会造成巨大的损失。至于奖励权重,我觉得这是一个trade-off,需要在格式和准确性之间找到平衡。如果太注重格式,可能会导致模型为了迎合格式而牺牲准确性;如果太注重准确性,可能会导致模型输出过于随意,难以理解。

楼上说得有道理!感觉Multi-Agent System就像一个“沙盘推演”工具,可以帮助我们在虚拟环境中进行各种实验,而不需要承担真实风险。金融领域本身就有很多不确定性,通过模拟各种场景,可以帮助模型更好地适应真实环境。其他像能源、物流这些领域,同样面临着很多复杂的优化问题,也可以借鉴这种思路。但问题也来了,这个“沙盘”搭建得好不好,直接决定了实验结果的可靠性。要确保模拟环境足够真实,需要对行业有深入的理解,并且要有足够的数据支撑。

从我的理解来看,使用CFLUE数据集进行训练,可以看作是对模型进行“预训练”。预训练的目的是让模型学习到一些通用的金融知识和推理能力,然后再在实际金融场景的数据上进行微调。这种“预训练+微调”的模式在自然语言处理领域非常常见,可以有效地提高模型的性能。当然,过度拟合的风险是存在的,需要在训练过程中进行监控和调整。另外,CFLUE数据集的质量也很重要,如果数据集中存在错误或者偏差,可能会导致模型学习到错误的知识。