LFPBench:基于证据的法律事实预测基准数据集,弥合法律AI的现实鸿沟

介绍了一种新的法律AI任务——法律事实预测(LFP),并构建了首个LFP基准数据集LFPBench,实验表明该方法能够有效提升法律判决预测的准确率。

原文标题:原创丨弥补法律判决预测的现实鸿沟:基于证据的法律事实预测(LFP)范式与LFPBench基准数据集(二)

原文作者:数据派THU

冷月清谈:

本文介绍了法律判决预测(LJP)领域面临的现实挑战,即现有研究主要基于已认定的法律事实,而忽略了诉讼早期只有证据的情况。对此,文章重点介绍了法律事实预测(LFP)这一新范式。LFP任务旨在利用当事人提交的证据来预测法律事实,弥补证据到判决之间的gap。文章深入阐述了LFP任务的理论框架,介绍了首个LFP基准数据集——LFPBench的构建过程,该数据集包含了中国裁判文书网的657个民事案件样本,并详细说明了数据集中证据收集、信息提取、数据清洗和标注过程。通过对比实验验证了LFP的有效性,并使用GPT-4o、Claude 3.5 Sonnet等模型进行了实证分析,结果表明LFP能缩小基于证据的预测与基于事实的预测之间的性能差距。本文最后还分析了当前模型在处理冲突证据、长文本推理以及证据数量和顺序上的系统性偏见,旨在为法律AI研究人员提供参考。

怜星夜思:

1、LFPBench数据集主要针对民事案件,那么这种基于证据预测法律事实的范式,在刑事案件中是否适用?又会面临哪些新的挑战?
2、文章提到LFPBench数据集存在“证据对抗性”,即被告会提交反证。那么,如果原被告双方提交的证据互相矛盾,模型应该如何处理?有没有什么好的解决方案?
3、文章里提到,现在的模型在处理长文本证据时表现不佳,难以提取关键信息。除了优化模型本身,有没有其他思路可以缓解这个问题?

原文内容

图片
作者:张瀚元
本文约3000字,建议阅读5分钟
本文介绍了 LFP 范式、LFPBench 数据集构建及前沿模型实证分析。


[ 摘要 ] 随着自然语言处理(NLP)技术的飞速发展,法律判决预测(LJP)已成为法律科技领域的核心任务之一。然而,现有的LJP研究主要集中在基于既定法律事实(Fact-based)的预测上,这一范式在实际应用中存在严重的逻辑与时序悖论:在诉讼早期,当事人仅掌握证据而非法院认定的事实。针对这一痛点,Junkai Liu等人(2025)的最新研究深入地探讨了一种全新的任务范式——法律事实预测(Legal Fact Prediction, LFP)。该任务旨在利用当事人提交的证据预测法律事实,从而填补从证据到判决的关键缺失环节。


本文详尽阐述了LJP领域的现状与局限,定义了LFP任务的理论框架,并详细介绍了首个LFP基准数据集——LFPBench的构建过程。基于该数据集,本文对包括GPT-4o、Claude 3.5 Sonnet以及多个法律垂域大模型在内的前沿模型进行了详尽的实证分析。实验结果表明,引入LFP任务能够显著缩小基于证据的预测与基于事实的预测之间的性能差距,平均减少了38.5%的准确率损失。同时,本文深入剖析了当前模型在处理冲突证据、长文本推理以及在证据数量与顺序上表现出的系统性偏见。本文旨在为法律AI研究人员、从业者及政策制定者提供一份详实、深刻且具有前瞻性的参考资料。


第三章 LFPBench:首个法律事实预测基准数据集


由于此前没有包含完整证据清单的公开数据集,研究团队构建了LFPBench,这是首个专门用于评估LFP和LFP赋能LJP任务的基准数据集。


3.1 数据集概览与构建

LFP Bench的数据来源于中国裁判文书网(China Judgments Online)。研究团队选取了中国司法实践中具有代表性的10类民事案由,涵盖了财产纠纷和人身权纠纷等常见领域。


本数据集共收录了657个经过筛选与清洗的一审民事案件样本。每个样本均以连贯、结构化的文段整合了以下核心信息:首先,包含原告提出的具体诉讼请求;其次,列明原告为支持其诉求所提交的证据清单;同时,若被告亦提交证据,则涵盖被告方提供的证据清单内容。在此基础上,每个样本进一步明确了经法院审理后认定的基准法律事实(Ground-truth Legal Facts),以及法院针对原告每项诉讼请求所作的最终判决结果(Ground-truth Judgments)。全部信息经系统化整理,形成可供分析与建模的完整案件记录。


本数据集的构建遵循严谨的流程,以确保数据的质量和可用性。首先,由法律专家从海量法律文书中进行筛选,优先选取证据描述清晰、案情复杂度适中的一审民事案件。随后进入关键信息提取阶段:对于文本中结构较为规范的“法院认定事实”与“判决结果”部分,采用正则表达式进行自动化提取;而对于非结构化的“诉讼请求”及“原被告证据清单”内容,则利用GPT-4o进行初步解析,并辅以人工审核以确保准确性。完成提取后,进入清洗与校验环节,由三位法律专家对全部内容进行交叉复核,重点确保证据与法律事实之间的对应关系精准无误,并同步剔除所有个人隐私等敏感信息。最后,在标注阶段,专家会针对每一项独立的诉讼请求,依据法院的最终判决结果,为其标注三类判决标签:完全支持、部分支持或驳回。通过这一系统化流程,构建出高质量、结构清晰、适用于法律AI任务的数据集。


3.2 LFPBench与现有数据集的对比分析

为了凸显LFPBench的独特性,我们将其与现有的主流法律AI数据集进行了详细对比。


表1:LFPBench与现有LJP基准数据集的特性对比



从表1可以看出,LFPBench是唯一包含原始“证据项”的数据集。其他数据集(如CAIL2018)通常直接提供案情描述(即法律事实),这使得它们无法用于验证从证据到事实的推理能力。此外,LFPBench采用了更细粒度的三分类标签(完全支持/部分支持/驳回),这比简单的胜/败二分类更符合民事诉讼中“各打五十大板”的常见情况,也显著增加了预测难度。


3.3 数据集统计特征分析

LFPBench不仅填补了数据空白,其本身的数据分布也极具挑战性。


表2:LFPBench数据集详细统计


从表2可以看出,首先,数据呈现出高强度的证据对抗性,在近60%的案件中,被告均提交了对抗性反证。这意味着基于本数据集训练的模型不能简单地采信单方陈述,而必须发展出鉴别证据真伪、妥善处理冲突信息的关键能力;其次,判决结果具有显著的复杂性与非二值化特征:超过60%的案件判决结果为“部分支持”(即部分胜诉)。这类案件通常涉及复杂的赔偿金额计算、多方责任比例划分(如交通事故中的主次责任)等精细化裁判,对模型提出了比简单二元分类(如有罪/无罪、支持/驳回)更高的推理与量化分析要求;最后,数据在证据规模上呈现长尾分布,证据数量跨度极大(从0项到19项不等)。这要求模型必须具备灵活的适应能力:既能应对证据稀少的“冷启动”场景,进行有效推断;也能处理证据繁多、信息过载的长文本复杂案情,从中精准提取关键信息。这些特点共同构成了对本数据集应用模型在处理现实法律复杂性方面的核心挑战与能力要求。


3.4 提取证据的质量验证

由于原始卷宗通常不公开,LFPBench的证据是从判决书中提取的。为了验证这些提取证据的有效性,研究团队邀请了两位法律专家仅根据提取的证据进行判决预测(Evidence-based LJP)。


结果显示,人类专家达到了87.62%的准确率。对比最高人民法院公布的二审维持/撤诉率(2022-2024年均在75%左右),这一准确率相当高。这说明LFPBench提取的证据保留了绝大部分关键信息,足以支持高质量的法律判断,数据的可信度得到了充分验证。


第四章 实验设置与方法论


为了全面评估LFP任务的价值及当前模型的能力,研究设计了严谨的对比实验。


4.1 核心研究问题 (Research Questions)

  • RQ1(模型与路径比较):最先进的大模型(SOTA LLMs)在LFP和LJP任务上表现如何?引入LFP是否真的能提升基于证据的判决准确率?

  • RQ2(挑战与偏差分析):LFP任务的难点在哪里?模型在处理证据时是否存在某种特定的偏见?


4.2 实验模型

研究选取了6款具有代表性的大语言模型,分为两类:


1. 通用大模型 (General LLMs):


  • GPT-4o (OpenAI):公认极强的闭源模型。

  • Claude-3.5-Sonnet (Anthropic):推理能力极强的闭源模型。

  • Qwen2.5-14B (Alibaba):表现优异的开源模型。

  • Llama3.1-Chinese-8B:针对中文优化的通用开源模型。


2. 法律垂域大模型 (Legal LLMs):


  • Law-Llama3.1-8B:基于Llama3微调的法律模型。

  • LawJustice-Llama3.1-8B:另一款法律微调模型。


注:研究还尝试了DISC-LawLLM、Lawyer-Llama等其他法律模型,但因其指令遵循能力太差(无法按格式输出等)而被排除在主实验之外。


4.3 三种对比Pineline (LJP Approaches)

为了量化LFP的贡献,设计了三种实验Pineline进行横向对比:


1. 基于证据的LJP (Evidence-based LJP):


  • 输入:证据 + 诉求。

  • 过程:直接通过Prompt让模型预测判决。

  • 意义:代表了如果不做LFP,直接端到端预测的基线水平。


2. LFP赋能的LJP (LFP-empowered LJP):


  • 输入:证据 + 诉求。

  • 过程:先预测法律事实,再基于预测的事实进行判决。

  • 意义:本文提出的核心方法,验证“思维链”式的分步推理是否有效。


3. 基于事实的LJP (Fact-based LJP):


  • 输入:基准法律事实(Ground-truth) + 诉求。

  • 过程:基于完美的全景视角事实进行判决。

  • 意义:作为性能上限(Upper Bound),用于衡量前两种方法的差距。

    (未完待续)


编辑:于腾凯
校对:李享沣
图片


欢迎在评论区留言与本文作者互动交流!


作者简介

张瀚元,现在就读于北京理工大学2023级法学-人工智能专业,当前主要研究方向:法律智能、数据安全及其他计算机技术在法学场景的具体应用。

数据派研究部介绍




数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:


算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。


点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~



转载须知


如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织


从模型角度,可以考虑以下方法:

1. 冷启动: 可以借鉴推荐系统中的冷启动解决方案,比如基于内容的推荐(Content-based Recommendation),提取案件的特征,找到相似的案件进行参考。或者基于关联规则挖掘,发现隐含的法律规则。
2. 证据繁多: Transformer-XL、Longformer等长文本模型可以处理更长的输入序列。另外,可以尝试Hierarchical Attention Networks,先对证据进行分段,再进行Hierarchical的注意力计算。

这个问题很实在! 针对证据稀少的冷启动场景,我觉得可以考虑以下策略:

1. 知识图谱增强: 引入法律知识图谱,将案件与相关的法律条文、案例联系起来,弥补证据不足的信息。
2. 元学习(Meta-learning): 学习不同案件类型的通用知识,快速适应新的案件。
3. 迁移学习: 利用在其他相关数据集上预训练的模型,进行微调。

而对于证据繁多的复杂案情:

1. 信息抽取: 使用NER(命名实体识别)、关系抽取等技术,从长文本中提取关键信息。
2. 证据链构建: 将证据按照时间或者逻辑关系串联起来,形成证据链,帮助模型理解案件的整体脉络。
3. 注意力机制: 利用注意力机制,让模型关注与预测目标相关的证据片段。

我觉得关键在于提高证据的“可解释性”:

* 证据可视化: 将证据以可视化的方式呈现出来,例如,用图表展示财务数据,用视频还原事发现场。让模型更容易理解证据。
* 证据摘要: 为每个证据撰写一份简明扼要的摘要,突出证据的关键信息。 这样模型就不用在海量信息中苦苦寻找了。

与其让模型一次性处理整个长文本,不如把它切分成多个小段落,然后逐段分析。可以利用滑动窗口或者分层注意力机制来实现。这样模型可以专注于局部信息,然后再将这些局部信息整合起来,形成全局的理解。

我觉得可以借鉴一下“辩论”的思路。让两个模型分别代表原告和被告,它们互相“质证”,然后由第三个模型来“仲裁”。这样或许能更好地挖掘证据之间的逻辑关系,从而做出更合理的判断。不过,这需要设计复杂的模型结构和训练策略。

LFP范式在刑事案件中具有潜在的应用价值,但需要考虑刑事案件的特殊性。与民事案件相比,刑事案件的证据标准更高,证据类型更加多样,例如物证、口供、鉴定意见等。此外,刑事诉讼中控辩双方的对抗性更强,证据的真实性和合法性面临更大的挑战。因此,在刑事案件中应用LFP,需要对模型进行针对性的训练和优化,以适应这些特殊性。

解决证据冲突,可以考虑引入法律推理规则。不同的证据可能指向不同的法律条款,模型可以通过分析这些条款之间的关系来判断证据的效力。例如,如果一个证据违反了法律程序,那么即使它看起来很有力,也应该被排除。

我觉得刑事案件适用LFP会面临更大的伦理挑战。民事案件预测错了,可能只是经济上的损失。但刑事案件关乎人身自由甚至生命,如果AI预测出错,可能会造成更严重的后果。所以,在刑事领域应用AI预测,需要更加谨慎,必须确保算法的公平性和透明性。

我觉得可以引入外部知识库。法律案件往往涉及到很多专业术语和背景知识,模型如果缺乏这些知识,就很难理解长文本证据的含义。可以把相关的法律条文、案例判决等信息加入到知识库中,帮助模型更好地理解证据的内容。

长文本啊,那就是信息过载嘛!我觉得可以先用信息抽取技术,把证据里的关键信息提取出来,比如时间、地点、人物、事件等等,然后再喂给模型。这样就相当于给模型做了一个“摘要”,降低了它的阅读负担。

刑事案件当然也适用!想想看,警察叔叔破案不就是从各种证据(指纹、监控录像、证人证词)出发,一步步还原事实真相吗?挑战肯定有,比如刑事案件证据链更复杂,举证责任也更高,对模型的推理能力要求也更严格。

证据互相矛盾?这不就是考验模型“断案”能力的时候嘛!我觉得可以引入“证据权重”的概念,让模型学习不同类型证据的可信度。比如人证可能不如物证可靠,直接证据可能比间接证据更有说服力。当然,这需要大量的标注数据来训练。