介绍了一种新的法律AI任务——法律事实预测(LFP),并构建了首个LFP基准数据集LFPBench,实验表明该方法能够有效提升法律判决预测的准确率。
原文标题:原创丨弥补法律判决预测的现实鸿沟:基于证据的法律事实预测(LFP)范式与LFPBench基准数据集(二)
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到LFPBench数据集存在“证据对抗性”,即被告会提交反证。那么,如果原被告双方提交的证据互相矛盾,模型应该如何处理?有没有什么好的解决方案?
3、文章里提到,现在的模型在处理长文本证据时表现不佳,难以提取关键信息。除了优化模型本身,有没有其他思路可以缓解这个问题?
原文内容
作者:张瀚元本文约3000字,建议阅读5分钟
本文介绍了 LFP 范式、LFPBench 数据集构建及前沿模型实证分析。
[ 摘要 ] 随着自然语言处理(NLP)技术的飞速发展,法律判决预测(LJP)已成为法律科技领域的核心任务之一。然而,现有的LJP研究主要集中在基于既定法律事实(Fact-based)的预测上,这一范式在实际应用中存在严重的逻辑与时序悖论:在诉讼早期,当事人仅掌握证据而非法院认定的事实。针对这一痛点,Junkai Liu等人(2025)的最新研究深入地探讨了一种全新的任务范式——法律事实预测(Legal Fact Prediction, LFP)。该任务旨在利用当事人提交的证据预测法律事实,从而填补从证据到判决的关键缺失环节。
本文详尽阐述了LJP领域的现状与局限,定义了LFP任务的理论框架,并详细介绍了首个LFP基准数据集——LFPBench的构建过程。基于该数据集,本文对包括GPT-4o、Claude 3.5 Sonnet以及多个法律垂域大模型在内的前沿模型进行了详尽的实证分析。实验结果表明,引入LFP任务能够显著缩小基于证据的预测与基于事实的预测之间的性能差距,平均减少了38.5%的准确率损失。同时,本文深入剖析了当前模型在处理冲突证据、长文本推理以及在证据数量与顺序上表现出的系统性偏见。本文旨在为法律AI研究人员、从业者及政策制定者提供一份详实、深刻且具有前瞻性的参考资料。
第三章 LFPBench:首个法律事实预测基准数据集
由于此前没有包含完整证据清单的公开数据集,研究团队构建了LFPBench,这是首个专门用于评估LFP和LFP赋能LJP任务的基准数据集。
3.1 数据集概览与构建
LFP Bench的数据来源于中国裁判文书网(China Judgments Online)。研究团队选取了中国司法实践中具有代表性的10类民事案由,涵盖了财产纠纷和人身权纠纷等常见领域。
本数据集共收录了657个经过筛选与清洗的一审民事案件样本。每个样本均以连贯、结构化的文段整合了以下核心信息:首先,包含原告提出的具体诉讼请求;其次,列明原告为支持其诉求所提交的证据清单;同时,若被告亦提交证据,则涵盖被告方提供的证据清单内容。在此基础上,每个样本进一步明确了经法院审理后认定的基准法律事实(Ground-truth Legal Facts),以及法院针对原告每项诉讼请求所作的最终判决结果(Ground-truth Judgments)。全部信息经系统化整理,形成可供分析与建模的完整案件记录。
本数据集的构建遵循严谨的流程,以确保数据的质量和可用性。首先,由法律专家从海量法律文书中进行筛选,优先选取证据描述清晰、案情复杂度适中的一审民事案件。随后进入关键信息提取阶段:对于文本中结构较为规范的“法院认定事实”与“判决结果”部分,采用正则表达式进行自动化提取;而对于非结构化的“诉讼请求”及“原被告证据清单”内容,则利用GPT-4o进行初步解析,并辅以人工审核以确保准确性。完成提取后,进入清洗与校验环节,由三位法律专家对全部内容进行交叉复核,重点确保证据与法律事实之间的对应关系精准无误,并同步剔除所有个人隐私等敏感信息。最后,在标注阶段,专家会针对每一项独立的诉讼请求,依据法院的最终判决结果,为其标注三类判决标签:完全支持、部分支持或驳回。通过这一系统化流程,构建出高质量、结构清晰、适用于法律AI任务的数据集。
3.2 LFPBench与现有数据集的对比分析
为了凸显LFPBench的独特性,我们将其与现有的主流法律AI数据集进行了详细对比。
表1:LFPBench与现有LJP基准数据集的特性对比
从表1可以看出,LFPBench是唯一包含原始“证据项”的数据集。其他数据集(如CAIL2018)通常直接提供案情描述(即法律事实),这使得它们无法用于验证从证据到事实的推理能力。此外,LFPBench采用了更细粒度的三分类标签(完全支持/部分支持/驳回),这比简单的胜/败二分类更符合民事诉讼中“各打五十大板”的常见情况,也显著增加了预测难度。
3.3 数据集统计特征分析
LFPBench不仅填补了数据空白,其本身的数据分布也极具挑战性。
表2:LFPBench数据集详细统计
从表2可以看出,首先,数据呈现出高强度的证据对抗性,在近60%的案件中,被告均提交了对抗性反证。这意味着基于本数据集训练的模型不能简单地采信单方陈述,而必须发展出鉴别证据真伪、妥善处理冲突信息的关键能力;其次,判决结果具有显著的复杂性与非二值化特征:超过60%的案件判决结果为“部分支持”(即部分胜诉)。这类案件通常涉及复杂的赔偿金额计算、多方责任比例划分(如交通事故中的主次责任)等精细化裁判,对模型提出了比简单二元分类(如有罪/无罪、支持/驳回)更高的推理与量化分析要求;最后,数据在证据规模上呈现长尾分布,证据数量跨度极大(从0项到19项不等)。这要求模型必须具备灵活的适应能力:既能应对证据稀少的“冷启动”场景,进行有效推断;也能处理证据繁多、信息过载的长文本复杂案情,从中精准提取关键信息。这些特点共同构成了对本数据集应用模型在处理现实法律复杂性方面的核心挑战与能力要求。
3.4 提取证据的质量验证
由于原始卷宗通常不公开,LFPBench的证据是从判决书中提取的。为了验证这些提取证据的有效性,研究团队邀请了两位法律专家仅根据提取的证据进行判决预测(Evidence-based LJP)。
结果显示,人类专家达到了87.62%的准确率。对比最高人民法院公布的二审维持/撤诉率(2022-2024年均在75%左右),这一准确率相当高。这说明LFPBench提取的证据保留了绝大部分关键信息,足以支持高质量的法律判断,数据的可信度得到了充分验证。
第四章 实验设置与方法论
为了全面评估LFP任务的价值及当前模型的能力,研究设计了严谨的对比实验。
4.1 核心研究问题 (Research Questions)
-
RQ1(模型与路径比较):最先进的大模型(SOTA LLMs)在LFP和LJP任务上表现如何?引入LFP是否真的能提升基于证据的判决准确率?
-
RQ2(挑战与偏差分析):LFP任务的难点在哪里?模型在处理证据时是否存在某种特定的偏见?
4.2 实验模型
研究选取了6款具有代表性的大语言模型,分为两类:
1. 通用大模型 (General LLMs):
-
GPT-4o (OpenAI):公认极强的闭源模型。
-
Claude-3.5-Sonnet (Anthropic):推理能力极强的闭源模型。
-
Qwen2.5-14B (Alibaba):表现优异的开源模型。
-
Llama3.1-Chinese-8B:针对中文优化的通用开源模型。
2. 法律垂域大模型 (Legal LLMs):
-
Law-Llama3.1-8B:基于Llama3微调的法律模型。
-
LawJustice-Llama3.1-8B:另一款法律微调模型。
注:研究还尝试了DISC-LawLLM、Lawyer-Llama等其他法律模型,但因其指令遵循能力太差(无法按格式输出等)而被排除在主实验之外。
4.3 三种对比Pineline (LJP Approaches)
为了量化LFP的贡献,设计了三种实验Pineline进行横向对比:
1. 基于证据的LJP (Evidence-based LJP):
-
输入:证据 + 诉求。
-
过程:直接通过Prompt让模型预测判决。
-
意义:代表了如果不做LFP,直接端到端预测的基线水平。
2. LFP赋能的LJP (LFP-empowered LJP):
-
输入:证据 + 诉求。
-
过程:先预测法律事实,再基于预测的事实进行判决。
-
意义:本文提出的核心方法,验证“思维链”式的分步推理是否有效。
3. 基于事实的LJP (Fact-based LJP):
-
输入:基准法律事实(Ground-truth) + 诉求。
-
过程:基于完美的全景视角事实进行判决。
-
意义:作为性能上限(Upper Bound),用于衡量前两种方法的差距。
(未完待续)
欢迎在评论区留言与本文作者互动交流!
作者简介
张瀚元,现在就读于北京理工大学2023级法学-人工智能专业,当前主要研究方向:法律智能、数据安全及其他计算机技术在法学场景的具体应用。
数据派研究部介绍
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。


