数据确权、流通、入表与监管研究(二):数据流通规则探讨

本文探讨数据流通规则,区分数据流动、流通、交易及服务,并提出通用规则和分类规则,以规范数据交易和保障各方权益。

原文标题:原创 | 数据的确权、流通、入表与监管研究(二):数据与流通

原文作者:数据派THU

冷月清谈:

本文探讨了数据流通的定义、规则及其实践挑战。文章首先厘清了数据流动、流通、交易和服务之间的区别,强调数据流通的核心在于不同主体控制的赛博子空间之间的数据流动,而数据交易则以经济目的为驱动。文章指出,数据服务不等于数据流通,只有当服务接受者能自主决定数据处理方式时,才构成数据流通。

文章提出了三条数据流通通用规则:第一,默认情况下,被流通或交易的数据不可被再次流通或交易,除非与数据所有者另有约定;第二,共有数据的流通或交易授权和收益分配需由共有人协商决定;第三,数据交易分为使用权交易和所有权交易,使用权交易以次数为基本计量单位,所有权交易仅适用于所有权可转移的数据,且所有权转移不影响原有授权,也不得损害相关方权益。

此外,文章强调了针对不同类型数据(原始数据、次原始数据、模型数据、统计/预测类数据、研判/决策类数据)制定分类流通和交易规则的必要性,并概述了这些分类规则应包含的内容,如流通/交易双方的资格要求、数据质量指标、数据使用合规性要求和审计要求等。文章还特别指出,对原始数据和次原始数据,需重点关注交易双方的资质和可交易的数据内容;对模型数据,需考虑数据使用合规性;对统计/预测类数据和研判/决策类数据,需关注其现实化价值,尤其在定价规则上要确保各方权益的合理分配。

怜星夜思:

1、文章提到的“使用权交易以次数为基本计量单位”,在实际操作中如何界定“一次使用”?比如,调用一次API算一次使用吗?如果是进行模型训练,训练多久算一次使用?
2、文章强调了数据流通中安全风险的重要性,除了文中提到的规则和监管,还有哪些技术手段可以保障数据流通的安全性?
3、文章中提到的“共有数据”如何进行确权和收益分配?在实际操作中可能会遇到哪些困难?

原文内容

图片
作者:张建军,中国电科首席专家,神州网信技术总监

本文约5000字,建议阅读10分钟

本文主要介绍数据的流动、流通、交易、服务以及数据流通规则



2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了需要“构建数据基础制度”,而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题,需要建立一个理论模型和分析方法,并在此基础上,提出基本的确权规则、流通规则、入表规则和监管方法,目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法,推动相关问题的落地解决。



本文是系列文章的第二篇——数据与流通。


先说结论:数据在不同主体(人/机构)控制的赛博子空间之间的流动,构成为数据流通;为一定经济目的而实施的数据流通则为数据交易;不是所有的数据服务都是数据流通,只有服务接受者自主决定数据处理方式的才是数据流通。

数据流通规则分为通用规则和分类规则两类。

流通通用规则一:默认约定下,流通或交易的数据只能被使用者使用,不能被使用者再次流通或交易,除非与数据所有者另有约定,使用者依据约定再流通或再交易。

流通通用规则二:默认约定下,共有数据的流通或交易授权和收益分配,应由共有人商定。

流通通用规则三:数据交易分为使用权交易、所有权的交易;使用权交易以次数为基本计量单位;所有权交易只适用于所有权可以转移的数据,默认情况下,所有权转移不影响原所有人做出的数据使用的授权,也不应损害相关方的合法权益。

分类规则需要针对原始数据和次原始数据、模型数据、统计/推测类数据、研判/决策类数据分别制定。

一、数据的流动、流通、交易、服务

如本系列文章第一篇——数据与确权中所述:现代信息系统所承载的数据是存在于赛博空间的,是按照人所规定的排列规则和编码规则组织在一起的二进制数,也可以称为“数据集”。现实世界里纸面上写、谈话中提到的数据不是本文讨论的对象。

赛博空间并非是一个统一的空间,而是由很多子空间构成(即:不同的信息系统)。当一批数据从一个子空间进入另一个子空间时,就构成“数据流动”。不同的子空间可能会有不同的排列规则和编码规则,在数据流动时两个子空间必须遵守共同的排列规则和编码规则,才能实现数据流动,这就是各种网络通信协议、数据交换标准格式存在的原因。

如第一篇所说:非指令类数据存在于赛博空间的用途只有两个:被处理以生成衍生数据、被现实化以影响现实世界。现实情况下,数据流动并不一定是为了处理,比如:通信过程,数据从通信终端进入通信网络,是一种数据流动,但严格意义上的通信网络并不会处理终端所发送的数据以生成新的数据,而只是将数据送到接收终端。从理论上来看,通信网络和专门的存储设施,只是赛博空间的物理载体,其作用是支撑子空间之间的数据流动和承载子空间的数据。因此,本文讨论的数据流动是指为数据处理和现实化而发生的不同子空间之间的数据流动。

现实世界中,子空间可能被不同的现实主体(人或组织)所建设、拥有和运营,在不同现实主体控制子空间之间的数据流动就是数据流通,即数据在不同主体之间的流通。与数据流动一样,本文讨论的数据流通也是指为数据处理和现实化而发生的、在不同主体之间的流通行为。与数据流动不同,数据流通更关注数据在相关主体之间的流动,数据流通会涉及相关主体控制的多个子空间的数据流动。

现实主体之间如果为一定的经济目的而进行数据流通,则为数据交易。

在各种涉及数据的文献中还有一个术语:数据服务。这里的服务一般会有两种含义:一种是技术层面的,是指计算机程序之间的一种交互(或架构)方式,即:客户端——服务端架构,信息系统通过服务架构实现网络化、分布式的系统部署和信息处理功能;另一种是商业模式层面的,即:利用信息技术,实现的一种不可以存储、及时交付成果的商业模式。两种含义的服务下,都会涉及到数据在不同子空间之间的流动,但是否都是本文所讨论的数据流通和交易,则需要从服务接受者对所接收数据的处理权限范围和程度来判断,只有那些服务接受者能够自主决定对数据的处理方式、手段、逻辑(或者说,自主决定用于处理数据的”程序”)的才是本文讨论的数据流通和交易。

本文讨论的所有规则均针对非指令类数据。

二、数据流通规则解决的问题

在经济学家对数据要素流动的研究中发现,制约数据要素流动的因素主要有四个:数据涉及多种社会主体,而且无法控制数据使用者对数据的二次传播,导致数据权属确定复杂;数据要素权益在相关主体之间缺乏有效和公允的分配机制;缺乏数据价值评估手段;面临以个人隐私保护为代表的安全风险挑战。

本文拟从交易规则方面提出上述问题的解决方案。

“数据的二次传播”是损害数据所有者权益的主要因素,这是本文提出数据流通通用规则一的根本原因。通用规则一配合第一篇中的数据确权规则,可以作为解决第一个制约因素的基础。

“公允的权益分配机制”是数据要素流动激励机制的核心内容,配合第一篇的确权规则,本文提出了通用规则二。通用规则二内容是基本常识,但在现实中却是被大家无意或故意忽视。这其中既有客观原因(如:实际操作难度),也有主观原因(怕既得利益受到损害)。但我们认为:结合合理的确权规则,基于现有法律规定的基本规则(如:民法典),是可以找到合理和公允的权益分配规则和机制的。

“缺乏有效和客观的价值评估方法”是数据流通落地实操的难点。本文在通用规则三中尝试从交易“标的物”——使用权交易和所有权交易、使用权交易基本计量单位、所有权转让对既有权益影响三个方面做出交易约定,以支撑流通交易过程中对数据价值的评估。本文还针对不同种类数据特点,提出了其成本和收益应关注的点。

“安全风险挑战”也是数据流通必须面对和解决的挑战。本文在规则三中提出了要避免损害各方合法权益的约定,同时在分类数据交易规则内容中,明确提出了根据数据分类对数据交易双方资质、数据使用合规性的约定内容。安全风险问题的解决仅仅依靠数据交易规则是不够的,还需要监管机制、技术和支撑设施等的全面保障(本系列文章的第四篇会就监管方法进行讨论)。

三、数据流通规则

数据流通和交易规则分为通用规则和分类规则两类。

通用规则是数据流通和交易均应遵守的规则,也是保护数据相关方合法权益的基础。

流通通用规则一:默认约定下,流通或交易的数据只能被使用者使用,不能被使用者再次流通或交易,除非与数据所有者另有约定,使用者依据约定再流通或再交易。

这一规则实质是保护数据所有者和使用者(包括持有者)权益的,同时规范数据使用者行为的,尤其是明文持有者。数据流通意味着数据从所有者控制的子空间,为授权的数据处理而流入使用者控制的子空间。如果数据使用者将所获得数据再次进行流通和交易,显然就会损害数据所有者的权益。本规则就是为防止这种情况的发生而制定的。

流通通用规则二:默认约定下,共有数据的流通或交易授权和收益分配,应由共有人商定。

从本系列文章提出的确权规则可以看到,无论是原始数据还是衍生数据,都存在大量的共有情况。这是本规则制定的根本原因。从现实实践来看,对现有很多数据持有者来说,尤其对一些已经持有大量数据的持有者来说,按照确权规则与所有共有者进行协商不具有现实可操作性。对这种情况而言,应由各方代表,制定一个合理与公允的存量共有数据流通授权和交易收益的规则。对于新增数据,则应预先商定好相关的规则。

流通通用规则三:数据交易分为使用权交易、所有权的交易;使用权交易以次数为基本计量单位;所有权交易只适用于所有权可以转移的数据,默认情况下,所有权转移不影响原所有人做出的数据使用的授权,也不应损害相关方的合法权益。

这是对数据交易规则的进一步细化,也是为数据价值评估和入表奠定基础。

使用权交易是指数据所有者以收费的方式对其他主体授予对其所拥有数据进行处理(或现实化)的权利。就处理权利而言,这种授权应该还包括对衍生数据所有权以及相关权益的约定,否则就应按照确权规则确定衍生数据的权属。对一个数据集而言,使用次数作为使用权交易是比较合理的基本计量单位。至于每次使用的费用如何确定,则跟数据内容及其获取成本,以及期望的交易次数和收益有关。对原始数据而言,其成本主要由数值化成本、存储成本、交付成本组成,且原始数据一般会在实施数值化主体控制的子空间中产生。对衍生数据而言,其成本主要由输入数据授权使用费用、处理成本、存储成本、交付成本等构成。对现实化权利而言,授权费用除考虑数据获取费用外,还应考虑数据现实化后经济效益的合理分配。

所有权交易,只适用于所有权可以转让的数据。数据所有权一旦转移,原所有人将失去授权数据流通和交易的权利,且在未得到新所有人授权的情况下,也不能对数据进行处理(或现实化)。所有权转移后,原所有人做出的数据授权可能还有效,这些授权不受数据所有权转移的影响。由于通用规则一的存在,新所有人的权益也会得到有效保障。

在上述通用规则的基础上,还需针对原始数据和次原始数据、模型数据、统计/推测类数据、研判/决策类数据分别制定对应的具体流通和交易规则。之所以需要这样做,是因为这些数据的特点和潜在应用场景差异较大。从我们的研究来看,甚至针对每一类数据提出实际可操作的规则都有难度,而需要根据一定领域、行业,分别研究制定。下面描述的并非实际可操作的分类流通和交易规则,而是这些规则制定的一般内容和制定的原则。

分类流通和交易规则至少要包括如下内容:流通或交易双方的资格/资质要求、数据质量指标、数据使用授权合规性要求和审计要求,可选内容包括:交易定价规则、纠纷处置。下面针对不同种类的数据,说明其流通和交易规则制定需考虑的要点。

对原始类数据和次原始数据而言,要综合考虑数据内容、数据所有者、数据持有者、流通/交易双方的情况。因为原始数据和次原始数据反应了现实对象(人、机构、物)的属性、状态、关联关系、变迁历史等信息,而且不同数据集在这些信息的精度、准确度等方面还有差别。现实空间不同物的所有者也有很多种类,除了自然人外,按照所有制还可以分为:企业所有、事业单位所有、政府所有、集体所有、国家所有和其他机构所有等多种类型。举例来说,按照我国法律,土地资源为国有或集体所有,因此土地相关的大地测绘数据(这是次原始数据)按照确权规则就应该为国家和集体所有。现代GPS技术的发展,测绘的门槛已经很低,很多人、机构都会因为各种原因而持有一定的测绘数据。这些数据的精度、范围差异很大。显然这些数据是不能随意进行流通和交易的。按照现行的法律和规定,这些次原始数据可以在一定的应用场景采集后,结合其他数据进行处理,完成应用业务后,就应被删除。只有专门资质的企业和机构之间才能进行这些次原始数据的大规模流通。因此,在原始数据和次原始数据的流通和交易规则中,最重要的就是对流通和交易双方资质、及其所能交易的数据内容进行规范。

对模型类数据来说,更多要考虑数据使用合规性的因素制定流通和交易规则。举例来说,有一些与人的生物学特性相关的模型,会涉及伦理问题,因此在具体的交易规则中应在使用授权合规上予以规定。

对于统计/预测类数据、研判/决策类数据,这些数据基本都有着很大的现实化价值,因此流通和交易规则要充分关注这一点,尤其在定价规则上,应尽可能充分考虑各方的权益合理分配。

分类流通和交易规则的制定跟监管要求还有着非常密切的关系。关于监管方法,本系列文章的第四篇会有进一步的讨论。

往期回顾:


编辑:文婧

校对:林亦霖


对于共有数据,可以考虑采用智能合约进行管理,将确权和收益分配规则写入合约,自动执行,提高效率和透明度。当然,智能合约的编写和执行也需要一定的技术支持。

我觉得可以借鉴一些现有案例,比如一些数据合作平台的运作模式,探索更有效的共有数据管理机制。

保障数据流通安全,技术手段有很多,比如:同态加密、联邦学习、区块链等等。同态加密可以在不解密的情况下对数据进行运算,保护数据隐私;联邦学习可以实现数据不出本地进行模型训练,降低数据泄露风险;区块链可以提高数据流通的透明度和可追溯性。

除了这些新兴技术,一些传统的安全技术同样重要,比如:访问控制、数据加密、数字签名、安全审计等等。这些技术构成了数据安全的基础防线,可以有效防止未授权访问和数据篡改。

我觉得安全技术只是其中一个方面,更重要的是建立完善的数据安全管理体系,包括:数据安全策略、数据安全流程、数据安全组织架构等等。只有将技术和管理结合起来,才能真正保障数据流通的安全性。

共有数据的确权,首先要明确各个共有主体的权益比例,这可以根据各自的贡献大小或者事先约定来确定。收益分配也应该按照确定的权益比例进行。实际操作中,可能会遇到难以量化贡献大小、共有主体数量众多难以协调等问题。

我觉得可以引入“数据包”的概念,类似于手机流量包。比如,购买100次使用权,就相当于购买了一个包含100次API调用或者一定量训练数据的“数据包”。这样可以简化计量和收费流程,也方便用户管理自己的数据使用情况。当然,数据包的大小和价格需要根据数据的价值进行调整。

界定“一次使用”确实是个难题。我觉得可以参考软件授权的方式,比如按时间段、按使用次数、按并发用户数等等。对于API调用,可以按调用次数或者按数据量收费;对于模型训练,可以按训练数据量、训练时间或者最终模型的性能指标收费。当然,具体的计量方式还需要根据实际情况进行调整。

关于“一次使用”的界定,我觉得需要根据具体的数据类型和使用场景来确定。调用API算不算一次使用,取决于API返回的数据量和数据价值。如果API返回的是少量、低价值的数据,可以算作一次使用;但如果返回的是大量、高价值的数据,则可能需要根据数据量或者其他指标进行更细致的划分。模型训练也是类似的,训练时间本身并不能完全代表使用次数,可能需要结合训练数据量、模型复杂度、训练结果的价值等因素综合考虑。