如何通过数据质量提升理解数据治理?

数据治理旨在提升数据资产的使用效率和服务能力。以数据质量为切入点,探讨数据治理的定义、流程、价值,以及与数据中台的关系,强调让数据真正“能用、敢用、好用”。

原文标题:从数据质量看,数据治理在做什么?

原文作者:数据派THU

冷月清谈:

本文以数据质量为切入点,深入探讨了数据治理的核心问题,阐述了数据治理的定义、不同视角下的理解以及其关键作用。文章强调数据治理是通过规则、流程和权责连接,打通数据的生产、维护、分类、转换和使用全链路,使数据具有资产属性和价值。数据质量是数据治理的关键环节,其治理流程包括问题发现、规则定义、质量控制、评估和优化。文章还详细介绍了衡量数据质量的八个标准,包括准确性、真实性、及时性、完整性和关联性。此外,文章还阐述了数据治理为企业带来的六大价值,强调了其在降低运营成本、提升效率、改善质量、控制风险、增强安全和赋能决策方面的重要作用。最后,文章辨析了数据中台与数据治理的联系与区别,强调数据治理是数据中台建设的重要组成部分,即使没有完善的数据中台,数据治理依然可以独立发挥作用。数据治理的最终目的是让数据真正“能用、敢用、好用”。

怜星夜思:

1、文章提到了数据质量的八个衡量标准,你认为在实际业务中,哪个标准最容易出问题?为什么?
2、文章对比了数据中台和数据治理,你认为对于一个初创企业来说,应该优先建设数据中台还是进行数据治理?为什么?
3、文章提到数据治理的六个价值,你认为哪个价值对企业来说是最重要的?为什么?

原文内容

来源:数据集成与治理

本文共3600字,建议阅读5分钟

本文将介绍数据治理的具体工作。


总有人问:“数据治理到底是治什么?”


数据治理不是一句空话,不是创造什么新法子,而是帮你把数据真正用起来。而它真正“治理”的方式,是一整套机制、流程、平台和能力的协同组合。

今天,我们就以“数据质量”为切入点,来看数据治理的一些核心问题——

数据治理到底在做什么?它为什么重要?它与中台之间又是什么关系?

数据治理是什么

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。是一个全面的管理过程,它涵盖了数据的整个生命周期,从数据的创建、存储、使用、共享、归档到销毁。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。


不同视角下的数据治理

从管理者视角,数据治理与企业战略相关、指导企业数字化转型的策略。

从业务人员视角,希望数据治理能够将企业的数据开放出来,知道有哪些数据、是怎么定义的、有什么作用,能够获取有质量保障的数据。

简单来说,数据治理,是把企业里一切数据个体,治得有规矩、有系统、能分类、可跟踪、可处理、能有效流动。其目的是降低数据风险、建立数据使用内部规则、实施合规要求、改善内部和外部沟通、增加数据价值、降低成本等。

从数据创建采集,到数据使用分享,几乎每一段环节都有问题需要被“治理”一把,如果不解决这些问题,企业数据化成熟将遥遥无期。

数据治理要做的,就是用规则+流程+所有权责连接,将数据的生产、维护、分类、转换、使用全链路打通。把“工作用到的数据”部署好、标识好、维护好、有系统地管起来,让数据有资产属性,有受益能力,有可转换价值。

数据治理关键——治好质量

数据治理的核心目标,是提升数据的可用性、可信度和服务能力。而在整个治理体系中,数据质量是关键的一环。


绝大多数企业在推进治理时,往往先从质量入手。一方面是因为质量问题最易暴露、最容易被感知,另一方面,也是因为数据质量直接影响业务信任与系统稳定。

具有以下特点:

● 数据质量问题最直观,业务感知强
● 质量评估有明确结果指标,利于量化与改进
● 后续主数据管理、资产目录建设、指标口径统一等,均依赖可信数据作为基础

因此,质量治理往往被视为企业构建数据治理能力体系的“第一步台阶”。

数据质量治理的基本流程:


发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化。

质量问题:列出了数据可能存在的问题,如完整性、唯一性、准确性、一致性、及时性、真实性和相关性等。

质量规则:定义了数据质量的规则和权重分配。这些规则用于评估数据的质量。比如针对字段设计质量规则(如手机号长度、日期格式、数值范围等)。

质量控制前置:在数据进入平台之前进行质量控制,包括数据录入、数据导入和集成接入。不符合规则的数据不会被允许进入平台。

质量评估:对已有数据进行质量评估,生成评估报告。评估过程中会识别出脏数据(即不符合质量要求的数据)并进行详细记录。

数据清洗:对识别出的脏数据进行自动清洗,以提高数据质量。针对复杂问题,触发预警,推送人工复核流程。

低分/异常预警:对质量评分低或异常的数据发出预警,以便及时处理。

质量情况统计:对数据质量情况进行统计分析,以便更好地理解和改进数据质量。

数据质量的8个衡量标准


在衡量数据质量时,常见的标准主要包括以下八个维度:

首先是准确性和精确性。准确性指数据采集值或观测值与真实值之间的接近程度,也可以理解为误差大小;而精确性则强调对同一对象重复采集或观测时,结果是否一致,波动越小说明精确性越好。

其次是真实性,即数据是否如实反映了客观业务事实,是否存在人为造假、篡改或补填的现象,这是衡量数据可信度的基础。

及时性与即时性。及时性强调数据是否能在业务所需时间节点前准备好,例如月末财务数据能否在月初用于对账。而即时性则更偏向技术层面,关注的是数据从采集到传输、落地的响应速度,是否能第一时间流转到下游系统。

完整性表示应采集数据与实际采集数据之间的匹配程度,缺字段、多空值都会降低完整性;全面性则进一步关注采集内容是否覆盖了业务所需的所有维度和字段,是判断数据是否“采全”的标准。

最后是关联性,它衡量数据项之间是否具有关联逻辑。例如员工的工资数据是否能与人力资源系统中的员工档案一一对应,是否具备可追溯的主键或映射关系。

数据治理不仅仅是修复“脏数据”,更不是一次性的质量清洗项目。它是一整套数据能力体系的构建过程,质量只是其中的基本点。

数据治理的价值

从数据创建采集,到数据使用分享,几乎每一段环节都有问题需要被“治理”一把,如果不解决这些问题,企业数据化成熟将遥遥无期。


数据治理不是“为了治理而治理”,它的本质是通过制度化、流程化、平台化的手段,提升数据资产的使用效率、服务能力与战略价值。从实际业务效果来看,数据治理通常能够为企业带来以下六个价值:

1、降低业务运营成本

自动化,减低人力成本:一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;

标准化,减少沟通成本:标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。

2、提升业务处理效率

有效的数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等。

3、改善数据质量

高质量的数据有利于提升应用集成的效率和质量,提高数据分析的可信度。

4、控制数据风险

企业拥有可靠的数据就意味着拥有了更好的风险控制和应对能力。

5、增强数据安全

有效的数据治理可以更好地保证数据的安全防护、敏感数据保护和数据的合规使用。通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术,例如数据加密/解密、数据脱敏/脱密、数据安全传输、数据访问控制、数据分级授权等手段,实现数据的安全防护和使用合规。

6、赋能管理决策

有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平。良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。

数据中台VS数据治理

从数据创建采集,到数据使用分享,几乎每一段环节都有问题需要被“治理”一把,如果不解决这些问题,企业数据化成熟将遥遥无期。


虽然我们已经从价值维度理解了数据治理对企业的作用,但治理最终要落地,离不开平台能力的支撑。比如在实际建设中,“中台”和“治理”经常同时出现。我们可以从“相同点”“不同点”和“协同关系”三个角度来理解它们的本质差异与配合方式:

1、相同点:企业级的数据体系

无论是数据治理,还是数据中台,本质上都是为了让数据真正“用得上、用得好”。它们共同具备的特征包括:

覆盖面广,涉及数据仓库、数据集成、数据安全、ETL等多个环节;
都强调全局视角,是组织级别的能力体系,不是哪个部门的单兵作战;
都需要制度、技术与平台的协同建设。

2、不同点:价值不同

数据中台并不仅仅是数据治理工作的放大升级版,而是数据治理工作的深化,它强化了数据治理的深度和广度,并拓展了数据治理不涉及的数据应用领域。应该说,数据中台真正实现了企业内部数据的闭环。

从价值层面来看,数据中台的价值在于业务数据化、数据资产化、资产服务化和服务业务化。而数据治理则是实现数据资产化的重要步骤。

3、协同关系

数据治理不是数据平台的附件,而是数据中台建设的一个重要组成部分。数据治理,在消除数据孤岛、提高数据质量、保障数据安全等方面,支撑中台数据的可见、可用、可运营。

即便很多人认为中台战略已经“过时”,但如果企业已经构建起自己的服务共享平台和数据资产库,能够支撑业务系统快速复用与灵活组合,那么它依然是一个具备实际价值的数据中台。

中台思想本身没有错,关键点还是在于业务如何变革,业务和IT如何协同去推动中台规划和建设。所以,即使没有完善的数据中台,数据治理依然可以独立发挥作用。

说到底,数据治理的目的不是建平台,而是让数据真正“能用、敢用、好用”。这是一项企业级的系统性工作,需要管理层统一指挥、各部门协同参与、从具体业务场景出发持续推进,才能真正实现数据能力的落地与释放。

FineDataLink是一款集实时数据同步、ELT/ETL数据处理、离线/实时数据开发、数据服务和系统管理于一体的数据集成工具,可在Windows或Linux环境上单机/集群部署,全程基于B/S浏览器端进行任务开发和任务运维,更多精彩功能,邀您体验,希望能帮您解决企业中数据从任意终端到任意终端的处理和传输问题,让流动的数据更有价值!


编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

个人感觉是完整性。很多时候用户填写信息的时候会选择性填写,或者系统设计的时候没有考虑到一些特殊情况,导致部分字段缺失严重,直接影响数据分析的准确性。而且这个问题非常普遍,往往是数据分析师面对的第一个挑战。

我认为是关联性。很多企业的数据散落在各个系统里,彼此之间没有建立清晰的关联,导致分析的时候需要花费大量时间打通数据,甚至有些数据根本就关联不起来,无法进行有效的分析。

从成本效益比角度看,初创公司应优先进行数据治理,可以理解为“先治病,再健身”。先把基础数据搞清楚,避免垃圾数据影响决策,再考虑搭建复杂的数据中台,否则就是空中楼阁,华而不实。

个人觉得是控制数据风险。在数据安全日益重要的今天,数据泄露或者违规使用可能会给企业带来巨大的经济和声誉损失。有效的数据治理可以帮助企业更好地保护数据安全,降低风险,甚至关乎企业的生死存亡。这个价值是底线,非常重要。

我觉得得看业务场景。如果初创企业一开始就有多个业务线,并且数据需要共享复用,那可能需要考虑中台。但如果只有一个核心业务,重点还是应该放在数据治理上,确保数据质量,支持业务决策。中台可以先放一放,等业务发展起来再考虑。

我认为是赋能管理决策。企业最终目的是为了盈利,而正确的决策是盈利的关键。高质量的数据可以帮助管理者更好地了解市场、客户和自身业务,从而做出更明智的决策。这个价值是最终导向,是最重要的。

对于初创企业,我觉得应该优先进行数据治理。中台建设需要一定的规模和沉淀,初创企业数据量不大,业务变化快,如果一开始就投入大量资源建设中台,可能会造成资源浪费。而数据治理可以帮助初创企业规范数据,提升数据质量,为后续发展打下基础。

我觉得各个价值都很重要,很难说哪个最重要,因为他们之间是相互关联的。例如,良好的数据质量是提升业务处理效率和赋能管理决策的基础,而有效的数据治理可以降低业务运营成本和控制数据风险。所以,应该综合考虑,不能只关注某一个价值。

我觉得是真实性。现在很多数据为了KPI会进行人为修饰,尤其是一些销售数据、用户增长数据等等,导致数据失真,决策者看到的可能并非真实情况。