-
概述
数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。
-
数据质量维度
-
数据质量产生的根本原因
-
数据质量战略
大多数企业都没有一个数据战略,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。
缺乏数据战略将导致脏数据、冗余数据、数据不一致、无法整合、性能底下、可用性差、责任缺失、用户日益不满意IT的性能。
-
数据质量战略12项指令
指令主要分为三组,第一组着眼于数据在企业内的重要性,并需要由高级管理层来推动。第二组把制造实物产品的概念应用到数据上,它们应该由数据质量项目团队推动。第三组的重点是建设质量文化,以应对数据的流体性质并满足战略管理的持续挑战。
-
数据质量测试框架
初步数据评估
初步评估通过数据剖析来完成的,数据剖析通常在准备把数据存入数据仓库是做一次,它是全面和跨数据集的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值域、格式模式、隐含的规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估的目的是获得对数据和环境的了解,并对数据的状况进行描述。
数据剖析包括
初步评估流程
初步评估的结果与交付成果
持续测量
持续测量的重点是关键的或有风险的数据,并且以自动化的方式进行,持续测量的目标是:
- 监控数据的状况,并为数据在何种程度上符合预期提供保障。
- 对数据或处理过程中的变化进行检测
- 制定改进数据的机会
持续测量流程
持续测量的结果与交付成果
过程控制
控制是为了保持稳定而内置到系统中的反馈形式。控制可以检测出表明缺乏稳定性的状况,并基于观察结果采取操作。包括:
定期测量
针对非关键性数据和不适合持续测量的数据,定期重新评估为数据所处状态符合预期提供一定程度的保证。定期评估可以确保参考数据保持最新,关系依然稳定,并且业务和技术演进不会导致意外的数据更改。
-
测试类型清单
编号 | 质量维度 | 测量类型 | 测量类型说明 | 测试对象 | 评估类别 |
1 | 完备性 | 数据集的完备性——元数据和参考数据的充分性 | 评估元数据和参考数据的充分性 | 总体数据库内容 | 初始评估 |
2 | 一致性 | 一个字段内的格式一致性 | 评估列属性和数据在字段内数据格式一致性 | 数据模型 | 初始评估 |
3 | 完整性/一致性 | 跨表的格式一致性 | 评估列属性和数据在整个数据库中相同数据类型的字段内数据格式的一致性 | 数据模型 | 初始评估 |
4 | 一致性 | 一个字段默认值使用的一致性 | 评估列属性和数据在可被赋予默认值的每个字段中的默认值 | 数据模型 | 初始评估 |
5 | 完整性/一致性 | 跨表的默认值使用的一致性 | 评估列属性和数据在相同数据类型的字段默认值上的一致性 | 数据模型 | 初始评估 |
6 | 及时性 | 用于处理的数据的交付及及时性 | 把数据交付的实际时间与计划数据交付时间作比较 | 流程/计划遵守 | 持续测量 |
7 | 完备性 | 数据集的完备性——对于处理的可用性 | 对于文件,确认要处理的所有文件都可用 | 数据接收 | 过程控制 |
8 | 完备性 | 数据集的完备性——记录数与控制记录相比 | 对于文件,对文件中的记录数据和在一个控制记录中记载的记录数作比较 | 数据接收 | 过程控制 |
9 | 完备性 | 数据集的完备性——汇总数额字段数据 | 对于文件,对数额字段的汇总值和在一个控制记录中的汇总值作比较 | 数据接收 | 过程控制 |
10 | 完备性 | 数据集的完备性——将大小与过去的大小作比较 | 合理性检查,将输入的大小与以前运行同样的过程时的输入大小、文件记录数据、消息的数目或速率、汇总数据等作比较 | 数据接收 | 持续测量 |
11 | 完备性 | 记录的完备性——长度 | 确保记录的长度满足已定义的期望 | 接收的数据的状况 | 过程控制 |
12 | 完备性 | 字段的完备性——不可为空的字段 | 确保所有不可为空的字段都被填充 | 接收的数据的状况 | 过程控制 |
13 | 完整性/完备性 | 数据集的完备性——重复数据删除 | 确定并删除重复记录 | 接收的数据的状况 | 过程控制 |
14 | 完整性/完备性 | 数据集的完备性——重复记录的合理性检查 | 合理性检查,将数据集中重复记录占总记录的比例与数据集以前的实例的这个比例作比较 | 接收的数据的状况 | 持续测量 |
15 | 完备性 | 字段内容的完备性——来自数据源的默认值 | 合理性检查,将数据源提供的关键字段的默认值记录数据和百分比与一个既定的阈值或历史数量和百分比作比较 | 接收的数据的状况 | 持续测量 |
16 | 完备性 | 基于日期标准的数据集的完备性 | 确保关键日期字段的最小和最大日期符合确定加载数据参数的规定范围 | 接收的数据的状况 | 过程控制 |
17 | 完备性 | 基于日期标准的数据集的合理性 | 确保关键日期字段的最小和最大日期符合某个合理性规则 | 接收的数据的状况 | 持续测量 |
18 | 完备性 | 字段内容的完备性——接收到的数据缺少要处理的关键字段 | 在处理记录前检测字段的填充情况 | 接收的数据的状况 | 过程控制 |
19 | 完备性 | 数据集的完备性——经过一个流程的记录数据的平衡 | 整个数据处理过程的记录数、被拒绝的记录数据平衡,包括重复记录数平衡,用于完全平衡的情况 | 数据处理 | 过程控制 |
20 | 完备性 | 数据集的完备性——拒绝记录的理由 | 合理性检查,将出于特定原因而被删除的记录数据和百分比与一个既定的阈值或历史数据和百分比作比较 | 数据处理 | 持续测量 |
21 | 完备性 | 经过一个流程的数据集的完备性——输入和输出的利率 | 合理性检查,将处理的输入和输出之间的比率与数据集以前的实例的这个比率作比较 | 数据处理 | 持续测量 |
22 | 完备性 | 经过一个流程的数据集的完备性—— 数额字段的平衡 | 整个过程中的数额字段内容平衡,用于完全平衡的情况 | 数据处理 | 过程控制 |
23 | 完备性 | 字段内容的完备性——汇总的数额字段数的比率 | 数额字段合理性检查,将输入和输出数额字段汇总数的比率与数据集以前的实例的比率作比较,用于不完全平衡 | 内容/数额字段 | 持续测量 |
24 | 完备性 | 字段内容的完备性——推导的默认值 | 合理性检查,将推导字段的默认值记录数和百分比与一个既定的阈值或历史数量和百分比作比较 | 数据处理 | 持续测量 |
25 | 及时性 | 数据处理用时 | 合理性检查,将处理用时和历史处理用时或一个既定的时间限制作比较 | 数据处理 | 持续测量 |
26 | 及时性 | 供访问的数据的及时可用性 | 将数据实际可供数据的消费者访问的时间与计划的数据可用时间作比较 | 流程/计划遵守情况 | 持续测量 |
27 | 有效性 | 有效性检查,单字段、详细结果 | 将输入数据的值与一个既定的值域作比较 | 内容/行数 | 持续测量 |
28 | 有效性 | 有效性检查,卷积汇总 | 汇总有效性检查的详细结果,将卷积的有效/无效值计数和百分比与历史水平作比较 | 内容汇总 | 持续测量 |
29 | 完整性/有效性 | 有效性检查,表内多列,详细结果 | 将同一个表中相关列的值与映射关系或业务规则中的值作比较 | 内容/行数 | 持续测量 |
30 | 一致性 | 一致性剖析 | 合理性检查,将记录数据的分布,与国企填充相同的字段的数据实例作比较 | 内容/行数 | 持续测量 |
31 | 一致性 | 数据集内容的一致性,所表示的实体的不重复计数和记录数比率 | 合理性检查,将数据集内所表示的实体的不同值计数与阈值、历史计数、或总记录数作比较 | 内容汇总 | 持续测量 |
32 | 一致性 | 数据集内容的一致性,二个所表示的实体的不重复计数的比率 | 合理性检查,将重要字段/实体的不同值计数的比率与阈值或历史比率作比较 | 内容汇总 | 持续测量 |
33 | 一致性 | 一致性多列剖析 | 合理性检查,为了测试业务规则,将跨多个字段的值的记录数分布和历史百分比作比较 | 内容/行数 | 持续测量 |
34 | 一致性 | 表内时序与业务规则的一致性 | 合理性检查,将日期与时序的业务规则作比较 | 内容/日期内容 | 持续测量 |
35 | 一致性 | 用时一致性 | 合理性检查,将经过的时间与过去填充相同字段的数据的实例作比较 | 内容/日期内容 | 持续测量 |
36 | 一致性 | 数额字段跨二级字段计算结果的一致性 | 合理性检查,将跨一个或多个二级字段的数额列的计算结果、数量总和、占总数的百分比和平均数量与历史计数和百分比作比较,用限定符缩小比较结果 | 内容/数额字段 | 持续测量 |
37 | 一致性 | 按聚合日期汇总的记录数的一致性 | 合理性检查,把与某个聚合日期关联的记录数和百分比与历史记录数和百分比作比较 | 内容/聚合日期 | 定期测量 |
38 | 一致性 | 按聚合日期汇总的数额字段数据的一致性 | 合理性检查,把按聚合日期汇总的数额字段数据总计和百分比与历史总计和百分比 | 内容/聚合日期 | 定期测量 |
39 | 完整性/完备性 | 父/子参考完整性 | 确定父表/子表之间的参考完整性,以找出无父记录的子记录和值 | 跨表的内容 | 定期测量 |
40 | 完整性/完备性 | 子/父参考完整性 | 确定父表/子表之间的参考完整性,以找出无子记录的父记录和值 | 跨表的内容 | 定期测量 |
41 | 完整性/有效性 | 有效性检查,跨表,详细结果 | 比较跨表的映射或业务规则的关系中的值,以保证数据关联一致性 | 跨表的内容 | 定期测量 |
42 | 完整性/一致性 | 跨表多列剖析一致性 | 跨表合理性检查,将跨相关表的字段的值的记录数据分布于历史百分比作比较,用于测试遵从业务规则的情况 | 跨表的内容 | 定期测量 |
43 | 完整性/一致性 | 跨表的时序与业务规则的一致性 | 跨表合理性检查,对日期值与跨表的业务规则进行时序比较 | 内容/时序/跨表 | 定期测量 |
44 | 完整性/一致性 | 跨表数额列计算结果的一致性 | 跨表合理性检查,比较相关表的汇总数额字段总计,占总计百分比、平均值或它们之间的比率 | 跨表的内容/数额字段 | 定期测量 |
45 | 完整性/一致性 | 按聚合日期汇总跨表数额列的一致性 | 跨表合理性检查,比较相关表的按聚合日期汇总的数额字段总计、占总计百分比 | 跨表的内容/聚合日期 | 定期测量 |
46 | 一致性 | 与外部基准比较的一致性 | 把数据质量测量结果与一组基准,如行业或国家为类似的数据建立的外部测量基准作比较 | 总体数据库内容 | 定期测量 |
47 | 一致性 | 数据集的完备性——针对特定目的的总体充分性 | 把宏观数据库内容(例如:数据域、记录数、数据的历史广度、表示的实体)与特定数据用途的需求作比较 | 总体数据库内容 | 定期测量 |
48 | 一致性 | 数据集的完备性——测量和控制的总体充分性 | 评估测量和控制的成效 | 总体数据库内容 | 定期测量 |