目录
0 参考列表
本文仅供自己学习,如有侵权请联系我删除.
1 概念
数据血缘:数据从产生、ETL处理、加工、融合、流转,到最终消亡,这一过程中产生的数据之间的关系,称为数据血缘.血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯.
2 应用场景
在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题.比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的.也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕.因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量.
3 特征
(1) 归属性:特定的数据归属特定的组织(或个人),数据具有归属性.
(2) 多源性:同一个数据可以有多个来源, 一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个.
(3) 可追溯性: 数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性.
(4) 层次性: 数据的血缘关系是有层次的.对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次.
3.1 数据血缘关系的层次
所有者层次,体现了数据的提供方和需求方,其他的层次则体现了数据的来龙去脉.通过不同层级的血缘关系,可以很清楚地了解数据的迁徙流转,为数据价值的评估、数据的管理提供依据.
结构化数据的数据血缘关系的层次
非结构化数据的数据血缘关系的层次
4 数据血缘的可视化
血缘关系的可视化图形包括5种可视化元素.
(1) 信息节点
信息节点用来表现数据的所有者和数据层次信息或终端信息.所有者层次只有所有者的信息,其他层次则包括所有者信息和数据层次信息或者终端信息.
信息节点有三种类型:
①主节点:只有一个,位于整个图形的中间,是可视化图形的核心节点.图形展示的血缘关系就是此节点的血缘关系,其他与此节点无关的血缘关系都不在图形上展示;
②数据流入节点:可以有多个,是主节点的父节点,表示数据来源;
③数据流出节点:即终端节点,可以有多个,是主节点的子节点,表示数据的去向,数据不再往下进行流转,这种数据一般用来做可视化展示.
(2) 数据流转线路
数据流转线路表现的是数据的流转路径,从左到右流转.数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散.
数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次:
①方向的表现方式,没有做特别的设计,默认从上到下流转;
②数据更新的量级:通过线条的粗细来表现.线条越粗表示数据量级越大,线条越细则表示数据量级越小;
③数据更新的频次:用线条中线段的长度来表现.线段越短表示更新频次越高,线段越长表示更新频次越底,一根实线则表示只流转一次.
(3) 清洗规则节点
清洗规则节点用来表现数据流转过程中的筛选标准.大量的数据分布在不同的地方,每个地方对数据质量的要求都有所不同,数据接受方会根据自己对数据的要求来过滤接入的数据,这些要求就形成数据标准,并依据这些标准来做数据清洗.
在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰.洗规则的简略图形位于数据流转线路上,表示该线路上流转的数据符合这些标准才能继续流转下去.
(4) 转换规则节点
从数据提供方出来的数据,有时候需要进行特殊处理才能接入到数据需求方,转换规则节点在表现形式上类似于清洗规则节点,用一个标有大写字母“T”的圆圈表示.位于数据流转线路上,用来表现数据流转过程中发生的变化、变换.
(5) 数据归档销毁规则节点
数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁.