淘先锋技术网

首页 1 2 3 4 5 6 7

目录

0 参考列表

1 概念

2 应用场景

3 特征

3.1 数据血缘关系的层次

4 数据血缘的可视化


上一篇:数据仓库3.1_ETLhttps://blog.csdn.net/weixin_43875878/article/details/110450996https://blog.csdn.net/weixin_43875878/article/details/110450996

下一篇:数据仓库4.2_数据治理_数据质量管理https://blog.csdn.net/weixin_43875878/article/details/120842030icon-default.png?t=L9C2https://blog.csdn.net/weixin_43875878/article/details/120842030

0 参考列表

        CSDN:数据治理:数据血缘关系分析_q1042960848的博客-CSDN博客_数据血缘分析数据治理:数据血缘关系分析此文章由百度的多篇文章归纳总结而成,以供本人学习和记录方便,不做任何商务用途,如有侵权,请联系我删除,谢谢!参考列表:微信 - 头哥侃码公众号:数据治理的大方向是Database Mesh?先把数据之间的血缘关系搞明白,咱再吹行吗?搜狐 - 数据大家:数据之间有血缘关系?数据治理不得不懂的血缘关系梳理方法 知乎 - NBI大数据可视化分析平台: 数据治理中的数据血缘关系是什么?用来解决什么问题相亲相爱的数据:论数据血缘关系文章目录数据治理:数据血缘关系分析前言https://blog.csdn.net/q1042960848/article/details/107386180

        本文仅供自己学习,如有侵权请联系我删除.

1 概念

        数据血缘:数据从产生、ETL处理、加工、融合、流转,到最终消亡,这一过程中产生的数据之间的关系,称为数据血缘.血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯.

2 应用场景

        在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题.比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的.也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕.因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量.

3 特征

        (1) 归属性:特定的数据归属特定的组织(或个人),数据具有归属性.

        (2) 多源性:同一个数据可以有多个来源, 一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个.

        (3) 可追溯性: 数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性.

        (4) 层次性: 数据的血缘关系是有层次的.对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次.

3.1 数据血缘关系的层次

所有者层次,体现了数据的提供方和需求方,其他的层次则体现了数据的来龙去脉.通过不同层级的血缘关系,可以很清楚地了解数据的迁徙流转,为数据价值的评估、数据的管理提供依据.

结构化数据的数据血缘关系的层次

image

 非结构化数据的数据血缘关系的层次

image

4 数据血缘的可视化

image

        血缘关系的可视化图形包括5种可视化元素.

(1) 信息节点

        信息节点用来表现数据的所有者和数据层次信息或终端信息.所有者层次只有所有者的信息,其他层次则包括所有者信息和数据层次信息或者终端信息.

        信息节点有三种类型:

        ①主节点:只有一个,位于整个图形的中间,是可视化图形的核心节点.图形展示的血缘关系就是此节点的血缘关系,其他与此节点无关的血缘关系都不在图形上展示;

        ②数据流入节点:可以有多个,是主节点的父节点,表示数据来源;

        ③数据流出节点:即终端节点,可以有多个,是主节点的子节点,表示数据的去向,数据不再往下进行流转,这种数据一般用来做可视化展示.

(2) 数据流转线路

        数据流转线路表现的是数据的流转路径,从左到右流转.数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散.

        数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次:

        ①方向的表现方式,没有做特别的设计,默认从上到下流转;

        ②数据更新的量级:通过线条的粗细来表现.线条越粗表示数据量级越大,线条越细则表示数据量级越小;

        ③数据更新的频次:用线条中线段的长度来表现.线段越短表示更新频次越高,线段越长表示更新频次越底,一根实线则表示只流转一次.

(3) 清洗规则节点

        清洗规则节点用来表现数据流转过程中的筛选标准.大量的数据分布在不同的地方,每个地方对数据质量的要求都有所不同,数据接受方会根据自己对数据的要求来过滤接入的数据,这些要求就形成数据标准,并依据这些标准来做数据清洗.

        在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰.洗规则的简略图形位于数据流转线路上,表示该线路上流转的数据符合这些标准才能继续流转下去.

(4) 转换规则节点

        从数据提供方出来的数据,有时候需要进行特殊处理才能接入到数据需求方,转换规则节点在表现形式上类似于清洗规则节点,用一个标有大写字母“T”的圆圈表示.位于数据流转线路上,用来表现数据流转过程中发生的变化、变换.

(5) 数据归档销毁规则节点

        数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁.