前文:
关于一个数据仓库的相关搭建及数据治理
一、项目搭建、数据治理
二、
数据仓库项目是这么搭建的?
一、开始是需求分析,分析业务的需求及主题,并完成数据建模的三个过程,确认具体的数据字段、异常数据的处理、数据划分等等,编写规格说明书。
二、设计的时候,就要确认数据采集过程,从数据源表、采集方式到文件格式、数据分层及表结构的设计。然后还要确认架构,编写出设计文档。
三、开发过程主要完成ETL层和采集层的开发,还要造数据,此时要不断确认需求,到最后写出验收案例。
四、开始写调用脚本,并对接口进行联合调试,编写部署文档。
五、最后阶段,生产环境的安装及生产测试。
数据生命周期?
为了减少数据冗余,提高数据的利用率
主要考虑数据的存储位置、存储时间、清除方式。
如何保障数据质量?
数据质量保障是为了 方便系统间的数据共享、减少转换、业务沟通、描述世界的真实性
需求分析时:要确认业务主题、使用专业术语,数据建模时,确定数据的类型、格式、长度
采集的数据要求要满足的准确性、完整性、统一性
在ETL过程中:对脏数据的处理方式
还要记录的数据的操作
元数据管理?
加强数据的可维护性、可读性
存储业务的指标、规则、专业术语
数据的存储位置、类型、血缘关系、数据质量规则
记录管理中的组织、操作等等