淘先锋技术网

首页 1 2 3 4 5 6 7

1 引言

数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要的传统数据处理密集型行业。数据仓库将分布在企业网络中不同信息岛上的业务数据集成到一起,存储在一个单一的集成关系型数据库中,利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事务发展走势。

 

2 数据仓库技术

2.1 传统数据库与数据仓库技术分析

    信息处理的类型主要分事务性处理和信息型处理两大类。事务型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信息进行查询和修改,目的是满足组织特定的日常管理需要。信息型的处理则是指对信息做进一步的分析,为管理人员的决策提供支持。

传统的数据库是面向事务处理的操作型数据库系统,而数据仓库系统则是综合的、面向分析的数据集成应用环境。数据仓库与操作型数据库有联系,也有区别数据仓库的概念产生于20世纪9 0年代。根据数据仓库之父Bill Inmon的观点,数据仓库是指一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持管理决策。作为一个信息提供平台,数据仓库系统主要用于从业务处理系统获得和组织数据,并为用户提供各种手段从数据中获取信息和知识。数据仓库作为面向主题、面向分析和知识发现的一种数据处理技术,对数据仓库的使用没有固定的模式,数据仓库的数据来源广泛,使用要求多变,查询要求复杂,传统的数据库系统结构无法提供足够的灵活性来满足这种复杂多变的使用要求。因此数据仓库的结构与操作型事务处理系统的结构有很大的不同。

 

 2.2 数据仓库技术的意义

数据仓库技术综合了客户服务与业务处理的信息采用分析挖掘技术为企业管理人员制定策略开发市场分析市场效益评估公共关系与企业形象设计等管理行为以及决策提供科学的依据数据仓库通过从企业内部的不同系统和外部数据源收集数据经过抽取整合和统计形成一个中心的数据集这样既保持了数据的一致性又易于被用户访问同时这些数据按照业务概念来组织分类便于分析数据仓库有这样一些特点例如其中的数据是历史数据或统计数据按照业务概念来组织,存储了大量的统计信息,数据易于分析,数据基本不作更改仅用于查询,数据一般只存储一次很少更改

此外数据仓库还提供了联机分析OLAP功能用户可以联机访问经过分析运算的多条数据数据仓库还克服了直接建立在业务系统数据库基础之上的决策支持系统的局限例如数据按照统一格式存放用户可联机快速地查询复杂的数据,查询不会影响其它正在进行的交易,数据来自不同的系统并按照分类存放

引入数据仓库系统可以使激烈竞争中的企业进一步扩大利润加大竞争实力并在激烈的商业竞争中保持长久的竞争优势建立数据仓库系统能够带来的益处和收益。

 

 2.3 数据仓库的体系结构

    数据仓库系统的技术体系结构总体来说包括后台数据预处理 ,数据仓库数据管理和数据仓库的前台查询服务三大部分。

  

数据仓库的技术体系结构

    数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据库,这些数据库对于数据仓库来说被称为数据源。这些数据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理工作。数据的预处理包括数据源的定义、从数据源提取数据数据到预处理数据区(数据准备区)、在数据准备区中队数据进行净化处理、作必要的转换、再将数据加载到数据仓库等。实现这部分功能的是后台数据预处理部分。

数据仓库的管理包括数据仓库的创建、数据仓库的维护、对数据仓库中数据的重整和数据仓库的原数据管理等。该部分是数据仓库系统的核心。数据仓库的真正关键是数据存储和管理。

数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓库中的数据进行复杂的查询分析和知识挖掘等。可选择的工具大致有以下几类。

数据挖掘工具:通过对数据仓库中数据的分析去发现一些用户可能没有想到的模式和数据关系。

特别查询工具:通常基于图形用户界面,使得分析人员可以提交一些特别的问题,并产生相应的结果。

在线分析处理(OLAP):在线分析处理以数据立方体或多维的方式来查看数据,可用于对商业问题进行分析。

交互报告(Interavctive Reporting):这类工具允许用户设定参数的值来过滤结果数据集,从而生成内容动态变化的报告。

静态报告(Static Reporting:静态报告工具是生成例行的、具有标准的格式和目标用户的文档的工具。

 

3 SQL Sever 数据仓库开发工具

数据仓库产品大致可分为三类:单点产品、提供部分解决方案的产品、提供全面解决方案的产品。著名的数据仓库产品提供商有Oracle,IBM,Sybase,Informix, NCR,Microsoft,

SAS,CA等。Microsoft公司的SQL Sever 2000是一套完全的数据库和数据分析解决方案。

   Microsoft SQL Sever 2000支持数据仓库的创建和应用,并提供了许多功能强大的工具和服务以帮助完成数据仓库的建立、维护,进行OLAP联机分析和数据挖掘。这些工具包括关系数据库、数据转换服务、数据库复制、Analysis,Services,English Query,Meta Data Services等。这些工具的用途如下:

关系数据库:数据仓库使用关系数据库设计作为其设计、结构和维护的基础。SQL Sever 2000具有强大的、全功能的关系数据库引擎,与该数据库所用于的应用程序无关。

数据转换服务:数据仓库应用程序需要将来自许多源的数据转换为聚合在一起的、一致的数据集。这些数据集经过了适当配置可用于数据仓库操作。SQL Sever 2000为这类任务提供了一个强大的工具,即数据转换服务DTS(Data Transformation Services)DTS可以访问各种不同的数据源,提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作。并且通过与Microsoft Reposity集成,可以共享有关的元数据。

数据库复制:数据库复制是具有许多用途的强大工具。复制通常用于分发数据和协调联机事务处理系统(OLTP)中,可用于数据仓库。例如,将数据从中央数据仓库分发到数据集市以及从数据准备区更新数据仓库数据等。

Analysis ServicesSQL Sever 2000 Analysis Services 提供联机分析处理(OLAP)技术,用以组织大量的数据仓库数据供客户端工具进行快速分析,并提供先进的数据挖掘技术以分析和发现数据仓库数据内的信息。

English Query:提供用英语对数据仓库进行访问的机制。English Query用于创建客户端应用程序的开发工具,是客户端应用程序可以将英语转换为SQL语法以查询关系数据库,或者转换为多维表达式(MDX)语法以查询OLAP多维数据集。可以开发专用的数据仓库的English Query模型,以便将高级复杂的SQLMDX查询简化为简单的英文问题。

Meta Data Services: SQL Server 2000 的多种不同工具中,有许多可将中央知识的数据存储在msdb系统数据库中。SQL Server 2000 Meta Data Services提供用于查看这些原数据的浏览器,并提供用于开发自定义元数据应用程序的应用程序接口。

 

4 SQL Sever 数据仓库应用开发和解决方案

为了使用SQL Server 2000的数据仓库进行在线数据分析,除了安装数据库服务器外,还必须安装Analysis ServiceAnalysis Service是一个在Microsoft管理控制台(MMC)上运行的管理OLAP、数据挖掘对象及数据的管理单元程序。

4.1 建立数据仓库

1)连接数据源

进入系统数据源管理器,选中数据库驱动程序,设定数据源名,选择原有数据库,从而建立连接。

2)数据源

数据仓库用于为决策者提供信息。为此数据仓库必须将来自单位中许多源的数据聚集和合并为一致的数据集,以准确地反映单位的业务运作情况和历史记录。

数据仓库中使用的数据源必须被标识,并且进行技术开发以便从中析取数据。数据转换服务(DTS)提供功能强大的工具,可从多种不同的数据源中析取和转换数据。

3)建立多维数据集

创建多维数据集的总体步骤包括:建立数据库,建立数据源与ODBC数据源连接,建立多维数据集,编辑多维数据集,设计存储和处理多维数据集。

在设计多维数据集前,需要建立一个数据库结构。此处的数据库是指在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。

要将数据库与前面建立的ODBC数据源中的数据连接,必须在Analysis Manager中建立一个数据源,通过它将数据库连接到ODBC数据源管理器中建立的系统数据源名称(DSN)上。

多维数据集是数据的一种多维结构,由维度和度量值的集合构成。多维数据模型可简化联机业务分析,提高查询性能。通过创建数据多维数据集,Analysis Manager可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。管理关系数据库进行多维使用的最常用的方式是使用星型模式,既由一个事实数据表和连接到该事实数据表的多个维度表组成的结构。

多维数据集创建之后,仍然可以使用多维数据集编辑器对现有多维数据集进行更改,包括删除、添加维度,新建、删除度量值等。

Microsoft SQL Server 2000 Analysis Services支持三种存储模式:多维OLAPMOLAP)、关系OLAP(ROLAP)或混合OLAP(HOLAP)Analysis Services 允许设置聚合,即预先计算好的汇总数据,利用这些数据可以极大地提高查询的效率,缩短查询的响应时间。

多维数据模型建立好之后,必须指定多维数据集中的数据和聚合的物理存储选项,进行相应的数据处理,计算为多维数据集所设计的聚合,并为多维数据集装载已计算的聚合和数据。之后才能使用或浏览多维数据集中的数据,进行数据分析。

 

4.2 浏览功能

分析工作使用多维数据集浏览器来完成。可以用不同的方式查看数据,可以筛选出可见的维度数据量,可以看到数据的细节和概括。

 

4.3 关系数据库

关系数据库是为数据仓库提供强大功能的基础引擎。许多特性和功能已经开发出来并得到增强,使得关系数据库成为联机事务处理(OLTP)系统的主力,而且这些特性和功能可直接应用于数据仓库。Microsoft SQL Server 2000OLTP系统和数据仓库数据存储提供了非常强大的关系数据库。

 

4.3 数据挖掘模型

    数据挖掘对查找和描述特定多维数据集中的隐藏模式非常有用。因为多维数据集中的数据增长很快,采用手动查找非常困难。数据挖掘提供的算法允许自动模式查找及交互式分析。进行数据挖掘必须创建数据挖掘模型,数据挖掘模型是一种包含运行特定数据挖掘任务所需的全部设置的模型。

Analysis Services包含高级的数据挖掘算法,可用于分析关系数据库或OLAP多维数据集中的数据。数据挖掘分析的结果还可用于OLAP多维数据集成以提高探测分析能力。

 

4.4 应用程序接口

   SQL Server 2000提供了许多API,可用于根据数据仓库的需要开发客户端应用程序。有些API提供数据库访问能力和工具对象模型,以便可开发自定义管理应用程序。有些API则通过标准接口为自定义最终用户应用程序提供了数据访问能力。

 

5 用户分析

    SQL Server 2000及其组件提供了一个用于访问数据仓库数据的开放式环境。这为独立的软件制造商提供了机会,使其可为最终用户开发高级的数据分析和显示应用程序。有许多适用于SQL Server 2000及其组件的第三方客户端应用程序。

    SQL Server 2000 还与Microsoft Office 2000很好地集成,使得最终用户可以轻松使用工具分析数据仓库数据。

 

[参考文献]

[1] Inmon W H. 数据仓库. 北京: 机械工业出版社, 2002

[2] 曹效阳, 武立斌, 蓝兹贵. 基于数据仓库的政府决策支持模型. 中山大学学报(自然科学版) , 2004 (11)

[3] Lou Agosta.数据仓库技术指南[M].北京:人民邮电出版社,20001737

[4] 颜端武,王曰芬.数据仓库的数据组织及其联机分析处理实现[J].情报科学.20002111