基于 CWM 的 数据仓库体系结构设计

39
基基 CWM 基 基基基基 基基基基基

description

基于 CWM 的 数据仓库体系结构设计. 我的工作. 提出了一个 基于 CWM 的数据仓库体系结构 基于该体系结构,参与设计和实现了一个 电信综合业务信息服务平台. 提纲. 背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计. 背景介绍. 数据仓库的应用越来越广泛 不同数据仓库工具之间无法进行数据交换 企业的应用受到工具的限制 利用元数据可以实现数据交换. 提纲. 背景介绍 数据仓库、元数据理论介绍 - PowerPoint PPT Presentation

Transcript of 基于 CWM 的 数据仓库体系结构设计

Page 1: 基于 CWM 的 数据仓库体系结构设计

基于 CWM 的数据仓库体系结构设计

Page 2: 基于 CWM 的 数据仓库体系结构设计

我的工作

提出了一个基于 CWM 的数据仓库体系结构

基于该体系结构,参与设计和实现了一个电信综合业务信息服务平台

Page 3: 基于 CWM 的 数据仓库体系结构设计

提纲

背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计

Page 4: 基于 CWM 的 数据仓库体系结构设计

背景介绍

数据仓库的应用越来越广泛

不同数据仓库工具之间无法进行数据交换

企业的应用受到工具的限制

利用元数据可以实现数据交换

Page 5: 基于 CWM 的 数据仓库体系结构设计

提纲

背景介绍

数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍

基于 CWM 的数据仓库体系结构设计

电信综合业务信息服务平台设计

Page 6: 基于 CWM 的 数据仓库体系结构设计

数据仓库理论

数据仓库的定义

数据仓库的建设

数据仓库的应用

国内数据仓库建设的问题

Page 7: 基于 CWM 的 数据仓库体系结构设计

元数据

定义 描述数据的数据

研究元数据的原因 管理、使用数据的需求 系统分布和互通的要求 元数据重用、共享的要求

Page 8: 基于 CWM 的 数据仓库体系结构设计

元数据的建模和标准化

建模的两大方向 元数据参考模型 元数据模型

标准化 OMG

MDC

Page 9: 基于 CWM 的 数据仓库体系结构设计

提纲

背景介绍 数据仓库、元数据理论介绍

CWM 、 MOF 、 UML 、 XMI 规范介绍

基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计

Page 10: 基于 CWM 的 数据仓库体系结构设计

元数据的层次

Student (“张东”,“男”,…)Student (“李芳”,“女”,…)……

Record (“ Student” ,Field (“ name” , String )

,(Field (“ sex” , String )…

)

MetaClass (“ Record” ,[MetaAttr( (“ name” ) ,String),MetaAttr((“fields”),list<Field>)]MetaClass (“ Field” ,…)

通用的元元模型

信息,数据( M0 )

模型( M1 )

元模型( M2 )

元元模型( M3 )

Page 11: 基于 CWM 的 数据仓库体系结构设计

OMG 规范和元数据层次的关系

元数据层次 MOF 术语 示例

M3 元元模型 MOF 模型

M2 元模型,元元数据

UML 元模型,CWM 元模型

M1 模型,元数据

UML 模型,CWM 模型

M0 对象,数据 数据仓库数据

Page 12: 基于 CWM 的 数据仓库体系结构设计

CWM 和相关规范的关系

CWM 和 MOF 的关系 CWM 和 UML 的关系

直接继承了 UML 核心元模型 使用 UML 图形标记 使用 UML 中的 OCL (对象约束语言)

CWM 和 XMI 的关系

Page 13: 基于 CWM 的 数据仓库体系结构设计

CWM 的组成

CWM 元模型 基础包 资源包 分析包 管理包

CWM DTD 和 CWM XML CWM IDL

Page 14: 基于 CWM 的 数据仓库体系结构设计

提纲

背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍

基于 CWM 的数据仓库体系结构设计

电信综合业务信息服务平台设计

Page 15: 基于 CWM 的 数据仓库体系结构设计

OLTP系统

遗留系统

办公系统

外部数据

DW管理系统

抽 取 清 洁 转 换 装 载

数据模型

本地元数据库

本地元数据库

元数据交换

数据集市

中央元数据库

OLAP工具

挖掘工具

报表工具

中央数据仓库

O D S

基于 CWM 的数据仓库体系结构

Page 16: 基于 CWM 的 数据仓库体系结构设计

数据源

OLTP 数据库

遗留数据

内部办公系统数据

外部数据

Page 17: 基于 CWM 的 数据仓库体系结构设计

数据源

多种类型:关系型、多维、 记录、 XML

以及其它一些工具类型

关系型:模式,物理表, 视图,字段,索引,触发器,外关键字 ,主关键字 ,数据类型,字段值,数据记录,记录的集合

Page 18: 基于 CWM 的 数据仓库体系结构设计

Relational 元模型

Page 19: 基于 CWM 的 数据仓库体系结构设计

Col umn

SQLQuery

Col umnSet

SQLDataType

Tabl e

Vi ewBaseTabl e

Catal og

Procedure

I ndex

Tri gger

Package

Relational 元模型(续 1 )

Page 20: 基于 CWM 的 数据仓库体系结构设计

Attri buteLi nkI nstanceExtent

RowSet

Col umnSet

Obj ect DataVal ue

Col umnVal ueRow Attri bute

Relational 元模型(续 2 )

Page 21: 基于 CWM 的 数据仓库体系结构设计
Page 22: 基于 CWM 的 数据仓库体系结构设计

关系型数据源的主要接口

BaseTable :查询和修改表的属性、触发器和结构

Catalog :查询和修改包含的元素 Column :查询和设置属性 Row :查询和修改一条记录的内容 RowSet :查询和修改包含的记录

Page 23: 基于 CWM 的 数据仓库体系结构设计

ETL

读取数据

清洁数据

转换数据

装载数据

Page 24: 基于 CWM 的 数据仓库体系结构设计

ETL 组件的接口

黑盒变换:Transformation , DataObjectSet , TransformationUse

白盒变换:FeatureMap , ClassifierMap , ClassifierFeatureMap , TransformationMap

变换的执行顺序控制:TransformationTask , TransformationStep , TransformationActivity , StepPrecedence , PrecedenceConstraint

Page 25: 基于 CWM 的 数据仓库体系结构设计

中央数据仓库

数据粒度最细且多层次 数据是历史的 数据是时间相关的 大数据量 数据是整合的 通用的、全局的

Page 26: 基于 CWM 的 数据仓库体系结构设计

操作数据存储 ODS

操作型系统

O D S

1/2 1/2

企 业数据仓库

Page 27: 基于 CWM 的 数据仓库体系结构设计

数据集市

企 业数 据仓 库

最细粒度

数据集市

部门 2

粒度 2

数据集市

部门 1

粒度 1

部门 3

粒度 3

外 部数据源

数据集市

Page 28: 基于 CWM 的 数据仓库体系结构设计

数据集市的特点

面向部门应用

规模小,投资少

使用方便且成本低

Page 29: 基于 CWM 的 数据仓库体系结构设计

元数据库

类型: 中央元数据库 本地元数据库

内容: 抽取过程:任务、执行顺序、映射关系、转换规则 描述数据 :方位图、数据之间的商业关系、商业规

则、数据的改变 数据仓库管理:安全性、运行状态、抽取过程的调

度、 I/O 对象及其关系

Page 30: 基于 CWM 的 数据仓库体系结构设计

数据仓库管理

访问控制和安全性管理 数据增长管理 抽取过程的管理 性能管理 故障恢复 扩充和演变管理

Page 31: 基于 CWM 的 数据仓库体系结构设计

数据仓库管理接口

抽取过程的调度( WarehouseProcess ,WarehouseEvent , InternalEvent , ScheduleEvent , ExternalEvent )

抽取过程的执行( TransformationExecution , StepExecution , ActivityExecution )

数据元素的变化( Measurement , ChangeRequest )

Page 32: 基于 CWM 的 数据仓库体系结构设计

OLAP 组件接口

立方体的定义:Cube , CubeDimAssoc , CubeRegion , Dimension , Hierarchy , Level , Mearsure , LevelBasedHierarchy , HierarchyLevelAsso , ValueBasedHierarchy , MemberSelection , MemberSelGrp ,

立方体到物理数据源的映射StructureMap , LevelBasedHierarchy , ValueBasedHierarchy

Page 33: 基于 CWM 的 数据仓库体系结构设计

数据挖掘组件的主要类及接口

MiningModel :模型属性和模型的输入 MiningSettings :对象属性,输入参数的说明 ApplicationInputSpecification , ApplicationAttribut

e :使用模型时的参数 MiningModelResult :挖掘的结果 SupervisedMiningModel: 描述预言性算法产生的模

型 StatisticsSettings, AssociationRulesSettings, Clusterin

gSettings, ClassificationSettings, RegressionSettings :对应模型的设置

Page 34: 基于 CWM 的 数据仓库体系结构设计

基于 CWM 的数据仓库体系结构的特点及优点

统一的数据集市和数据仓库 中央元数据库驱动机制 灵活高效的数据交换方式 易于升级 高度的可集成性 高度的可扩展性

Page 35: 基于 CWM 的 数据仓库体系结构设计

基于 CORBA 的企业数据仓库扩展结构

对 象 服 务

企业数据仓库 平台

C W M ( IDL)

通用数据仓库 工具

C W M ( IDL)

对象请求代理( ORB )

Page 36: 基于 CWM 的 数据仓库体系结构设计

提纲

背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计

Page 37: 基于 CWM 的 数据仓库体系结构设计

系统体系结构设计

管 理 系 统

抽 取 清 洁 转 换 装 载

数 据 建 模

元数据交换

数据联机分析展示

元数据库

面向主题的企业数据仓库

省分公司上报数据

计费结算数据

WEB服务器

客户端

Page 38: 基于 CWM 的 数据仓库体系结构设计

系统部署图

WEB浏览

自动邮件

工具客户端

OLTP

服务器

数据仓库

服务器

OLAP

服务器

W W W

服务器

Page 39: 基于 CWM 的 数据仓库体系结构设计

致谢