数据仓库技术介绍

99
数数数数数数数数 数数数数数数 数数数数数数 数数数数数数数

description

数据仓库技术介绍. 了解 你的组织. 了解你的客户. 了解你的供应商. 嵇 晓. 内容提要. 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语. 人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征; 医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助; ……. 面临的问题. 经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录 - PowerPoint PPT Presentation

Transcript of 数据仓库技术介绍

Page 1: 数据仓库技术介绍

数据仓库技术介绍

了解你的组织

了解你的客户

了解你的供应商

嵇 晓

Page 2: 数据仓库技术介绍

内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语

Page 3: 数据仓库技术介绍

面临的问题人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一

起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征

; 医学研究人员希望从已有的成千上万份病历中找出

患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;

……

Page 4: 数据仓库技术介绍

企业面临的问题 经过多年的计算机应用和市场积累,许多企业保存

了大量原始数据和各种业务数据 , 它是企业生产经营活动的真实记录

由于缺乏集中存储和管理,这些数据不能为本企业加以利用 , 不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息

Page 5: 数据仓库技术介绍

数据爆炸问题

– 自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中 。

– 我们会淹死在数据中 , 但却为信息、知识所饿 !

Page 6: 数据仓库技术介绍

面临的挑战

如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?

如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力?

如何预先发现和避免企业运作过程中不易察觉的商业风险?

Page 7: 数据仓库技术介绍

宝钢整体产销信息管理系统 L4

L2过程控制计算机系统

L3(分厂级)生产控制计算机系统

宝钢计算机系统的架构

L1基础自动化基础自动化

Page 8: 数据仓库技术介绍

宝钢的现状及需求 宝钢拥有许多传统的 OLTP (联机事务处理)系统,

担负着许多重要的日常事物处理工作,在宝钢的生产经营活动中扮演着重要角色。

经过多年的计算机应用,宝钢积累了大量丰富翔实的原始生产实绩数据和各种业务数据,它反映了企业生产经营过程中规律性的信息和知识,由于缺乏集中存储和管理,对如何充分有效地利用这些数据,却一直没有很好的解决方法,不能利用它们进行有效的统计、分析及评估,无法将这些数据转换成企业真正有用的信息。

Page 9: 数据仓库技术介绍

宝钢追求的目标 宝钢作为中国的特大型钢铁企业,它的主要建设目标是在激烈的国际国内市场竞争中立于不败之地,并且要加强管理、优化资源,追求效益最大化。这就要求使其生产和经营过程共同达到优化,例如,能够快速准确地提供报价、确定交货期、以及确保产品质量等,并且制定有正确的企业发展战略,以适应市场需求的变化,能做出及时反应。

Page 10: 数据仓库技术介绍

宝钢股份的质量方针

“重用户、重改进、重效率、重价值,为社会提供世界一流的产品和服务。”

----- 宝钢股份质量方针

随着市场竞争的加剧和用户要求的提高,从大量数据中挖掘规律性知识,制定正确的生产策略和市场策略,显得越来越重要。

Page 11: 数据仓库技术介绍

市场需求是技术发展的源动力

数据仓库的出现和发展是数据库和 OLTP 技术发展、数据库应用深化的产物;

目的是把数据库中的大量数据转化为有用信息,为企业更好地进行决策服务。

Page 12: 数据仓库技术介绍

内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语

Page 13: 数据仓库技术介绍

在早期,业务人员考虑如何实现自动化…..

计算机发展史

Page 14: 数据仓库技术介绍

在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。

computer

手工业务自动化

Page 15: 数据仓库技术介绍

computer

computer很快就建立了许多应用系统,在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。

联机事务系统的建立

Page 16: 数据仓库技术介绍

联机事务系统的建立(续) 当时单位容量的联机存储介质比现在昂贵得多

,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。

在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个 80 年代直到 90 年代初数据库应用的主流。

Page 17: 数据仓库技术介绍

在数据仓库以前大都是事物处理系统 (OLTP) 的天下( 1965 -1990 )

这个现状持续了 25 年,它主要实现 - 数据的收集 - 数据的存储 - 数据的在线存取

联机事务系统的功能

Page 18: 数据仓库技术介绍

但是在 OLTP 系统中存在着若干问题- 数据不是综合的- 没有历史数据- 没有汇总数据

联机事务系统的问题

Page 19: 数据仓库技术介绍

computer

computer

computer

Q1Q2

Q3

Q1Q2Q3Q4

管理者想要了解公司的情况…

数据集成问题

有多少品种 ?

Page 20: 数据仓库技术介绍

computer

缺乏数据集成不是一个唯一的问题

- 历史数据的缺乏是另一个应用问题

- 在过去的三年中,我的帐户每月平均余额是多少 ?

- 我怎样才能知道这些数字 ?

- 我的帐户现在有多少钱 ?

- 你有 2,704.87元

历史数据问题

Page 21: 数据仓库技术介绍

computer另一个问题是汇总 … .

- 发往 A 公司的货物在哪里 ?

- 在出厂中心,将于下周一运到

- 我们上个月、去年有多少货物发往 A 公司 ?- 有多少货物准时到达 ? 晚到 ? 发生货损 ?

- 我要写个汇总报告 .

汇总问题

Page 22: 数据仓库技术介绍

computer

- 贯穿公司的数据集成 ? - 公司的历史数据 ? - 详细数据及汇总数据 ?

获取信息的重要因素

Page 23: 数据仓库技术介绍

应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。

决策的需要

Page 24: 数据仓库技术介绍

决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。

联机分析处理

Page 25: 数据仓库技术介绍

“我们花了 20 多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”

---- 著名的数据仓库专家 Ralph Kimball

市场需求是技术发展的源动力

Page 26: 数据仓库技术介绍

早期应用系统

PC 电子表格

归档文件

OLTP 系统

数据仓库

获得信息

如何获得信息

Page 27: 数据仓库技术介绍

第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心信息查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;

获得有用的信息并非想象的那么容易 (1)

Page 28: 数据仓库技术介绍

第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;

获得有用的信息并非想象的那么容易 (2)

Page 29: 数据仓库技术介绍

第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。

获得有用的信息并非想象的那么容易 (3)

Page 30: 数据仓库技术介绍

针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。

数据仓库的通俗解释

Page 31: 数据仓库技术介绍

数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。

数据仓库的通俗定义

Page 32: 数据仓库技术介绍

以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。

数据库与数据仓库的辩证关系

Page 33: 数据仓库技术介绍

传统的事务处理环境不适宜于决策支持应用•事务处理和分析处理的性能特性不同•数据集成问题•数据动态集成问题•历史数据问题•数据的综合问题

操作型环境和分析型环境的分离

从数据库到数据仓库

Page 34: 数据仓库技术介绍

操作型数据 & 分析型数据的区别

操作型数据 分析型数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不更新 操作需求事先可知道 操作需求事先不知道 生命周期符合 SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作一单元 一个时刻操作一集合 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求

Page 35: 数据仓库技术介绍

业务系统 DSS (决策支持系统)

现在

1990

数据集市

ODS近线存储器

探索仓库

数据仓库概念的诞生

Page 36: 数据仓库技术介绍

数据仓库的定义 数据仓库是面向主题的、综合的、不同时间的、稳定的时间集合,主要用于支持经营管理中的决策制定过程

数据仓库之父--Bill Inmon

Page 37: 数据仓库技术介绍

数据仓库的四个基本特征

数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化

Page 38: 数据仓库技术介绍

数据仓库的体系结构

Data Data ExtractionExtraction

TransformationTransformationEngineEngine

LoaderLoader

MetadataMetadataManagerManager

SchedulerScheduler

SAPSAP

RDBMSRDBMS

LegacyLegacy

SASSAS

ExternalExternal

Information Information DatabaseDatabase

QualityQuality

MetadataMetadata

数据的抽取数据的抽取 存储和管理存储和管理 信息探索信息探索

RiskRisk

CustomerCustomer

ProductProduct

MarketMarket

FutureFuture

WebWeb EISEIS

QueryQuery

ReportingReporting

Data MiningData Mining

DSSDSSVisualizeVisualize

OLAPOLAP

Page 39: 数据仓库技术介绍

数据的抽取( 1 ) 数据的抽取是数据进入仓库的入口。由于数据

仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。

Page 40: 数据仓库技术介绍

数据的抽取( 2 ) 数据仓库中的数据并不要求与联机事务处理系

统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

Page 41: 数据仓库技术介绍

存储和管理 数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

Page 42: 数据仓库技术介绍

信息探索 信息探索实际上相当于数据仓库的门面,其性

能主要集中在多维分析、数理统计和数据挖掘方面。

多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于 Web前端联机分析界面,而不仅仅是在网上发布数据。

Page 43: 数据仓库技术介绍

数据集市

ODS近线存储器

探索仓库

数据仓库的组成

Page 44: 数据仓库技术介绍

ETL

自动处理数据

集成和转换

Page 45: 数据仓库技术介绍

1 2 3 4

1 、通过不干净的遗留系统; 2 、不合适的集成;

3 、数据仓库的过期; 4 、用户需求的改变。

如何避免脏数据进入

Page 46: 数据仓库技术介绍

如果数据质量不能被信任,则数据仓库将失去价值,数据管理是一个循环往复的过程,包括四个基本功能:定义量度标准报告改善

量度标准

报告

定义

改善

连续的改善连续的改善循环循环

数据质量管理

Page 47: 数据仓库技术介绍

ODS 用于集成相关应用系统并且为决策支持系统提供数据基础

SAPOracle FinancialsPeopleSoftBaan

home grown

商业系统 客户开发系统

ODS

“遗产”系统 DSS

探索数据仓库

操作数据存储( ODS)

Page 48: 数据仓库技术介绍

近线存储器

活动监控器

交叉介质数据管理器

扩展数据到近线存储器,可以极大地降低数据仓库环境的成本,并且可以将存储能力扩展到无限大

近线存储器

Page 49: 数据仓库技术介绍

借助探索仓库 - - 可以极大的降低探索的成本 - 极大地提高探索速度 - 探索的能力呈指数级增长

探索仓库

非常特别的查询token basedtechnology

relational

探索仓库

Page 50: 数据仓库技术介绍

什么是企业数据仓库 ?

企业数据仓库是一个环境 , 通过有效的信息来满足和促进企业的决策制定过程。

Page 51: 数据仓库技术介绍

企业数据仓库的另一种定义

它是一种可信的企业数据库平台 , 这些数据来自于各种各样的数据源 ,并且在经过抽取、清洗和转换后根据用户的查询适时地提供给用户。

Page 52: 数据仓库技术介绍

- 综合数据- 分粒度的数据- 历史数据- 共享的数据- 决策的基础- 大的存储量

企业数据仓库

Page 53: 数据仓库技术介绍

- 分粒度的数据- 公司的公共数据- 长期历史数据- 决策的基础- 大的存储量- 轻度索引- 允许以多种方式浏览数据

财务

销售 市场会计 - 汇总的数据

- 部门级的数据- 有限的历史数据- 有限的存储量- 重度索引- 有限的数据视图

数据集市

Page 54: 数据仓库技术介绍

数据集市与数据仓库有根本性的区别

财务

销售 市场会计

数据集市与数据仓库

Page 55: 数据仓库技术介绍

采用正确的方法论

De

velo

pm

en

t & T

estin

gH

igh

Le

vel,

Str

ate

gic

Sp

eci

fic B

uild

, F

ocu

sse

dP

rod

uctio

nEvo

lvin

g,

Inte

gra

ted

评估

需求收集

设计

构造

部署

回顾

管理及维护

Page 56: 数据仓库技术介绍

评估 : 为数据仓库项目确定企业的业务缺陷;

需求收集:启动项目,搜集业务需求并且定义系统检验标准;

设计: 分析和设计数据仓库系统体系结构,确认检验测试标准;

构造: 开发、检验测试、移交数据仓库及应用系统;

部署: 投入到生产环境中并且在企业范围内保证知识转移及用户存取的便利;

回顾: 回顾项目开发过程,评估部署过程及对业务的影响。

SAS快速数据仓库方法

Page 57: 数据仓库技术介绍

快速数据仓库方法的重点 必须得到企业高层领导的支持和帮助; 不依赖于技术,而是一个业务过程; 以业务为中心,并且由业务驱动,业务用户全程参

与; 按照约定好的规则实施; 以迭代式方法实现,全局考虑,局部实施 (Think

big, Start small);

Page 58: 数据仓库技术介绍

快速数据仓库方法的重点(续) 采用快速应用开发方法 (RAD); 允许柔性和动态收集需求; 首先寻求第一个快速成功的数据集市; 借助优良的项目管理方法帮助;

Page 59: 数据仓库技术介绍

• 企业数据仓库的前景和目标• 数据仓库成功的因素 ( 如果可能算出 ROI)

• 业务过程和业务驱动• IT 的基础架构 (当前和未来 )

• 用户需求分析(数据需求、信息需求、报表和分析需求、探索需求以及信息供给需求)

企业关键的评估项目

Page 60: 数据仓库技术介绍

• 数据仓库规模和增长性• 宏观的企业数据仓库的物理和逻辑模型• 主题区域和实施优先级• 具体实施方案• 任务和责任• 首先实施的主题以及它的项目计划

企业关键的评估项目(续)

Page 61: 数据仓库技术介绍

设计阶段 : 维数据模型维数据模型(逻辑)

– 提供更详细的数据视图(逻辑)– 包括一个实体列表

多维 事实 / 测量值

– 描述实体之间的关系– 提供每一个实体的属性列表– 包括维数据模型的图形表示– 业务用户更容易理解– 能够很好地匹配目标模型

Page 62: 数据仓库技术介绍

物理仓库数据模型可以利用– 范式模型– 汇总表– 预先合并的视图和表– 星型模式– 雪花模式– 星型 --雪花模式– 多维数据模型 (MDDBs)– 非结构化的数据 / 文档– 上述各种模型的混合使用

设计阶段 : 物理模型

范式模型

MDDBs

星型模式雪花模式

星型 --雪花模式

汇总表

视图

非结构化数据

Page 63: 数据仓库技术介绍

企业数据仓库– 范式化的 E-R模型– 雪花及星型 --雪花模式– 汇总表– 预先合并的视图

部门数据仓库 / 数据集市– 汇总表– 预先合并的视图和表– 多维数据仓库( MDDBs)– 星型模式– 雪花及星型 --雪花模式

设计阶段 : 物理模型的适配性

不是设计用于直接用户

的查询

设计用于特定的业务用

户查询

Page 64: 数据仓库技术介绍

为什么大多数数据仓库项目会失败?

缺乏领导支持(没有领导理解和支持) 缺乏业务用户自始至终的项目参与 业务单位之间缺乏协调和努力 初始范围过于广泛和详细 (投入过大 , 难于调整等 ) 数据质量较差 (遗留的和现时的系统 ) 缺乏有效合理的实施力量 (例如:缺乏项目管理手段、任务和责任不明确等等)

Page 65: 数据仓库技术介绍

1、搭建面向主题的信息架构;2、综合统计报表、信息查询;3、常规数据分析(成本、财务、市场、销售、…),联机分析处理,多维信息查询;

4、决策支持系统、专家系统、…;5、质量改善, SPC;6、关系管理(客户、供应商、访问者、…)7、数据挖掘、知识发现;8、…...

数据仓库相关领域的应用

Page 66: 数据仓库技术介绍

1 、及时获取生产管理综合信息,为决策者提供科学分析依据;

2 、改善管理能力,可以得到凭直觉无法得到的结论;

3 、对转瞬即逝的机会快速作出反应,提高竞争能力;

4、既能够管理宏观信息也能够管理微观数据,可以追朔历史;

数据仓库的优点

Page 67: 数据仓库技术介绍

5 、建立企业内部各部门之间的合作关系。 6 、提供了面向主题的信息架构,存取数据 方便,业务用户也能方便的取用这些数据。

7 、开拓了进一步探索和研究的广阔空间–数据仓库支持进一步的探究,以发现数据所形成的趋势、构成的模式及其间的关系,这可引导用户改进现行的业务处理过程或作出正确的决策。

8、改善客户关系管理,让客户能获得更多的好处。

数据仓库的优点(续)

Page 68: 数据仓库技术介绍

投资回报率汇总结果

平均投资回报率

收回投资的平均时间

企业

Source: IDC, The Foundations of Wisdom, 1996

321%321%

2.73 年

制造业的 ROI 平均值高于其他行业

Page 69: 数据仓库技术介绍

内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语

Page 70: 数据仓库技术介绍

“ 从10% 的人花 100% 的时间使用工

具 到100% 的人花 10% 的时间使用工

具 .”SoundView Financial Group

Business Intelligence Report

信息用户所面临的变化

Page 71: 数据仓库技术介绍

信息生产者

信息消费者

高级用户

IT 人员

报表查阅者

活跃的分析人员

报表用户

企业信息环

Page 72: 数据仓库技术介绍

业务用户 希望得到的不仅是一个含有正确信息的报表,并且需要能进一步分析及格式化报表的基本的功能,以满足其特定的需要。

高级用户 希望能直接访问数据,进行特别查询、分析及报表。

IT 人员 希望能为企业中的任何人、在任何地方提供对数据的访问,或向他们进行发布,同时减少他们自己堆集如山的报表和管理的麻烦。

用户所需要的是什么 ?

Page 73: 数据仓库技术介绍

宝钢计算机系统

铁水系统

一、二期工程 钢区

宝钢 TCP/IP光纤主干网络(一、二期工程地域: DEC TDM )(三期工程地域: IBM ATM )

IBM RS60007013-J30 x3 台512MB

UNISYSU6000/65 x2 台512MB

检化验

DEC Alpha2100-4/275512MB

250转炉炼钢

DEC Alpha2100-4/275 x2 台384MB

1420 冷轧

DEC Alpha2100-4/275 x2 台192MB

1580 热轧

DEC VAX4600A x4 台128MB

电炉 /圆坯连铸

DEC Alpha2100-4/200 x2 台384MB

2030 冷轧

DEC VAX4600 x2 台256MB

2050 热轧

DEC Alpha4100 x2 台1 GB

高速线材

DEC Alpha4100-5/300x2 台 512MB

1550 冷轧前库

PC ServerSCO UNIX

300 吨转炉炼钢

IBM RS6000 /J50 x2 台1 GB

钢管分公司

HP 9000 K370 x2 台512MB

宝钢整体产销 管理系统

IBM 9672-R25 主机 通信前置机

IBM RS6000/SP

IBM SP主机

数据仓库服务器

Page 74: 数据仓库技术介绍

操作系统 : OS/390

数据库 : IBM DB2

角色 : 数据仓库的重要数据来源

IBM 9672 (公司产销系统)

Page 75: 数据仓库技术介绍

操作系统 : IBM AIX

数据库 : SAS Data Set

角色 : 数据仓库、数据分析处理、报表系统发布( Domino Web Server )的核心平台

IBM SP ( 数据仓库服务器)

Page 76: 数据仓库技术介绍

企业级数据仓库 ( 按主题 )– 质量 (试点,完成 )

– 生产与物流– 市场与销售– 成本与财务– 设备– 能源

部门级数据仓库– 冷轧– 热轧– …...

数据仓库建设

Page 77: 数据仓库技术介绍

数据仓库应用

企业数据仓库– 按主题 ( 实施过程中 )

信息门户 (Intranet 应用)– 生产管理信息– 技术质量信息– 企业统计信息– 生产区域信息 (冷轧 , 热轧 ,…)– 生产管制信息– ...

Page 78: 数据仓库技术介绍

质量数据仓库数据环境

来源于 9672 上的 DB2 下载后的数据成为 ODD(Operational

Data Definition) 形成 22个主题数据表 采用星状的数据模型 支持不同种类的应用

Page 79: 数据仓库技术介绍

质量数据仓库主题一览

Color

电炉和初轧

线材

电镀锡电镀锌

普板

热镀锌彩涂

电工钢

小方坯热轧

1,2炼钢板坯1炼钢钢锭

冷轧

1,2炼钢PONO

Page 80: 数据仓库技术介绍

质量数据仓库检化验主题

初轧

线材

电镀锡电镀和热镀锌

普板

彩涂

电炉

热轧

1,2炼钢

Page 81: 数据仓库技术介绍

数据抽取

Steel Hot-Roll

color-coated

Cold-Roll

EGSn

hot-dip

EGZn

Bloom Electric Steel

Wire

Staging DW

QM DM Environment

Subject Areas Data Marts

Source Systems

Page 82: 数据仓库技术介绍

EGSn Production

事实表

维表

逻辑表

Original Order

original order id

Orderorder id

backlogapnpsr numbermetallurgy index codeproduction line codeinternal gradesteel grade

Timetimekey

Materialmaterial id

Processprocess id

process nameprocess sub groupprocess groupplant idplant group

process id (FK)material id (FK)status key (FK)timekey (FK)order id (FK)

original order id (FK)material tracking numberprocess begin timeprocess end timefnpr lengthTemp Pickling 1-1Temp Pickling 2-1Temp Pickling P3-1annl center speedcoating weight topcrpp length headcrpp length tailctng weight bottomentry coil num 1entry coil num 2entry coil thickentry coil weightentry coil widthexit coil num 1exit coil oth dimexit coil thickexit coil weightexit coil widthhf strip temp avghf strip temp maxhf strip temp minn pack sheetnext plantrh strip temp avgrh strip temp maxrh strip temp minscf strip temp avgscf strip temp max

Statusstatus key

status coderedundantwithheldwithheld reasondefect codedefect iddefect namedefect reasondefect type

电镀锡生产实际逻辑模型产品质量分析变量

.

.

Page 83: 数据仓库技术介绍

Orderorder_id: CHAR(10)

backlog: CHAR(17)apn: CHAR(4)psr_num: CHAR(11)mic_num: CHAR(6)line_num: CHAR(4)internal_grade: CHAR(8)steel_grade: CHAR(16)

Processproc_id: CHAR(4)

pname: CHAR(10)process_sub_group: CHAR(10)name: CHAR(10)plant_id: CHAR(10)plant_group: CHAR(10)

EGSn_Productionproc_id: CHAR(4)material_id: CHAR(11)status_key: NUMBER(8)timekey: DATEorder_id: CHAR(10)

original_order_id: VARCHAR2()material_tracking_id: CHAR(10)production_t_start: DATEproduction_t_end: DATEfnpr_sheet_length: NUMBER(8)Temp_Pickling_1_1: NUMBER(4)Temp_Pickling_2_1: NUMBER(4)Temp_Pickling_3_1: NUMBER(4)annl_center_speed: NUMBER(4)coating_weight_top: NUMBER(4)crpp_length_head: NUMBER(4)crpp_length_tail: NUMBER(4)ctng_weight_bottom: NUMBER(4)entry_coil_num_1: CHAR(10)entry_coil_num_2: CHAR(10)entry_coil_thick: NUMBER(4)entry_coil_weight: NUMBER(8)entry_coil_width: NUMBER(4)exit_coil_num_1: CHAR(10)exit_coil_otr_dim: NUMBER(4)exit_coil_thick: NUMBER(4)exit_coil_weight: NUMBER(8)exit_coil_width: NUMBER(4)hf_strip_temp_avg: NUMBER(3)hf_strip_temp_max: NUMBER(3)hf_strip_temp_min: NUMBER(3)n_pack_sheet: NUMBER(4)next_plant: CHAR(10)rh_strip_temp_avg: NUMBER(3)rh_strip_temp_max: NUMBER(3)rh_strip_temp_min: NUMBER(3)scf_strip_temp_avg: NUMBER(3)scf_strip_temp_max: NUMBER(3)scf_strip_temp_min: NUMBER(3)sf_strip_temp_avg: NUMBER(3)sf_strip_temp_max: NUMBER(3)sf_strip_temp_min: NUMBER(3)strip_20A_temp: NUMBER(3)

Statusstatus_key: NUMBER(8)

status_code: CHAR(10)redun: CHAR(1)withheld: CHAR(1)wreason: CHAR(8)defect_code: CHAR(10)defect: CHAR(10)dname: CHAR(10)dreason: CHAR(10)dtype: CHAR(10)

电镀锡生产实际物理模型产品质量分析变量

Page 84: 数据仓库技术介绍

EGSn Sample Testingmaterial id (FK)order id (FK)process id (FK)product key (FK)timekey (FK)

mtrl tracking numtest timeavg tensile rm aavg tensile rm nhardness a ahardness a nhardness c ahardness c nhardness d ahardness w ahardness w nppi bappi bcppi bdppi bwppi tappi tcppi tdppi twra bara bcra bdra bwra tara tcra tdra twrmax barmax bcrmax bdrmax bwrmax tarmax tcrmax tdrmax twtensile a atensile a n

电镀锡检化验逻辑模型试样分析变量

Orderorder id

backlogapnpsr numbermetallurgy index codeproduction line codeinternal gradesteel grade

Productproduct key

product nameproduct groupproduct shape

Time

timekey

Material

material id

Processprocess id

process nameprocess sub groupprocess groupplant idplant group

Page 85: 数据仓库技术介绍

数据分析应用 桌面 /主机应用

– 质量分析(热轧、冷轧、炼钢,… )

– 数据挖掘 ( 产品质量 , KIV/KOV,... )– 专家系统 (配矿 , 发货支持 ,…)– 市场分析 ( 市场 & 销售 )– 模型应用 (合同计划及优化 )– 客户信息查询(东方钢铁网站)– 客户关系管理(营销)– …...

Page 86: 数据仓库技术介绍

研发产品 实用数据挖掘工具

– Practical Miner Ver. 2.0,…

Page 87: 数据仓库技术介绍

宝钢股份公司企业信息门户

Page 88: 数据仓库技术介绍

生产管制信息发布系统

Page 89: 数据仓库技术介绍

合同订交货周期分析系统

Page 90: 数据仓库技术介绍

多维数据查询

Page 91: 数据仓库技术介绍

企业统计系统

Page 92: 数据仓库技术介绍

KIV & KOV 分析

Page 93: 数据仓库技术介绍

1 、实现分析型数据和操作型数据的分离;2、减轻了公司管理机的负荷;3、为建立“ END USER COMPUTING”环境提供了基础;

4、为分析型应用提供了创造园地,如:CRM、 BI、 DM…

5 、实现信息共享,支持固定及移动用户。

对公司信息环境的影响

Page 94: 数据仓库技术介绍

从数据到信息到知识

Source: Data Warehouse Network, June 1997.

业务

增值

信息管理成熟期

数据 信息 知识

自动控制 创新 适应

成本降低操作系统

收入增加决策支持系统

市场领先面向客户的系统

一些组织已经进入知识发现阶段。

当组织成熟时,它们从数据收集走向信息管理阶段并且最终达到知识发现阶段。

Page 95: 数据仓库技术介绍

构造优化的企业信息环境

质量质量

生产生产

销售销售

能源能源

设备设备业务系统业务系统

业务数据集市业务数据集市

财务财务

业务 业务 & & 技术元数据技术元数据

操作环境操作环境 数据仓库环境数据仓库环境

市场市场

个人数据集市个人数据集市

销售销售

外部外部 && 非结构化数据非结构化数据

操作数据存储操作数据存储

企业数据仓库企业数据仓库

Page 96: 数据仓库技术介绍

内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语

Page 97: 数据仓库技术介绍

结束语 数据仓库是 CRM、 BI及其它决策支持系统的基础; 建立完整的“宝钢企业级数据仓库”,构筑完善的OLAP应用,开展数据挖掘工作;

以数据仓库技术为基础考虑关键的业务应用: -如质量分析及控制,摸索质量控制的规律,实现工艺参数的优化;

-标准成本的科学核定,按照投入产出原则,构建成本中最主要的金属料平衡模型;

-财务分析,提高竞争力; -生产过程的优化组合… 实事求是,数据仓库并不是万能的,对不同需求应科学

分析,区分对待。

Page 98: 数据仓库技术介绍

知识就是力量 了解你的组织 了解你的客户

了解你的供应商 效率 效果

Page 99: 数据仓库技术介绍

Thank you !Thank you !