新一代大数据分析平台建设思路

31
1 Copyright 2010 EMC Corporation. All rights reserved. Data Computing Division 新新新新新新新新新新新新 2013-01

description

新一代大数据分析平台建设思路. 2013-01. 内容提要. 大数据给中国联通的业务支撑运营模式带来的影响. 大数据分析环境强力支撑日益繁复的业务分析需求. Greenplum 为中国联通提供全面的大数据分析解决方案. 移动互联网发展对传统通讯业务运营的挑战. 传统运营商盈利模式受到挑战. 市场环境. 终端复杂性. 业务与产品. 市场日渐饱和,用户增长缓慢 语音业务增长乏力,数据业务应用激增 激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低. 智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本. - PowerPoint PPT Presentation

Transcript of 新一代大数据分析平台建设思路

Page 1: 新一代大数据分析平台建设思路

1© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

新一代大数据分析平台建设思路

2013-01

Page 2: 新一代大数据分析平台建设思路

2© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案

Page 3: 新一代大数据分析平台建设思路

3© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

移动互联网发展对传统通讯业务运营的挑战

终端复杂性 业务与产品市场环境

更多产品选择意味着更多的细分市场并能针对性服务,但也会让用户眼花缭乱,用户感知降低。

为细分客户提供不同优先级的服务

智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本

市场日渐饱和,用户增长缓慢

语音业务增长乏力,数据业务应用激增

激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低

传统运营商盈利模式受到挑战

数据量爆炸式增长应用多样性

大数据量消费终端的出现拉动流量,但单位收入下降,并对网络基本业务产生影响。

数据业务从“杀手级应用”朝着“网络杀手”转变。

网络和终端的开放平台引入了新的应用模式以及更多合作伙伴,扩大了用户的选择,但在这种开放平台的前提下,谁能主导用户关系?

数据量爆炸式增长

Page 4: 新一代大数据分析平台建设思路

4© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

技术挑战–大数据的存储、处理与挖掘分析

支持种类繁多的互联网业务

2 面向大量外部商户的营销数据服务

3

4

5

复杂的网络数据整合、质量控制、标准化

每日 PB级数据的实时性挖掘分析

海量的、结构庞杂的数据存储、计算、搜索

1

GreenPlum凝聚全球智慧,在不断整合优秀解决方案与沉淀总结成功案例的同时,坚持技术创新,不懈探索移动互联时代的通信运营商数据分析的最佳实践。

Page 5: 新一代大数据分析平台建设思路

5© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

大数据改变商业模式• 通过构建基于云计算的营销分析系统,可以在第一时间了解营销状况,例如:实时 BI、秒级营销

• 可以在第一时间分析企业的海量数据,使决策敏捷高效,把我们历史数据变成我们的数据资产

• 通过应用云计算和虚拟化技术,可以实现绿色云化数据中心,从根本上解决系统宕机故障问题

• 基于云计算和虚拟化技术、 X86 工业标准和大规模并行处理无共享架构的数据仓库技术已经成为近几年的市场主流

Page 6: 新一代大数据分析平台建设思路

6© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

非结构化数据存储、管理和分析新的数据类型 + 新的分析=新的 BI业务支撑能力• 新的数据类型 : 非结构化数据源

例如 :> 电子文档、电子邮件> Web日志、点击流文件> 社交网络关系> 系统日志文件> 移动互联网数据> 图像、视频

• 新的分析 : 高于 SQL实现,使用MapReduce发现潜在模式例如 : > 模式或路径匹配分析> 社交网络分析> 图形分析> 文本分析

• 新的 BI业务支撑能力 : 传统 BI和数据科学家的融合> 迭代分析(数据探索和调查分析)> 数据科学家 / 专业数据分析人员 /分析开发人员 /计量分析师 Quants

Page 7: 新一代大数据分析平台建设思路

• 数据库一直都是作为数据分析的选择

• SQL 是高层次的 , 且易于重复使用

> 适用于任何数据库结构

• 纯 SQL可以用在大容量的数据

>已有许多上百 TB级或 PT级数据仓库

如何用数据库分析大数据 ?

Page 8: 新一代大数据分析平台建设思路

8© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

...但我们失去了什么?

•可重复使用的功能– 数据模型:模式,统计,局部优化

– 通用算法: joins, grouping, sorting

•为什么我们不能有– 可轻易重复使用的– 易用的– 能处理大容量的数据的分析平台 ?

Page 9: 新一代大数据分析平台建设思路

9© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案

Page 10: 新一代大数据分析平台建设思路

10© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

提升后端数据的前端应用价值提升 OSS 域数据的深度分析能力

提升对各重点专题的支持能力 统一数据模型,激发更多应用

O+B价值

场景举例:业务与网络数据融合能带来什么价值?

• 让后端的网络域数据走向前端,体现网络数据的市场、营销、服务价值

• 让海量的网络域数据产生直接收益• 使网络维护、分析系统释放更大能量,带来更多价值

• 改善当前网络数据的分析方式比较简单的现状,对网络数据进行深入的数据挖掘、建模、智能分析

• 对当前重点、前沿的分析专题进行强有力支撑。如终端、三网融合、重点数据业务、移动互联网业务、 2/3G

切换等专题的深入分析

• 实现 O 域内外数据的全关联,构建统一数据模型。首先统一网络数据模型,然后实现前后端数据的关联融合。在此统一的数据模型下,激发更多的特色分析应用

Page 11: 新一代大数据分析平台建设思路

11© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

数据层面的全融合:优势弥补,形成综合分析合力

信令

网管

BSS

用户 网络 告警 终端 业务 资费 商务

Before AfterTDR

Generation

SURGeneration

CDRGeneration

数据业务数据集市

内容数据集市

语音业务数据集市

数据业务分析

内容分析

语音业务分析

集中式企业数据仓库

融合分析

融合分析

融合分析

TDRGeneration

SURGeneration

CDRGeneration

Page 12: 新一代大数据分析平台建设思路

12© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

Greenplum 统一分析云计算平台

Private/Hybrid Cloud Infrastructure or Appliance

Data Access & Query Layer

3rd Party/Partner Tools & Services

Greenplum Chorus - Analytic Productivity Layer

Greenplum Hadoop

Data Scientist

Data Engineer

Data Analyst

Bl Analyst

LOB User

Greenplum Database

Data Platform AdminD

ATA

SC

IEN

CE

TE

AM

Page 13: 新一代大数据分析平台建设思路

13© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

日志挖掘服务器H+1, 20台

信用 /CTUData mart/计算平台

数据仓库主库定时任务计算

120台数据分发

数据源OLTP 系统

财务系统

销售系统

客服系统

会员营销Data mart/计算平台

抽取

数据收集分发中心

数据仓库工具与管理平台 / 调度系统 ) 管理

元数据 (Meta Data) 管理

CDC

资金 / 财务等Data mart/模型计算平台

CDC

CDC

CDC

账户系统

数据仓库备库查询

120台

数据历史库 /挖掘60台

CDC

CDC

数据分发

数据分发

综合数据查询

报表及仪表盘

在线多维分析

风控系统会员营销客户服务资金管理财务分析客户信用

挖掘工具集

商业智能信息门户

KPI 报表与业务报告

业务指标仪表盘监控

运营与营销数据分析

综合数据查询

挖掘分析报告

用户访问行为跟踪

竞争情报日志收集服务器20台

日志 / 行为模型计算准实时, 4台

服务

打点 服务 线上即时作弊判断线上即时个性化营销

企业数据中心

网站访问

交易系统

淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考

Page 14: 新一代大数据分析平台建设思路

14© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考

• 目前支付宝账户数量: 6.5 亿• 数据库数据增量: 500G/ 天,每年数据量增加 2 倍以上

• 数据加载频度:大多数 H+1(每小时加载 ),网站访问 D+1 (每天加载 )

• 应用刷新频率:> 每小时更新一次数据。> 3 小时完成月结> 7 小时完成年节

• 贷款审批> 每年处理 170 万笔贷款,平均每笔 7000 元

> 10 万元以下贷款, 30分钟以内完成

> 10 万元以上,需要人工进行审核和调查

云计算 Hadoop与关系数据库混搭

性能指标

• 双中心集中式的数据仓库系统

• 创新引入 Hadoop云计算架构进行混合型数据仓库环境设计

• 敏捷分析云环境强力支持日益复杂繁重的业务分析需求

Page 15: 新一代大数据分析平台建设思路

15© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

参考点 1 :双中心集中式的数据仓库系统

信用 /CTUData mart/计算平台

数据仓库主库定时任务计算

120台数据分发

会员营销Data mart/计算平台

数据收集分发中心

资金 / 财务等Data mart/模型计算平台

CDC

CDC

CDC

数据仓库备库查询

120台

CDC

CDC

数据分发

综合数据查询

报表及仪表盘

在线多维分析

数据源OLTP 系统

财务系统

销售系统

客服系统

账户系统

网站访问

交易系统

抽取

Page 16: 新一代大数据分析平台建设思路

16© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

参考点 2 :创新引入 Hadoop云计算架构进行混合型数据仓库环境设计

日志挖掘服务器H+1, 20台

数据历史库 /挖掘60台

综合数据查询

报表及仪表盘

在线多维分析

挖掘工具集

Page 17: 新一代大数据分析平台建设思路

17© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

参考点 3 :敏捷分析私有云环境强力支持日益复杂繁重的业务分析需求

敏捷分析沙盒 生产数据仓库

应用数据

基础数据

缓冲数据

省 / 地市个性化用户

知识工作者

外部用户

数据传播区

View MD View

汇总数据CUSTOMER

CUSTOMER NUMBERCUSTOMER NAMECUSTOMER CI TYCUSTOMER POSTCUSTOMER STCUSTOMER ADDRCUSTOMER PHONECUSTOMER FAX

ORDER

ORDER NUMBERORDER DATESTATUS

ORDER I TEM BACKORDERED

QUANTI TY

I TEM

I TEM NUMBERQUANTI TYDESCRI PTI ON

ORDER I TEM SHI PPED

QUANTI TYSHI P DATE

HDFSCRM

/BOSSWeb数据

总部 / 省 / 地市经分用户

Page 18: 新一代大数据分析平台建设思路

18© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

敏捷分析的特点与好处业务用户

• 自助> 提供自助服务方式,快速创建分析环境> 多用户高自主性,即用分析资源> 满足一线人员的个性化分析需要> 充分支持现有熟悉的 BI和统计工具

• 高效> 缩短与 IT部门协调过程,加快切入市场时间> 能够“快速试错”,易于尝试出新想法思路

• 灵活> 业务人员可按需自配置分析空间> 允许业务用户上载特定数据> 直接与核心数据关联,让业务人员能够结合真实数据,实践敏捷分析

IT用户• 简单> 简化应用和数据的提供和过程> 由数据仓库引入原型,提高敏捷和可利用性

• 可控> 安全可控的分析环境管理> 利用混合负载管理减少用户用途间相互影响> 在统一平台上进行管理> 进行预定义好的空间大小与保留周期,有效规

划企业资源容量• 节约> 充分利用云计算的特点:虚拟化、弹性,有效提高资源利用率

> 降低使用直接和间接的成本> 避免低效的外部物理数据集市

Page 19: 新一代大数据分析平台建设思路

19© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案

Page 20: 新一代大数据分析平台建设思路

20© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

Data Input

Integration

Data Stores

and Access

Data Analysis

Presentation &

Delivery

MultimediaMultimedia

Web/SocialWeb/Social

ERPERP

CRMCRM

POSPOS

Data Sources

MobileMobile

DocumentsDocuments

MachineMachineData

QualityData

Quality

MDM

MDM

ETLETL

Enterprise Data

Warehouse

BU 1

BU 2

BU 3Data

Mart

s

Map

-R

educe

Key Values Documents Other NoSql

Ecosystem* HDFS

Hadoop

NoSQL Stores

FederatedData

Warehouse

Map-Reduce

BI as a Service

Sta

tisticsD

ata

Min

ing

Opera

tion

s Rese

arch

Neu

ral N

ets

Genetic A

lgorith

ms

OLA

P

Alerts

Reports

Dashboards

Spreadsheets

*Hadoop Ecosystem includes: Hive, Pig, Mahout, HBase, ZooKeeper, Oozie, Sqoop, Avro

Structureddata sources

Traditional dataIntegration

Traditional datawarehousing

Big data analytics ramifications

SQL Stores

LOB dataLOB data

Greenplum 提供完整的大数据分析解决方案

Mobile

Data Visualization

Page 21: 新一代大数据分析平台建设思路

21© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

Greenplum的动态在线扩容,满足弹性扩容需要

Master

seg1 seg2 seg3 seg4 seg5 seg6

数据自动在所有节点上重新分布 容量和性能在扩展后线性增长

步骤 1:新节点扩容到 MPP 集群

步骤 2:数据在所有节点上重分布

联网

Page 22: 新一代大数据分析平台建设思路

22© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

云计算 BI

基础设施层

平台层

应用软件层运营管理

故障管理

性能管理

配置管理

安全管理

虚拟化

挖掘工具

规则引擎 ……

主机 存储

全网应用

工作流引擎 ETL 工具

提供虚拟化的硬件资源,操作系统IaaS

PaaS

SaaS共性应用

数据库软件

个性应用

提供集成的开发运维环境,由分公司和开发商参与开发

应用基于统一数据标准和交互标准集中管理和统一开发,并实现应用共享

数据质量管理

网络及安全PC

数据层DaaS

在数据层兼顾标准的模型和个性化的模型,加强模型管理,数据以同步和服务的方式对外提供使用

标准模型 个性化模型

EDW/BI系统云计算架构利用虚拟化的方法提高设备综合利用率,以规模化降低硬件投资成本和运维成本利用集中化建设的方法节省硬、软件平台、工具和应用开发和运维的投入,缩短上线时间灵活采用 SaaS、 PaaS和 IaaS建设方法,保持模型和应用的标准化与灵活性兼顾,达到既能集中建设也能满足分公司个性化需求的目的

Page 23: 新一代大数据分析平台建设思路

23© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

某省通讯公司经分系统现状和面临主要问题系统规模随着企业的不断发展在不断扩大,支撑数据越来越多,具有的分析能力也越来越深化,系统定位发生了非常大的变化,已从单纯的决策分析支持转变成重要的一线生产系统。

现状

数据仓库架构

当前传统技术和方案(小型机)的扩容,已无法使运算能力线性增长。

主要问题

1、投资大,扩容时动辄需要千万投资级别。

2、海量数据处理时系统性能瓶颈过大:在支撑业务快速发展时 ,忙时持续100%,性能存在瓶颈。

3、业务系统越来越复杂,数据仓库上支持的应用越来越多,导致经分各类时间窗口无法控制的风险。

4、无法在线扩容,系统扩容期间,宕机时间过长无法容忍。

Page 24: 新一代大数据分析平台建设思路

24© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

某省通讯公司云经分试点项目 为解决经分系统面临的问题、更好的发挥数据支撑作用。某通讯公司经过相关部门和合作厂商长期研究,决定开始进行云经分相关试点工作,同时也可以总结经验,为集团和兄弟公司作出贡献。

云架构

获取层

外部数据源

数据层 应用层

数据及运维管理

数据质量管理任务监控管理

数据仓库

数据统计

数据汇总

ETL

使用者

决策人员

经营分析师

营业员

开发者

设计者

运维者

试点移植应用

客户分析及运营

产品分析及运营

安全管理处理流程管理

数据封装

元数据管理

统一客户画像

语音业务消费

调度任务管理

短彩信业务消费

……

流处理

文件处理

第一阶段 (2011.11-2012.6)•云仓库平台试点• 试点应用移植(选取独立、占资

源大、分析时间长的应用)•数据移植•数据同步

第二阶段 (2012.7-2013.6)•逐步并行阶段

第三阶段 (2013.7)-•主备仓库切换

Page 25: 新一代大数据分析平台建设思路

25© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

云经分试点项目的应用功能规划方案

数据源

经分数据质量管理

ETL

原经分数据仓库

客户洞察( CI ) 校园用户分析 竞争对手分析 集团成员分析 ……

试点移植应用专题

经分元数据管理

CRM BOSS 10086 VGOP ……

私有云仓库 消费

情况个体信息 ……

消费汇总

行为汇总 ……

区域识别 ……

交往圈识别

试点移植应用的选取主要考虑在原经分占资源较多、分析时间较长、不影响正常生产的应用。主要包括:客户洞察( CI )、校园用户分析、竞争对手分析和集团成员分析等。

Page 26: 新一代大数据分析平台建设思路

26© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

云数据仓库平台试点方案1.选择的必备条件

3.云数据仓库平台方案

由 26台低成本中高端 PC server ( 2C12 核 64G内存);

本地磁盘:每台 16块 450G;ETL主机利旧; 10G 高速网络。

• 加载效率:目前生产库每天通话详单加载时间 50分钟,云计算方案加载时间 10分钟,性能提升 5 倍;

• 查询效率:云计算方案查询统计时间性能提升 5 倍以上 ;

• 压缩测试:云计算方案在线压缩测试比可达5-10 倍;

• 高可用测试:模拟单节点失效,测试系统可用性;

2.方案测试验证

Page 27: 新一代大数据分析平台建设思路

27© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

应用性能优势性能优势:

完成试点应用移植后,应用在云平台生产环境上运行的性能提升明显。比原经分总体性能提升 2~5 倍。

取办理产品变更业务后得到的平均数据

性能对比

平均加载 (MB/S) 平均查询 (S) 平均导出 (MB/S)

原平台 462.7 3685 89.3

云平台 GP 3622.6 457 428.4

提升百分比 682.8% 706.3% 379.7%

取办理产品变更业务后得到的平均数据取办理产品变更业务后得到的平均数据

Page 28: 新一代大数据分析平台建设思路

28© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

成本优势

•总体成本优势– 本试点方案采用云仓库软件+X86 架构,成本优势明显。

– 构建云,可节约 50%的硬件投资。经分系统每年硬件(小型机、存储)投资约在 1000- 2000 万,割接到云后,每年只需投资 200-300 万,年节约投资 1000万以上,还不含电力、机柜位置等节省。

Page 29: 新一代大数据分析平台建设思路

29© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

Greenplum在联通数据总部数据中心的部署架构

• 为总部侧提供数据采集,整合,存储,发布服务生产环境

• 为 BSS侧生产原型数据提供完整的稽核验证服务验证环境

Page 30: 新一代大数据分析平台建设思路

30© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division

Greenplum对中国联通的承诺

依赖 Greenplum强大的并行和扩展能力、先进的混合负载管理功能和完善的高可用性解决方案, Greenplum 完全支持中国联通 IT 架构的演进,并完全满足今后相关应用的部署,能够在获得最低总体拥有成本的同时,向所有用户提供最好的性能。

Greenplum将一如继往地将中国联通作为重要的合作伙伴,竭力提供更高性价比的产品和更先进的方案及服务,全力提升中国联通对 Greenplum的满意度。

Page 31: 新一代大数据分析平台建设思路

31© Copyright 2010 EMC Corporation. All rights reserved.

Data Computing Division