Cloudera大数据行业应用 -...

24
1 © Cloudera, Inc. All rights reserved. Cloudera大数据行业应用 程志国 资深架构师

Transcript of Cloudera大数据行业应用 -...

Page 1: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

1 © Cloudera, Inc. All rights reserved.

Cloudera大数据行业应用

程志国

资深架构师

Page 2: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

2 © Cloudera, Inc. All rights reserved.

Volume(数量) Variety (类型) Velocity(速度) = Value (价值)

BIG DATA(大数据)

Page 3: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

3 © Cloudera, Inc. All rights reserved.

BIG DATA

=?

HADOOP

Page 4: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

4 © Cloudera, Inc. All rights reserved.

Hadoop: 扩展性 & 灵活性 – 存储 & 计算

©2014 Cloudera, Inc. All

rights reserved.

Hadoop方式 传统方式

$30,000+ per TB

昂贵而遥不可及

• 扩展困难

• 网络成为不可避免的瓶颈

• 只能处理结构化/关系型数据

• 很难增加新的字段和数据类型

昂贵的、专用的、“可靠的”服务器

昂贵的封闭软件

Network

数据存储 (SAN, NAS)

计算 (RDBMS, EDW)

$300-$1,000 per TB

经济且可以企及

• 可无限平行扩展

• 网络不再是瓶颈

• 轻松摄取任何类型的数据

• 灵活的读取时检查数据类型的访问方式

商业化的“不怎么可靠”的服务器

混合的开源软件

计算 (CPU)

内存 存储 (Disk)

z

z

Page 5: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

5 © Cloudera, Inc. All rights reserved.

在传统数据库(RDBMS) 时代, 应用创造新数据. 在Hadoop 时代, 数据创造新的应用.

Page 6: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

6 © Cloudera, Inc. All rights reserved.

Hadoop十年

2006 2008 2009 2010 2011 2012-2014 Present

Core Hadoop

(HDFS, MR)

HBase

ZooKeeper

Core Hadoop

Hive

Pig

Mahout

HBase

ZooKeeper

Core

Hadoop

Sqoop

Whirr

Avro

Hive

Pig

Mahout

HBase

ZooKeeper

Core

Hadoop

Flume

Bigtop

Oozie

MRUnit

HCatalog

Sqoop

Whirr

Avro

Hive

Pig

Mahout

HBase

ZooKeepe

r

Spark

Impala

Solr

Kafka

Flume

Bigtop

Oozie

MRUnit

HCatalog

Sqoop

Whirr

Avro

Hive

Pig

Mahout

HBase

ZooKeeper

Parquet

Sentry

RecordServic

e

Kudu

Spark

Impala

Solr

Kafka

Flume

Bigtop

Oozie

MRUnit

HCatalog

Sqoop

Whirr

Avro

Hive

Pig

Mahout

HBase

ZooKeeper Core Hadoop +YARN

Core Hadoop +YARN

Core Hadoop +YARN

Page 7: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

7 © Cloudera, Inc. All rights reserved.

Cloudera是公认的Hadoop平台的领导者

Source: Ovum Decision Matrix: Selecting a Hadoop Platform, 2015

强大的客户基础

完整的数据安全和数据治理

完整的合作伙伴生态环境

Page 8: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

8 © Cloudera, Inc. All rights reserved.

Cloudera

2008年成立于硅谷

第一个企业级Hadoop产品提供商

24x7 全球支持

3/5 财富500强企业客户

全行业客户(金融、电信、零售、能源、互联网、媒体等)

2200多个生态链合作伙伴培训和认证

Hadoop生态圈最大贡献者,Intel合作加速企业数据中心的革新

Cloudera中国 2014年9月成立,上海是大中华区总部,负责产品培训、

专业技术服务和产品支持,在北京和广州有本地支持

Page 9: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

9 © Cloudera, Inc. All rights reserved.

Page 10: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

10 © Cloudera, Inc. All rights reserved.

Cloudera和Apache开源社区 Leaders Across the Hadoop Ecosystem

Doug Cutting:

Hadoop创始人,前Apache基金会主席

100 Committer 席位覆盖Hadoop生态圈

上百万 生产环境部署节点,覆盖全行业

22 项目由Cloudera员工创建

Hadoop相关的原理及架构类书籍 15

Page 11: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

11 © Cloudera, Inc. All rights reserved.

完整的合作伙伴生态环境

Data

Systems

Enterprise Data Hub

Security and Administration

Unlimited Storage

Process Discove

r

Model Serve

Applications

System Integration

Infrastructure

More than 2,200 partners Operational

Tools

Page 12: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

12 © Cloudera, Inc. All rights reserved.

Cloudera 企业数据中枢 CDH

系统和数据管理

处理 Ingest

Sqoop, Flume,

Kafka

Transform

MapReduce,

Hive, Pig,

Spark

探索

Analytic

Database

Impala

Search

Solr

建模

Machine

Learning

R, Spark Mllib,

Mahout

服务

NoSQL

Database

HBase

Streaming

Spark

Streaming

无限制的存储 HDFS, HBase

YARN, Cloudera Manager

Cloudera Navigator

灵活的部署模式 On-Premises Appliances Engineered Systems

Public Cloud Private Cloud Hybrid Cloud

统一的数据访问

统一的数据存储

统一的系统管理和安全

持续的创新能力

• Cloudera Manager

• Flume,Sqoop

• Search

• Impala

• Sentry

• Director,Navigator

• Kudu

• Record Service

Page 13: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

13 © Cloudera, Inc. All rights reserved.

全面的安全与管治

外围组件

对集群访问的管理与保护

技术理念:

认证

网络隔离

数据

保护数据以防未授权的访问与操作

技术理念:

加密, 信令,

数据屏蔽

访问

定义哪些用户与应用程序可以操作数据

技术理念:

权限

授权

可见性

关于数据源以及数据使用状况的报告

技术理念:

审计

数据沿袭

Sentry|Rhino Kerberos | AD/LDAP Cloudera导航器 加密和秘钥管理

Page 14: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

14 © Cloudera, Inc. All rights reserved.

Financial Services

Telecom

Healthcare & Life Sciences

Media & Technology

Retail & CP

Public Sector

Cloudera全球客户精选…

Page 15: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

15 © Cloudera, Inc. All rights reserved.

RISK

第一个 PCI 认证的 Hadoop 平台

• 可优化EDW并提高对金融欺诈的监测和防

• 每天以PCI合规的方式安全保障10 PB 数据

• 安全信息事件管理(SIEM) – 监测对敏感数据集的访问,对用户行为有完整的审计轨迹。

金融服务

» 数据安全性

» 预防金融欺诈

» IT 成本减少

Page 16: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

16 © Cloudera, Inc. All rights reserved.

重新平台化1,600个运营数据库和系统

• 业务和消费者的数据分布在几十个不同的客户数据库中

• 一个日常的 ETL 工作 (处理10亿个客户记录) 以前需要24小时

• 提高数据速率15倍 (用过去1/3的时间能处理5倍的数据) 现在只需1.5小时即可完成

• BT现在可以访问最新的数据,所有客户数据都已集中。

CUSTOMER

360

电信

» 服务改进

» 流程改进

» IT 成本减少

Page 17: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

17 © Cloudera, Inc. All rights reserved.

零售客户行为的360° 视角

• 集成多种不同数据来源 (点击行为轨迹、店内POS、在线订单,以及社交媒体)

• 理解放弃的在线购物车行为

• 优化运营投资,不同渠道的业务收入关联

• 增加了客户洞见,用于改进供应链计划

• 提高了客户解答能力,并可预测退货

CUSTOMER

360

零售 / 电商

» 客户 360°

» 改进流程

» 更好的客户服务

» 预测性的分析

Page 18: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

18 © Cloudera, Inc. All rights reserved.

DATA-DRIVEN PRODUCTS

用NetApp Filers (“Phone Home”)收集的机器数据使预测性/主动性支持成为可能。

• 因为数据处理提高64倍,现在可以满足最严苛的支持SLA。

• 处理机器产生的数据源于600,000多个每周交易

• 模式匹配查询有助于侦测漏洞

• 磁盘上历史数据有助于分析产品问题的根源

技术 / 制造业

» 物联网

» 产品改进

» 服务改进

Page 19: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

19 © Cloudera, Inc. All rights reserved.

RISK

提前侦测和防止恐怖威胁和袭击

• 必须识别全球互联网上可疑的行为,提供给700个商业和联邦机构

• 提供实时信息、警告和指导,以防御来自网络的进攻

• PB级别的平台用于网络安全分析

政府行业

» 恐怖行为侦测

» 360° 视角

» 试验性分析

美国政府 – 不同的政府安全部门 & 情报部门

Page 20: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

20 © Cloudera, Inc. All rights reserved.

可提前诊测败血症进行成功的治疗,挽救生命

• 已经挽救了100多人的生命

• 多个系统的数据集中

• 多租户环境中超过2PB数据,支持 100s客户

• 既安全又可供探寻分析

• 减少了患者重返医院

医疗

» 客户360°

» 预测性分析

» 改进的服务 DATA-DRIVEN

PRODUCTS

Page 21: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

21 © Cloudera, Inc. All rights reserved.

总结

1. 这既是技术的转变也是文化的转变。

2. 先爬、再走、然后跑。

3. 漫漫长路始于足下。

Page 22: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

22 © Cloudera, Inc. All rights reserved.

分析

Select

Insert

Update

Delete

变化

Page 23: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

23 © Cloudera, Inc. All rights reserved.

Page 24: Cloudera大数据行业应用 - Huodongjia.compic.huodongjia.com/ganhuodocs/2016-09-30/1475199218.57.pdfCloudera 中国 2014年9月 ... Enterprise Data Hub Security and Administration

24 © Cloudera, Inc. All rights reserved.

程志国

资深架构师

+86 186 0124 3530