Cloudera大数据行业应用 -...
Transcript of Cloudera大数据行业应用 -...
1 © Cloudera, Inc. All rights reserved.
Cloudera大数据行业应用
程志国
资深架构师
2 © Cloudera, Inc. All rights reserved.
Volume(数量) Variety (类型) Velocity(速度) = Value (价值)
BIG DATA(大数据)
3 © Cloudera, Inc. All rights reserved.
BIG DATA
=?
HADOOP
4 © Cloudera, Inc. All rights reserved.
Hadoop: 扩展性 & 灵活性 – 存储 & 计算
©2014 Cloudera, Inc. All
rights reserved.
Hadoop方式 传统方式
$30,000+ per TB
昂贵而遥不可及
• 扩展困难
• 网络成为不可避免的瓶颈
• 只能处理结构化/关系型数据
• 很难增加新的字段和数据类型
昂贵的、专用的、“可靠的”服务器
昂贵的封闭软件
Network
数据存储 (SAN, NAS)
计算 (RDBMS, EDW)
$300-$1,000 per TB
经济且可以企及
• 可无限平行扩展
• 网络不再是瓶颈
• 轻松摄取任何类型的数据
• 灵活的读取时检查数据类型的访问方式
商业化的“不怎么可靠”的服务器
混合的开源软件
计算 (CPU)
内存 存储 (Disk)
z
z
5 © Cloudera, Inc. All rights reserved.
在传统数据库(RDBMS) 时代, 应用创造新数据. 在Hadoop 时代, 数据创造新的应用.
6 © Cloudera, Inc. All rights reserved.
Hadoop十年
2006 2008 2009 2010 2011 2012-2014 Present
Core Hadoop
(HDFS, MR)
HBase
ZooKeeper
Core Hadoop
Hive
Pig
Mahout
HBase
ZooKeeper
Core
Hadoop
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Core
Hadoop
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeepe
r
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Parquet
Sentry
RecordServic
e
Kudu
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper Core Hadoop +YARN
Core Hadoop +YARN
Core Hadoop +YARN
7 © Cloudera, Inc. All rights reserved.
Cloudera是公认的Hadoop平台的领导者
Source: Ovum Decision Matrix: Selecting a Hadoop Platform, 2015
强大的客户基础
完整的数据安全和数据治理
完整的合作伙伴生态环境
8 © Cloudera, Inc. All rights reserved.
Cloudera
2008年成立于硅谷
第一个企业级Hadoop产品提供商
24x7 全球支持
3/5 财富500强企业客户
全行业客户(金融、电信、零售、能源、互联网、媒体等)
2200多个生态链合作伙伴培训和认证
Hadoop生态圈最大贡献者,Intel合作加速企业数据中心的革新
Cloudera中国 2014年9月成立,上海是大中华区总部,负责产品培训、
专业技术服务和产品支持,在北京和广州有本地支持
9 © Cloudera, Inc. All rights reserved.
它
是
谁
?
10 © Cloudera, Inc. All rights reserved.
Cloudera和Apache开源社区 Leaders Across the Hadoop Ecosystem
Doug Cutting:
Hadoop创始人,前Apache基金会主席
100 Committer 席位覆盖Hadoop生态圈
上百万 生产环境部署节点,覆盖全行业
22 项目由Cloudera员工创建
Hadoop相关的原理及架构类书籍 15
11 © Cloudera, Inc. All rights reserved.
完整的合作伙伴生态环境
Data
Systems
Enterprise Data Hub
Security and Administration
Unlimited Storage
Process Discove
r
Model Serve
Applications
System Integration
Infrastructure
More than 2,200 partners Operational
Tools
12 © Cloudera, Inc. All rights reserved.
Cloudera 企业数据中枢 CDH
系统和数据管理
处理 Ingest
Sqoop, Flume,
Kafka
Transform
MapReduce,
Hive, Pig,
Spark
探索
Analytic
Database
Impala
Search
Solr
建模
Machine
Learning
R, Spark Mllib,
Mahout
服务
NoSQL
Database
HBase
Streaming
Spark
Streaming
无限制的存储 HDFS, HBase
YARN, Cloudera Manager
Cloudera Navigator
灵活的部署模式 On-Premises Appliances Engineered Systems
Public Cloud Private Cloud Hybrid Cloud
统一的数据访问
统一的数据存储
统一的系统管理和安全
持续的创新能力
• Cloudera Manager
• Flume,Sqoop
• Search
• Impala
• Sentry
• Director,Navigator
• Kudu
• Record Service
13 © Cloudera, Inc. All rights reserved.
全面的安全与管治
外围组件
对集群访问的管理与保护
技术理念:
认证
网络隔离
数据
保护数据以防未授权的访问与操作
技术理念:
加密, 信令,
数据屏蔽
访问
定义哪些用户与应用程序可以操作数据
技术理念:
权限
授权
可见性
关于数据源以及数据使用状况的报告
技术理念:
审计
数据沿袭
Sentry|Rhino Kerberos | AD/LDAP Cloudera导航器 加密和秘钥管理
14 © Cloudera, Inc. All rights reserved.
Financial Services
Telecom
Healthcare & Life Sciences
Media & Technology
Retail & CP
Public Sector
Cloudera全球客户精选…
15 © Cloudera, Inc. All rights reserved.
RISK
第一个 PCI 认证的 Hadoop 平台
• 可优化EDW并提高对金融欺诈的监测和防
• 每天以PCI合规的方式安全保障10 PB 数据
• 安全信息事件管理(SIEM) – 监测对敏感数据集的访问,对用户行为有完整的审计轨迹。
金融服务
» 数据安全性
» 预防金融欺诈
» IT 成本减少
16 © Cloudera, Inc. All rights reserved.
重新平台化1,600个运营数据库和系统
• 业务和消费者的数据分布在几十个不同的客户数据库中
• 一个日常的 ETL 工作 (处理10亿个客户记录) 以前需要24小时
• 提高数据速率15倍 (用过去1/3的时间能处理5倍的数据) 现在只需1.5小时即可完成
• BT现在可以访问最新的数据,所有客户数据都已集中。
CUSTOMER
360
电信
» 服务改进
» 流程改进
» IT 成本减少
17 © Cloudera, Inc. All rights reserved.
零售客户行为的360° 视角
• 集成多种不同数据来源 (点击行为轨迹、店内POS、在线订单,以及社交媒体)
• 理解放弃的在线购物车行为
• 优化运营投资,不同渠道的业务收入关联
• 增加了客户洞见,用于改进供应链计划
• 提高了客户解答能力,并可预测退货
CUSTOMER
360
零售 / 电商
» 客户 360°
» 改进流程
» 更好的客户服务
» 预测性的分析
18 © Cloudera, Inc. All rights reserved.
DATA-DRIVEN PRODUCTS
用NetApp Filers (“Phone Home”)收集的机器数据使预测性/主动性支持成为可能。
• 因为数据处理提高64倍,现在可以满足最严苛的支持SLA。
• 处理机器产生的数据源于600,000多个每周交易
• 模式匹配查询有助于侦测漏洞
• 磁盘上历史数据有助于分析产品问题的根源
技术 / 制造业
» 物联网
» 产品改进
» 服务改进
19 © Cloudera, Inc. All rights reserved.
RISK
提前侦测和防止恐怖威胁和袭击
• 必须识别全球互联网上可疑的行为,提供给700个商业和联邦机构
• 提供实时信息、警告和指导,以防御来自网络的进攻
• PB级别的平台用于网络安全分析
政府行业
» 恐怖行为侦测
» 360° 视角
» 试验性分析
美国政府 – 不同的政府安全部门 & 情报部门
20 © Cloudera, Inc. All rights reserved.
可提前诊测败血症进行成功的治疗,挽救生命
• 已经挽救了100多人的生命
• 多个系统的数据集中
• 多租户环境中超过2PB数据,支持 100s客户
• 既安全又可供探寻分析
• 减少了患者重返医院
医疗
» 客户360°
» 预测性分析
» 改进的服务 DATA-DRIVEN
PRODUCTS
21 © Cloudera, Inc. All rights reserved.
总结
1. 这既是技术的转变也是文化的转变。
2. 先爬、再走、然后跑。
3. 漫漫长路始于足下。
22 © Cloudera, Inc. All rights reserved.
分析
Select
Insert
Update
Delete
变化
23 © Cloudera, Inc. All rights reserved.
24 © Cloudera, Inc. All rights reserved.
程志国
资深架构师
+86 186 0124 3530