Big Data ウェビナー シリーズ - Cisco · シスコシステムズ合会社 Big Data...
Transcript of Big Data ウェビナー シリーズ - Cisco · シスコシステムズ合会社 Big Data...
シスコシステムズ合同会社
Big Data ウェビナー シリーズ BigDataを取り巻くビジネスとは
「ビッグデータってどういう技術で 成り立っているの?」
期間: 2015年3月11日〜7月15日 毎週水曜日
時間:基本 夕方30分間(16:00〜17:00の間)
対象:シスコパートナー様、シスコ製品ユーザ様
スピーカー:シスコ社員、エコパートナー様
目的:ビッグデータ初心者に対してビッグデータの一般知識、
製品知識をお伝えする。
また、シスコの製品とシスコエコパートナー
の組み合わせで実現できる
ビッグデータ&IoEソリューションについて言及する。
Big Data ウェビナー シリーズ
IoE/ビッグデータを加速するポートフォーリオ
ルータ
産業用ルーター CGR 1120 IOx
シスコ産業用スイッチ IE2K,4K
Wi-Fi
工場サーバ ルーム
車両
店舗
Cisco ISR
Cisco CGR
Cisco UCS
データセンター
次世代データ処理基盤
構造化データをより高速に処理
大量の非構造化データを分散処理
屋外、室内、キャンパス
様々なものをつなぎ、情報収集
できるものは現場で処理
Connected Analytics (将来)
様々な集めた情報を分析、
解析、表示。
ソフトウェアおよびサービス
Nexus & ACI
Copyright (c)2014 ITOCHU Techno-Solutions Corporation
ビックデータ:Hadoop基盤としてのCisco UCS
ソリューションパック名 スターターパック
ハイ パフォーマンス
パック
パフォーマンス
最適化 パック
キャパシティ
最適化 パック
大規模キャパ
シティパック
サーバ UCS C220 M4 (8台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台
) UCS C3160(2台)
プロセッサ 2 x Intel Xeon
E5-2620 v3
2 x Intel Xeon
E5-2680 v3
2 x Intel Xeon
E5-2680 v3
2 x Intel Xeon
E5-2620 v3
2 x Intel Xeon
E5-2695 v2
メモリ 256G 384G 256G 128G 256G
ストレージ容量
8 x1.2-TB 10K
SAS SFF HDD
2 x 1.2-TB 10K SAS
SFF HDD,, 6 x400-
GB SAS SSD
2 x120-GB SATA SSD,
24 x 1.2-TB 10K SAS
SFF HDD
2 x120-GB SATA
SSD. 12 x 4-TB
7.2K SAS LFF HDD
2 x 120-GB SATA SSD,
60 x 4-TB 7.2K SAS LFF
HDD
IO 帯域 UCS VIC 1227 2
10GE
UCS VIC 1227 2
10GE UCS VIC 1227 2 10GE
UCS VIC 1227 2
10GE 2 UCS VIC 1227 2 10GE
型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D
用途
アナリティクス、NoSQL, エントリーレベルHadoop
非常にパフォーマンスと密度を要求され
る
アナリティクス
Hadoop, NoSQL, MPP
等スケールアウト
アプリでパフォーマンス重視
ディスク容量が必要なHadoopやスケールアウトストレージ
大容量ディスク。
テラバイト単価がお得&高密度
Webで 簡単アクセス
UCS Director
Express
UCS
Manager
OS/
Hadoop
インストール
Hadoop
Manager
アプリ
モニター
検証済ソリューションパック (CPA: Common Platform Architecture) v3
スモールスタート可能で100台超への拡張も容易
労力削減!物理サーバ、Hadoopクラスタの展開は、テンプレートを コピーして適用するだけ。数10台の 環境セットアップも数10分で完了。
Big Dataに最適な性能を提供(大容量メモリと広帯域接続)
集中的なHadoopクラスタと物理インフラストラクチャーの可視化、インベントリ、トラブルシューティングも容易に!
大量のデータを保管するストレージとしても!
ビッグデータのスタンダードHWとしての豊富な実績
Why Cisco UCS?
シスコからCloudera, Hortonworks, MapRのHadoopソフトウェア
サブスクリプションも購入できます。
UCS Director Express for Big Data
UCS Director Expressによる一元的な、ラックサーバ, ネットワーク、
Hadoopソフトの展開、管理
検証済ソリューションパックで、Hadoop基盤をシンプル&迅速に構築
Cloudera
MapR
Hortonworks
購入サイクルにおけるITシステムの役割
販売時点
(POS) 出荷時点
現状の
ITシステム
限定的な
販売データ
-値段
- 数
-場所
原価データ
在庫データ
本当は、
-膨大な過去のデータ
-社外のSNS等のデータ
-センサーなどで収集した
行動履歴
等を集めて限定的な現状分析だけでなく
将来の予測精度をあげるための分析
がしたい
Volume(量)
Variety(多様性) Velocity(頻度)
既存の企業で一般的に使われている
スケールアップ型の
リレーショナルデータベース(RDBMS)
では対応できない。
購入サイクル全体
必要性発生
商品を知る リピート使用
販売管理
販売管理
見積
受注
出荷
売上
請求
入金
生産管理
需要予測
生産計画 計画手配
製造指図
製造報告 原価計算
在庫管理
在庫
棚卸
倉庫調整
在庫調整
会計
財務会計
資金管理
経費管理
管理会計
資産管理
調達管理
債務管理
発注
入荷
仕入
支払
出金
プロスペクト
人事・給与
給与計算
人事管理
勤怠管理
採用管理
得意先
仕入先
基幹系システム
カスタム
メインフレーム
Unix
ERPパッケージ
SAP ERP (旧 R/3)
Oracle E-Business Suite
SaaS
SAP Business Online
基幹系システム
生産管理
人事管理
販売管理
流通担当営業部
コーポレート
マーケティング部
製品設計
管理部
テレマーケ
ティング部
会計
情報系システム
既存のBI(ビジネスインテリジェンス) 環境
Reports
& Dash boarding Operatio
nal
ERP
SCM
Enterprise
Data Ware
House
(DWH) Data
Mart
(DM)
OLAP
抽出・ 変換・ クレンジング (ETL)
サンプルの抽出
• トランザクションデータ(売上データなど)構造化されたデータが分析対象
• DWH、DMなどに蓄積されたデータを対象にOLAPなどによって分析処理を実施し、レポートを作成したり、ダッシュボードへ表示
DWH(Data Warehouse) 基幹系システムからトランザクションデータなどを抽出、再構成して蓄積し、情報分析と意思決定を行うための大規模
データベース。構造化データが得意。
DM(Data Mart):保存されたデータの中から、部門や個人の使用目的に大路て特定のデータを切り離して、別のデータベースに移動したもの
OLAP(Online Analytical Processing): DWHなどに蓄積したデータベースを、多次元的に解析し、視覚化するためのシステム
http://enterprisezine.jp/iti/detail/3170?p=2 より
現状の問題点
• データを抽出するのに時間がかかる
• データ量がますます増える
• 非構造化データという新しいデータの取り扱い
• よりリアルタイムでの分析のニーズ Operatio
nal
BI (ビジネスインテリジェンス)
&
アナリティックス (分析) ツール
ERP
SCM
製品名 ユーシーエス
製品名 ユシーエース
製品名 ユーシーエス
同じ製品?
クレンジング?
ETLパッケージシェア
ミック経済研究所 2011年8月
http://www.keyman.or.jp/at/30004289/
2010年度のETLパッケージの市場規模は、前年対比7.4%増の66.6億円
DWHアプライアンスシェア
国内DWH用DBMSアプライアンス市場ベンダーシェア(出典:ITR Market View:DBMS/BI市場2010、3月期ベースで換算) http://japan.zdnet.com/business-application/analysis/20424391/
2009年度の国内 73億5000万円
BIツールシェア
富士キメラ総研 2010年8月
http://www.keyman.or.jp/at/infosys/bi/30003879/
2009年度のBIツール市場規模は200億円、数量で2080本
ビッグデータの例
• Volume(量)
例:全国のPOSデータを10年分一括して集めて傾向分析をする
週末2日バッチ処理が必要だったものを30分で処理
必要技術:大量のデータを素早く裁く為の基盤
• Variety(多様性)
例:SNSでツイートされた情報を元に新製品の仕入を変える
監視カメラで買い物客の行動を監視し製品の陳列を変える
必要技術:非構造化データの処理(画像、動画、ソーシャルメディア内テキスト)
• Velocity(頻度)
例:顧客が店舗に近づいてくると、天候と施行を考慮しクーポンをスマートフォンに発行
電子マネー・カードより、「30代男性は23時位に甘いお菓子をよく買う」等情報を収集
必要技術:刻々と発生するデータをリアルタイムに分析処理
Cisco Confidential 14 © 2010 Cisco and/or its affiliates. All rights reserved.
Operational
(Transactional) ETL DWH Reports 既存
新規
Operational
(Transactional)
Web
Machine
ETL
Reports
ETL
Real-
time BI
Dashboards
Big Data
(Hadoop,
NoSQL)
MPP
DWH
1. 従来からある分析: ERP/CRM/EDWなどのRDBMSを使ったデータ分析 (数十TBs)
2. ファーストデータ分析: SAP HANA等を利用したリアルタイム性の高いデータ分析 (MBs/GBs)
3. ビッグデータ分析: Hadoop や NoSQL などの技術を用い、大規模なスケールアウト型の クラスターを利用したデータ分析 (数百TBs/PBs)
BI (ビジネス インテリジェンス)ツール
MicroStrategy Tableau
Elasticsearch SAS Platfora
ビックデータ処理への適用領域
ビッグデータの3大特性
• Volume(量) • Variety (多様性) • Velocity(頻度)
アーキテクチャは
スケールアップから
スケールアウトへ
出所:NRI『ITソリューションフロンティア』 2012年4月号の記事に基づき作成
主なベンダー
• Cloudera
• Hortonworks
• MapR
• Pivotal
ビッグデータ?ビッグデータではない?
DB/DWHのアーキテクチャ
Disk
メモリ
CPU CPU CPU CPU
Disk
CPU CPU CPU CPU
メモリ
メモリ
メモリ
メモリ
Disk
CPU CPU CPU CPU
メモリ
メモリ
メモリ
メモリ
Disk Disk Disk
スイッチ スイッチ
1つのメモリを共有するため、CPU
が多くなるとスケールしない
(スケールアップ型)
複数ノードがディスクを共有。
可用性は高いがディスクに
対する競合が発生
(スケールアウト型)
各ノードが各自のディスクに アクセス。ノードを追加しても競合が 一切発生しないため、
リニアに性能が向上
(スケールアウト型)
• SMP: Sybase IQなど
• クラスター:オラクルRAC
• Teradata, Nettiza(IBM), Greenplum (EMC), Vertica (HP)など
<SMP> <クラスター>
(シェアードエブリシング)
<MPP><Hadoop>
(シェアードノッシング)
SMP (Symmetric Multi Processing) 対称型マルチプロセッシング
MPP(Massively Parallel Processor) 超並列プロセッサ
http://enterprisezine.jp/iti/detail/3170?p=2 より
New application requirements are driving new disruptive infrastructure deployment models
Today Tomorrow
Hot Data
Warm Data
Cold Data
Flash
Flash
Networked Storage Array
Cold Data
Warm Data
Hot Data
I/O Intensive Tier
Capacity Tier
HDD
HDD
HDD
HDD
Off
Pre
mis
e
On
Pre
mis
e
HDD
NoSQLも分散アーキテクチャ
出所:NRI『技術創発ー情報技術レポート』 2011年9月号の記事より
データベース導入のコスト、パフォーマンス、容量
ビッグデータを支える技術 Hadoop
HDFS
Hadoop Distributed File System
分散ファイルシステム
Hadoop MapReduce
分散処理フレームワーク
HBase
分散データベース
(NoSQL)
2004年にグーグルが論文発表した大規模データ向けの分散処理モデル MapReduce を、ヤフーのエンジニアが社内向けに実装し、その後、Apache Hadoop としてオープンソース化
2007年に Apache Hadoop 0.14.1 がリリースされ、現在 2.6.0 までリリース済
当初、MapReduce を使ったバッチ処理を目的としたものだったが、機能拡張が続き、MapReduce 以外の処理方法をサポートし、リアルタイム処理も可能
Apache Hadoop を元に、様々な商用ディストリビューションが作られる
Hadoop: Evolving for ALL Processing
https://cacoo.com/diagrams/93bW9otgtDletzLT
Cisco Confidential 24 © 2010 Cisco and/or its affiliates. All rights reserved.
Operational
(Transactional) ETL DWH Reports 既存
新規
Operational
(Transactional)
Web
Machine
ETL
Reports
ETL
Real-
time BI
Dashboards
Big Data
(Hadoop,
NoSQL)
MPP
DWH
Databases
Cisco on Cisco:Data Platforms Reference Architecture
Docs, Cases,
Content, Social
Media, Clicksteam
Operational
Intelligence
Index & Search
(ELK+)
IT App & System
Logs & Config.
Internet of
Everything (IoE)
Self Service
Dashboard
Rapid Business Intell.
Data Exploration
Mission Critical
Operational Reports
Financial Reporting
& Extract
Operational
Intelligence(Splunk UI)
Real time Predictive
Data Analysis,
Text Analytics
Machine Learning,,
Statistical Analysis (R)
Machine Data Insights
(e.g. In supply chain)
SFDC
Data Sources Data Consumption
Big Data
Platform
Hadoop on
UCS
• Machine Learning
• Data Archiving
• Data Science
Mission Critical
Reporting
Teradata
• Financial SSOTs
• Stable core
• Controlled Change
Agile Analytics
SAP HANA on
UCS
• Predictive Engine
• Real time BI
Network of
Truth
(Mobile / Browser / Data Service)
Experience Toolkit
Data Virtualization (Composite) Rapid Prototyping /
Light Integration
SAS
Hadoop
Data Storage and Processing
HANA
Analytics
& Modeling
IBM SPSS
Data Security,
Infra
Customer Network,
Product Usage
Database N
ERP
Databases
ALL other
Sources
SAP
Tableau
Oracle