IoT時代のビッグデータ活と Cloudera/Ciscoの ...€¦ ·...

30
1 © Cloudera, Inc. All rights reserved. Cloudera株式会社 2015527IoT時代のビッグデータ活と Cloudera/Ciscoの取り組み Cloudera提供する エンタープライズデータハブ

Transcript of IoT時代のビッグデータ活と Cloudera/Ciscoの ...€¦ ·...

  • 1  ©  Cloudera,  Inc.  All  rights  reserved.  

    Cloudera株式会社  2015年5月27日  

    IoT時代のビッグデータ活⽤用とCloudera/Ciscoの取り組み

    Clouderaが提供するエンタープライズデータハブ

  • 2  ©  Cloudera,  Inc.  All  rights  reserved.  

    ⾃自⼰己紹介• 齋間秀雄(さいまひでお)  • お客様、パートナー様担当  • 2014年年5⽉月にCloudera株式会社に⼊入社、以前はデータベース、      セキュリティ、仮想化ベンダーにて営業を担当• お客様がCloudera製品を活⽤用できるよう提案・議論論を⾏行行うのがメイン業務  • Email:  [email protected]  •  Linkedin:  Hideo  Saima  

  • 3  ©  Cloudera,  Inc.  All  rights  reserved.  

    Cloudera会社概要設⽴立立 2008年年、以下4社出⾝身の社員により設⽴立立

    従業員 870⼈人以上24x7サポート 北北⽶米・欧州・アジアのサポートセンターによるFollow-‐‑‒the-‐‑‒sunサポート、

    プロアクティブサポート、DSE(顧客専属サポート)プロフェッショナル 世界中にワールドクラスのサービスデリバリーチームを抱えるサービスミッションクリティカル 数千社のエンタープライズカスタマーがClouderaを採⽤用

    Fortune  50社のうち50%、Fortune  500社のうち65%トップの防衛・諜報機関でも採⽤用

    最⼤大のエコシステム 1,600社以上がパートナープログラム「Cloudera  Connect」に参加Cloudera  University 世界中で  100,000  ⼈人以上がトレーニングを受講オープンソースリーダー Apache  Hadoopエコシステムプロジェクトの創設者の多くがCloudera社

    員であり、全てのプロジェクトで主要コントリビュータとなっている

  • 4  ©  Cloudera,  Inc.  All  rights  reserved.  

    政府・軍  

     金融      

    通信    

    ヘルスケア・   ライフサイエンス  

     

    メディア      

    流通・消費財      

    エネルギー  

    あらゆる業界における成功事例  

    ConfidenIal  

  • 5  ©  Cloudera,  Inc.  All  rights  reserved.  

    ⼀一つのプラットフォームで多くのワークロードに対応  ベストプラクティスと優れたパフォーマンスが、戦略略⽴立立案から  ROI  確保までの時間を短縮

    バッチ、インタラクティブ、リアルタイム1つのプラットフォームで最⾼高のパフォーマンスとユーザビリティを実現

    •  きめ細かい分析ワークフロー•  より多くのデータにアクセス•  新たな⽅方法でデータを処理理•  これまでとは異異なるユーザーの取り込み

    セキュリティと運⽤用管理理

    プロセス

    取込みSqoop,  Flume

    変換MapReduce,  Hive,  

    Pig,  Spark

    ディスカバー

    分析データベースImpala

    検索索Solr

    モデル

    機械学習SAS,  R,  Spark,  

    Mahout

    サーブ

    NoSQL  データベースHBase

    ストリーミングSpark  Streaming

    無制限のストレージ  HDFS,  HBase

    YARN,  Cloudera  Manager,Cloudera  Navigator

    柔軟な導⼊入オンプレミスアプライアンスエンジニアド(⼯工業化製品)  システム

    パブリッククラウドプライベートクラウドハイブリッドクラウド

  • 6  ©  Cloudera,  Inc.  All  rights  reserved.  

    すべてが揃うエコシステム完璧なビッグデータソリューションを実現

    データシステム

    アプリケーション

    システムインテグレーション

    インフラストラクチャー

    1,600  以上のパートナーがこれまでの投資との互換性を保証、以前からのスキルの延⻑⾧長で、データから最⼤大の価値を引き出すことができます

    定型処理理ツール

    セキュリティと運⽤用管理理

    無制限のストレージ

    プロセス ディスカバー

    モデル サーブ

    エンタープライズデータハブ

  • 7  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    Basel  III  の信頼評価調整を90%の証券に適用するには?終日、連日、あるいは事前評価はできるか?

    直近60秒で経験した取引の遅延は何か?未来に何が起こると期待できるか?

    輸送経路の最適化によるコストの最小化をしながら、市況に基づく原油売上の最大化を目指す方法は?

    Risk  PlaQorm   Trading  OperaIons   Profit  Management  

  • 8  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    顧客ニーズを予測し、経験をパーソナライズし、成約数を増やして離脱を回避する方法は?

    クレジットスコアカードの調査、作成を短縮しつつ、より大きな、信用できるデータセットを用いて、新しい市場を開拓する方法は?

    請求者が全ての条件を満たしているか、ブラックボックスのまま調査できるか?

    Personalized  Banking   Credit  Scoring   Claims  VeYng  &  AnalyIcs    

  • 9  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    ある顧客を失おうとしているか分かるか?それを回避する方法は?

    どの顧客が、どのように我々のサービスに不正アクセスしているのか?

    ネットワーク障害を、まだそれが発生していない顧客の回線で検知できるか?

    360°  view  of  Customer   Audience  AnalyIcs   Network  Management  

  • 10  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    売上を増加させるようなUIのリコメンド、レイアウト、コンテンツは?

    属性モデルを比較したときに、どの提携先が最もビジネスに貢献しているか?

    より多くのデータから、より速く、納税者のビューを生成するには?

    Clickstream  AnalyIcs,  A/B    

    MulI-‐Channel  Path  Analysis   Single  view  of  Tax-‐payer  

  • 11  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    工場の生産効率を上げ、問題をより速く正確に突き止めるには?

    記録された走行パターンに基づきメンテナンスを修正し、そのデータをR&Dにフィードバックするには?

    採掘作業を最適化し、よりよいデータを引き出すには?

    Manufacturing  Quality   PreventaIve  Maintenance   OperaIons  OpImisaIon  

  • 12  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    最適なルート、速度、渋滞の可能性、危険度を今すぐ予測するには?

    輸送経路を容量、需要、コストに基づいて最適化するには?

    リアルタイムの気象データを数世紀にわたるデータに基づいて分析するには?

    Connected  Car   LogisIcs  Cost  OpImisaIon   ScienIfic  Analysis  

  • 13  ©  Cloudera,  Inc.  All  rights  reserved.  

    Asking  Bigger  QuesIons  with  a  Cloudera  EDH  

    種、密度、土壌や気象が面積あたりの生産量へ与える影響は?

    オントロジーベースの検索で、2,200万の論文から何がヒットするのか?

    家系の病気データに基づき健康問題を回避する方法は?

    Agriculture  R&D   ScienIfic  Research   Public  Health  AnalyIcs  

  • 14  ©  Cloudera,  Inc.  All  rights  reserved.  

    Cloudera  のアプローチ    Cloudera  Enterprise  

    Enterprise  Data  Hub  

    Security  and  AdministraIon  

    Unlimited  Storage  

    Process   Discover   Model   Serve  

    Manager  

    Navigator  

    Director  

    CDH  

     Cloudera  Services  

    IngesIon  and  ETL  Pilot  

    DescripIve  AnalyIcs  Pilot  

    Cluster  CerIficaIon  &  OperaIons  

    Pilot  and  or  Proof  of  Concept  

     Cloudera  Training  

    Administrator  

    CerIficaIon  

    Developer  

    Analyst  

     Cloudera  Partners  

  • 15  ©  Cloudera,  Inc.  All  rights  reserved.  

    オープンソースへの多大な貢献 • 開発チームの2/3  がオープンソース担当者 • 20のHadoopエコシステムプロジェクトを立ち上げ

    • 72  人のASF  PMCメンバー• 98  人のASFコミッター

    エンタープライズ向けの機能拡張に貢献 • システム管理 • セキュリティとガバナンス• クラウドプロビジョニング

    コントリビューションを牽引する  Services   Training  

    Enterprise   Partners  

  • 16  ©  Cloudera,  Inc.  All  rights  reserved.  

    最高のチーム  Services   Training  

    Enterprise   Partners  

    1 知識 テクノロジーが今どこを向いていて、どういう計画を持っているのかを知っている 2 サポート オープンソースをフォークすることなしに、お客様の問題を素早く効率的に解決することが可

    3 影響 お客様のビジネス上のニーズに反応あるいは予測し、ロードマップをドライブする

  • 17  ©  Cloudera,  Inc.  All  rights  reserved.  

    業界をリードするサポート  Enterprise   Partners  

    Services   Training  

    8.9 Clouderaの顧客満足度が業界のサポートのベンチマークとなる(10点満点) 95% の顧客がClouderaの技術サポートに価値を感じている

    #1 技術問題の解決能力が一位であるということが、HadoopのためにClouderaを推奨する理由の一位である

  • 18  ©  Cloudera,  Inc.  All  rights  reserved.  

    Global,  in-‐region  support  Enterprise   Partners  

    Services   Training  

  • 19  ©  Cloudera,  Inc.  All  rights  reserved.  

    業界をリードするトレーニング  Partners  

    Services  

    #1 カリキュラム 幅広い範囲で最先端の開発者向け、管理者向け、アナリスト向け、データサイエンティスト向けコース

    #1 経験 2009年から数えて15,000人の生徒が受講し、5,000人のCloudera認定プロフェッショナルが誕生 #1 柔軟性 オンサイトあるいはパブリック、世界50都市で実施。eラーニングでの補足授業も実施

    Training  

    Enterprise  

  • 20  ©  Cloudera,  Inc.  All  rights  reserved.  

    Cloudera  と可視化/BI    

    • 主要ベンダーとのパートナー • 最適化されたコネクタとランタイム

    • SAS  (LASR  VA/VS  用ランタイム、 Impala)

    • PlaFora  (Hive)• RevoluKon  AnalyKcs  (MR)• Qlikview  (Impala)

    • Microstrategy  (Impala)• Cognos  (Hive,  Impala  )

    • Business  Objects  (Hive,  Impala)

    Services   Training  

    Enterprise   Partners  

  • 21  ©  Cloudera,  Inc.  All  rights  reserved.  

    • Clouderaは複数の形式でデプロイすることが可能 • オンプレミス 全ての主要ハードウェアベンダーによるリファレンスアーキテクチャ  Cisco、HP、Dell

    • アプライアンス  Oracle  は  Cloudera  を  Big  Data  Appliance  の一部として組み込んでいる

    • クラウド パブリック・プライベート・PaaS  クラウドを様々なパートナーがサポート:  Amazon、MicrosoY、T-‐Systems、SoYLayer、Savvis(Centurylink)

    Cloudera  デプロイメントモデル  Services   Training  

    Enterprise   Partners  

  • x86サーバに加えた3つの特長

    Cloudera & Ciscoビッグデータソリューション

    導入の容易性を提供可能にするサーバ Cisco UCS(Unified Computing System) シリーズ

    エンタープライズHadoopディストリビューション Cloudera Enterprise 2

    Hadoop、サーバ、ネットワークを一元管理 1

    FI(UCSM)では、これまでのサーバ管理の常識であるハードウェア固有の情報(MAC アドレス、WWN、NIC & HBA ファームウェア情報や BIOS 設定)をハードウェア から完全に 分離してソフトウェア情報として管理できます。 これにより、サーバ追加/変更時に、ソフトウェア情報を 交換ハードウェアに一括で割り当てることができます。

    -  Hadoop Clusterゼロタッチ展開 -  オンデマンドクラスタサイジング -  ステータス、ヘルスダッシュボード -  クラスター全体の一元管理

    Hadoop,サーバ ネットワークをボタン一つで容易に管理

    世界が認めた エンタープライズHadoopディストリビューション

    検証済みの   リファレンス  アーキテクチャ

    1

    2 3

    Web ブラウザで 簡単アクセス

    サービス プロファイル OSデバイス

    サーバ パラメータ BIOS FW MAC WWN

    サービス プロファイル OSデバイス

    サーバ パラメータ BIOS FW MAC WWN

    故障

    移動

    UCS Director Expressから一元的に、ラックサーバ,       ネットワーク、Hadoopソフトを展開、管理できます。

    UCS  Director  Express  

    UCS    Manager  

     

    OS/  Hadoop  

    インストール    

    Hadoop    Manager  

    アプリ  モニター  

    ネッ

    トワ

    ーク  

    アップリンクトランク作成  VLAN作成  

    QoS  設定  セキュリティ設定  

    サー

    バ   BIOS設定  ベアメタル                プロビジョニング  サーバセットアップ  

    ネットワーク設定  OSインストール  RAID  構成  

    Hado

    op  

    3rdパーティパッケージ     インストール      Hadoopユーザ             アカウント作成  Hadoopサービス展開管理  

    Hadoopクラスタ  各ノードの構成  Hadoopソフトのインストール  

    検証済みのリファレンスアーキテクチャ (CPA) 3

  • 23  ©  Cloudera,  Inc.  All  rights  reserved.  

    業界をリードする  プロフェッショナルサービス  

    #1 経験 最大の専門性を持ち、Hadoopコミッターを擁し、幅広いドメイン知識を持つ。 #1 パートナー 数十ものサービスパートナーをアジアに持ち、大規模SIerや日本の小規模専門企業を含む #1 コーチング 知識の共有とベストプラクティスの導入に特化した、特定領域の専門家を擁する

    Partners  

    Training  

    Enterprise  

    Services  

  • 24  ©  Cloudera,  Inc.  All  rights  reserved.  

    ⼤大量量のデータを保存する• HDFS  -‐‑‒  分散ストレージ• HBase  -‐‑‒  NoSQL⼤大量量のデータを処理理する• MapReduce  -‐‑‒  分散バッチ処理理

    • 大量のデータを扱う基盤として爆発的に普及

    • しかし、多くの欠点があった• 低レイテンシの処理に対応できない

    • MapReduceが適していない処理への最適化

    • 新たなニーズへの対応 • 分析、検索、ストリーム処理、機械学習、etc.

    Hadoopによるビッグデータ基盤  (2008〜~2012年年)Hadoop  =  バッチ処理理の時代

  • 25  ©  Cloudera,  Inc.  All  rights  reserved.  

    ⼤大量量のデータを保存する• HDFS  -‐‑‒  分散ストレージ• HBase  -‐‑‒  NoSQL⼤大量量のデータを処理理する• MapReduce  -‐‑‒  分散バッチ処理理• Spark  -‐‑‒  インメモリ分散処理理•  Impala  -‐‑‒  分析SQL• Solr  -‐‑‒  全⽂文検索索エンジン• Spark  Streaming  -‐‑‒  ストリーム処理理

    • 新しい分散アプリケーションが大幅に追加

    • 大量のサーバのリソース管理の基盤YARNの導入により、分散アプリケーションの同時実行が可能に

    Hadoopによるビッグデータ基盤  (2012年年〜~現在)Hadoop  =  多様な分散アプリケーションの基盤の時代

  • 26  ©  Cloudera,  Inc.  All  rights  reserved.  

    Hadoopに向いている処理理社内外の全データを蓄積する•  IAサーバを追加するだけで簡単に容量量をスケール可能• 複数の社内システムに分散しているデータをHadoopに集約して保存• 取り込み時にデータの整形は不不要ETL/ELT処理理、分析・検索索、機械学習、ストリーム処理理、etc.•  IAサーバを追加するだけで処理理能⼒力力をスケール可能。これにより、スモールスタートしつつ負荷の増⼤大に柔軟に対応可能

    • 多様なデータは分散処理理で⾼高速に整形・集計•  1,000台あれば、1PBのデータ処理理も20分で実⾏行行可能

    •  SQLエンジンにより、⼤大規模なデータを⾼高速分析•  20台のサーバを使って、15TBのデータの集計を6秒で実⾏行行

    • 全⽂文検索索エンジン、機械学習、ストリーム処理理など様々な処理理も対応済み

    26  

  • 27  ©  Cloudera,  Inc.  All  rights  reserved.  

    Hadoopに向いている処理理  (続き)外部システムからのデータ投⼊入が簡単、しかも利利⽤用可能•  スキーマを設計してから投⼊入を開始するのではなく、データを投⼊入してからスキーマ設計が可能

    • データ投⼊入PJとデータ分析PJを⾮非同期に実施することが可能•  廃⽌止予定のシステム:  データをアーカイブ化するのではなく、常にオンラインの状態を保ったまま保存可能

    •  新システム:  データを利利⽤用する別システムと調整を⾏行行う必要がなく、ただHadoopにデータを投⼊入すればいい。Hadoop側で⾏行行う作業はサーバの追加のみデータフォーマットの仕様変更更が簡単•  データを⼀一切切変更更することなく、分析⽤用テーブルだけを追加・編集・削除が可能•  データ投⼊入側のスキーマ変更更:  フィールドの追加だけなら、データ利利⽤用側システムに影響を与えることはない。利利⽤用側はスキーマ変更更不不要のため、利利⽤用側との連携のための開発⼯工数を削減可能

    •  データ分析側のスキーマ変更更:  元データを⼀一切切変更更しないため、データ投⼊入側が追加の開発⼯工数を要することはない

    27  

  • 28  ©  Cloudera,  Inc.  All  rights  reserved.  

    Hadoopにできないことファイルサーバではありません

    • データの投⼊入・取り出しには数秒程度度のレイテンシが発⽣生します• データの更更新は不不向きです(更更新⽤用機能もありますが⾮非推奨)BIではありません

    • ピボットテーブルやグラフ作成などの機能はありませんOLTP向けのRDBMSではありません

    • トランザクションなど、RDBMSでは当たり前に存在する機能のいくつかはありません

    スーパーコンピュータではありません• 科学計算などの⾮非常に⾼高度度な計算処理理には向いていません• ただし、処理理の⼀一部をHadoopで⾏行行うことで⾼高速化を図る研究が⾏行行われています

    28  

  • 29  ©  Cloudera,  Inc.  All  rights  reserved.  

    Why  Cloudera?  

    エンタープライズセキュリティ  コンプライアンス要件に合致し、機密データの  漏洩リスクを減らします  

    データガバナンス  コンプライアンスを可能にし、アナリストの  生産性を最大化  

    完全なマネジメント  最適なシステムの活用方法を提供し、  SLAを守り、オンプレミス・クラウドでの  デプロイを最小限の労力で提供します  

    エンタープライズHadoopによる長期的なお客様の成功を提供します  

    þ オープンソースイノベーション  Clouderaより優れたHadoopはありません。ClouderaはエンタープライズHadoopの開発をリードし、最高のサポート、トレーニング、サービスを提供します  

    þ 強力なエンタープライズツール  ClouderaはオープンソースHadoopを拡張し、世界最大級の企業に必要な要件を満たしています  

    þ 記録追跡とエコシステム  Clouderaは最も採用されているHadoopベンダーであり、データ分析プロジェクトを成功に導く方法を知っています。必要なツールや統合を提供するパートナーがその助けとなります  

  • 30  ©  Cloudera,  Inc.  All  rights  reserved.  

    QuesIons?