AWS のデータ分析入門œ¬セッションの 的 •...

55
© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アマゾン ウェブ サービス ジャパン 株式会社 伊藤 英豪 2017/6/2 AWS のデータ分析⼊⾨

Transcript of AWS のデータ分析入門œ¬セッションの 的 •...

Page 1: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

©2017,AmazonWebServices,Inc.oritsAffiliates.Allrightsreserved.

アマゾン ウェブ サービス ジャパン 株式会社伊藤 英豪2017/6/2

AWS のデータ分析⼊⾨

Page 2: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

本セッションの⽬的

• 従来のトラディショナルな DWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューションとなり得るのか、その全体像を理解して頂くための AWS 初⼼者向けのセッションとなります。

• セッション中で触れる AWS サービスは多岐に及ぶため、個々のサービス詳細には触れず簡単な紹介となる点、ご了承ください。

Ø 本セッションでは、IoT, Direct Connect, AI サービス等は含みません。

Page 3: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

アジェンダ• ⼀般的なデータ蓄積・分析環境の課題• データ蓄積・保管の課題と AWS での対応• データ収集の課題と AWS での対応• データ加⼯等バッチ処理の課題と AWS での対応• データウェアハウスの課題と AWS での対応• データマートでの RDS の利⽤• ⼤量データに対するクエリーの課題と AWS での対応• データ分析・可視化の課題と AWS での対応• AWS の各種サービスでの課題解決• お客様事例

Page 4: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

⼀般的なデータ蓄積・分析環境の論理構成•以下に⼀般的なトラディショナルなデータ蓄積・分析環境の論理構成を掲載

アドホックな分析・可視化

DWHセントラルデータウェアハウス

⼀時的な蓄積ローデータの

蓄積保存

加⼯後データの保存

収集様々なデータソースからのデータを収集

より⾼度な分析

データマート特定の抽出・集約後データ⽬的別

データ等

定型分析レポーティング

加⼯バッチ処理、ETL等

Page 5: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

⼀般的なデータ蓄積・分析環境の課題•以下に⼀般的なトラディショナルなデータ蓄積・分析環境の論理構成を掲載

アドホックな分析・可視化

DWHセントラルデータウェアハウス

⼀時的な蓄積ローデータの

蓄積保存

加⼯後データの保存

収集様々なデータソースからのデータを収集

より⾼度な分析

データマート特定の抽出・集約後データ⽬的別

データ等

定型分析レポーティング

加⼯バッチ処理、ETL等

データ鮮度の低下

バッチ処理に時間がかかる

全てのデータを保管できない

多額のコストと導⼊期間がかかる

従来できていなかった⼤量データへのクエリー

ライセンスや展開コストが⾼額

Page 6: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

⼀般的なデータ蓄積・分析環境の課題• ROIがはっきりしないデータ分析の領域に、最初から多額の投資

はできない

• 将来のデータ量増⼤を考慮にしたハードウェア調達では⾮常にコスト⾼、また調達期間も数か⽉〜半年以上と⻑期化

• 直ぐに始められない

クラウドを利⽤して⼩さく初めて効果を検証しながら必要に応じて増強していくといったスタイル

が今⽇のトレンドに

Page 7: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS の各種サービスのマッピング例

収集

バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送

蓄積・保存データレイク

クレンジング後データ。加⼯後・

集計後データ

加⼯・分析

DWH

データマート

アドホックな分析・可視化

より⾼度な分析

定型分析・レポーティング

Amazon AI Services

RedshiftSpectrum

ローデータ

VPNAWS Direct

Connect

Amazon Kinesis

AWS DMS

AWSIoT

Amazon S3

Amazon EMR

Amazon Redshift

AmazonRDS

AmazonQuickSight

AmazonQuickSight

AmazonAthena

多数の利⽤者

少数の利⽤者

Page 8: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

ポイント:マネージドサービスで運⽤の負荷を低減

電源・ネットワークラッキング

HWメンテナンス

OSパッチ

ミドルウェアパッチ定形運⽤設計

スケールアウト設計

ミドルウェア導⼊

OS導⼊

アプリケーション作成

オンプレミス 独⾃構築 on EC2 AWSマネージドサービス

お客様がご担当する作業 AWSが提供するマネージド機能

電源・ネットワークラッキング

HWメンテナンス

OSパッチ

ミドルウェアパッチ定形運⽤設計

スケールアウト設計

ミドルウェア導⼊

OS導⼊

アプリケーション作成

電源・ネットワークラッキング

HWメンテナンス

OSパッチ

ミドルウェアパッチ定形運⽤設計

スケールアウト設計

ミドルウェア導⼊

OS導⼊

アプリケーション作成

Page 9: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ蓄積・保管の課題とAWS での対応典型的な課題

• データ保管庫の可⽤性確保、パフォーマンス確保が容易ではない

• 全てのデータを保管できない

• 結果的に過去データの廃棄が発⽣

• もっと過去データも⾒たいといったニーズを切り捨て

AWS での改善案

• S3 に格納する

• 従来の基幹系システムからのマスターやトランザクションデータのみならず、今後発⽣する様々なローデータ(センサーの取得したデータ、スマホ⾏動履歴、オープンデータ等々)も全て S3 に格納

• S3 に格納することでデータの保管コストを圧縮すると共に、データの耐久性を⾮常に⾼い状態に保てる

D

Page 10: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon Simple Storage Service (S3)

• ⾼い堅牢性• 99.999999999%• 3箇所以上のデータセンターに

⾃動複製することで⾼い堅牢性を実現

• 容量無制限• 1ファイル最⼤5TBまで

• 安価なストレージ• 利⽤した分のみ課⾦• ⽉額1GB / 約3円

(0.025USD)

• スケーラブルで安定した性能• データ容量に依存しない性能

クラウド時代のストレージ• マネージドオンラインストレージサービス• ユーザはデータを安全に、どこからでも、容量制限なく保存可能• 様々なAWSサービスと連携するためのハブとなるストレージ

Page 11: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データレイクとは

• 今⽇⼀般的になりつつある考え⽅• 従来困難だった膨⼤な量と様々な

種類のデータ保管を⼀箇所で蓄積することで後々にデータから価値を引き出すことを可能にする

• データを捨てるリスクから解放

Page 12: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データウェアハウス(倉庫)とデータレイク(湖)

精製され

直ぐ飲める形にパッケージング

倉庫に整然と配置

未精製で源泉をそのまま蓄積

そのままでは飲料に適していない

各種ミネラルもゴミも混在

Page 13: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS でのデータレイク – S3 セントラル

各種センサー

DB

各種クライアント

各種データベース

各種モバイルデバイス

Amazon S3

Amazon Glacier

Amazon EMR

cluster

Amazon Redshiftcluster

各種サーバー

AmazonRDS

従来のアーキテクチャでは、DWH やRDB、あるいは、HDFS ⾃体が恒久的なデータ蓄積・保存先となりがち

One Fact が様々な実体に複写されている状況

ストレージとデータ処理の結合度が⾼いため、ストレージ容量拡張や、CPUやメモリ容量拡張の際に⼿間が発⽣

恒久的な永続化の主体は、DWH やHadoop (HDFS) ⾃体ではなく、S3 に⼀元化

必要な時にRedshift や EMR のクラスターを⽣成して、不要になれば削除するといったライトウェイトな運⽤が可能

S3にローデータが保存されていれば分析⽤途別の後続での利⽤が容易に実現可能

Amazon EMR

cluster

Amazon Redshiftcluster

Page 14: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ収集の課題と AWS での対応リアルタイム分析と蓄積型の分析では、必⽤なテクノロジーが異なる

典型的な課題

• データの鮮度が低い

• バッチファイルの⽇次等でのデータ収集等

• リアルタイムでの意思決定ができない

• 様々なセンサーやモバイルデバイスからの⼤量データ収集等はそもそもアーキテクチャ上、考慮されていない

AWS での改善案

Kinesis• 様々なセンサーが取得する⼤量なデータ、スマホ

⾏動履歴、各種ログに対しては、ストリーミングデータ収集サービスである Kinesis を利⽤してS3 に格納

DMS• 従来の基幹系システムの RDB に格納されている

マスターやトランザクションデータも、AWS Database Migration Service (DMS)を使⽤することで、ニアリアルタイムでデータを S3 に格納したり、直接、Redshift に格納が可能

D

Page 15: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon Kinesisストリーミングデータを収集・処理・配信するためのマネージドサービス群

Amazon Kinesis Streams

ストリーミングデータを処理または分析する独⾃のカスタムアプリケーションを構築

Amazon KinesisAnalytics

ストリーミングデータを標準的な SQL クエリーで

簡単に分析

Amazon Kinesis Firehose

膨⼤な量のストリーミングデータを Amazon S3、

Amazon Redshift、Amazon Elasticsearch に

簡単にロード※ Kinesis Firehose と Kinesis Analytics は、北バージニア、オレゴン、、アイルランドリージョンで提供

Page 16: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS Database Migration Service (DMS)

特徴 (https://aws.amazon.com/jp/dms/)

オンラインでの継続的レプリケーションに対応し、最⼩限のダインタイムで移⾏を実現RDBMS、S3、NoSQLなどの豊富な対応プラットフォームソースDBへの変更はほぼ不要マルチAZに対応した⾼い信頼性

マネージド型のデータベース移⾏サービス

オンプレミスDB

DB on EC2

RDS

オンプレミスDB

DB on EC2

RDSDMS

S3

Page 17: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ加⼯等バッチ処理の課題とAWS での対応

典型的な課題• バッチ処理に時間がかかる

• 繁忙期等、データ量増⼤でバッチウィンドウを超過するリスクがある

• 既存バッチアプリケーションサーバーや ETL サーバーのスケーリングや運⽤管理が必要

D

Page 18: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ加⼯等バッチ処理の課題とAWS での対応AWS での改善案従来通り

• バッチアプリケーションサーバーによるバッチ処理(Java Batch等のバッチ処理フレームワークの利⽤や、ストアードプロシージャ呼び出し等)の実施や、ETLツールの利⽤

• ただし、この場合、バッチアプリケーションサーバ―やETLサーバーのインスタンス起動や処理のリランや各⽤途別サーバー⾃体の可⽤性確保等の検討が従来のオンプレと同様に発⽣してしまう

EMRへのバッチ処理のオフロード• Presto, HiveQL や、 Spark SQL 等の利⽤による⼤量データに対する⾼速なバッチ処理実⾏

フルマネージドのETLサービスである AWS Glue の利⽤• データストア間でデータ移動を簡単に⾏うための完全マネージド型 ETL サービス• 困難で時間のかかるデータ検出、変換、マッピング、ジョブスケジューリングのタスクを簡単に⾃動実

⾏可能に• 現在プレビュー中 https://aws.amazon.com/jp/glue/

D

Page 19: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon Elastic MapReduce (EMR)

特徴 (http://aws.amazon.com/jp/elasticmapreduce/)

• フルマネージド:クラスタの構築から構成変更、破棄まですべてマネージしてくれる

• ⾃動化:Amazon EMRのAPIを利⽤するとジョブに合わせてクラスタを起動し、実⾏させ、終了したらクラスタを破棄、というような⾃動化が容易

• AWS:Amazon S3やAmazon DynamoDBからデータの⼊出⼒が可能

フルマネージドなHadoopを提供利⽤者は運⽤を気にせずHadoopアプリケーションの開発や利⽤が可能

Hadoop

Hadoop

Amazon EMRクラスタ

AWSサービスとの連携

Page 20: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

EMR でのクラスタ起動イメージ• マネージメントコンソールから数回のクリックで Hadoop のクラスタが起動可能• Hadoop周辺エコシステムの進化にもタイムリーに追従しており設定も容易

Page 21: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

EMRFS: Amazon S3 を HDFSの様に扱う

計算資源とストレージを分離できる• “s3://”と指定するだけで利⽤可能

クラスタのシャットダウンが可能クラスタを消してもデータは消えない複数クラスタ間でデータ共有が簡単

• クラスタのバージョンアップ検証が並⾏できるデータの⾼い耐久性Amazon S3の機能がそのまま使える

• 例: 古いデータはAmazon Glacierに⾃動で移動させる

Amazon S3

Amazon EMR

cluster

Amazon EMR

cluster

Page 22: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS Glue (プレビュー段階)データストア間でデータ移動を簡単に⾏うためのフルマネージド型 ETL サービス

• データ検出、変換、マッピング、ジョブスケジューリングのタスクを簡単に⾃動化可能

• Amazon S3、Amazon RDS、Amazon Redshift と統合し、JDBC 準拠のデータストアに接続することが可能

• データソースを⾃動的にクロールし、データフォーマットを識別してからスキーマと変換を提案するため、データフローを⼿作業でコーディングする必要がなくなる

• ETL ジョブをあらゆる規模ですばやく効率的に実⾏することが可能

• 管理するサーバーはなく、ETL ジョブによって消費されるリソースの分しか料⾦は発⽣しない

プレビュー中:https://aws.amazon.com/jp/glue/

Page 23: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS Glue 操作イメージ

データカタログを構築

データ変換を⽣成、編集

ジョブをスケジュールして実⾏

Page 24: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データウェアハウスの課題とAWS での対応

典型的な課題

• データ容量の問題で、全てのデータを保管できない(過去データの廃棄等が発⽣)

• データ保管庫⾃体の可⽤性確保や増強が⼤変

• データウェアハウス専⽤のアプライアンスの導⼊には多額のコストが発⽣

• また導⼊までには多くの期間と設計作業を要する

AWS での改善案

• データ蓄積の左記のような制約は S3 をデータレイクとして利⽤することで容易に解消可能

• 既存オンプレミスの時のデータウェアハウスに伴うコストや導⼊期間の問題は、Redshift にて解決可能

D

Page 25: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon Redshift の特徴

Amazon Redshift

フルマネージドなクラウド上のDWHサービス

ペタバイト級までスケールアウト

多数の周辺ソフトPostgreSQL互換

$ 935 /TB/年最⼩$ 0.25 /時から

データの暗号化各種第三者認証に準拠

(SOC1、SOC2、SOC3、FedRAMP、HIPAA、PCI DSS レベル 1等)

※費⽤は2017年5⽉時点での東京リージョンのものです

⾼速

スケーラブル

低コストシンプル

セキュア

Page 26: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

375

623

列指向カラムナー型ストレージ

データ圧縮

ゾーンマップ

MPP & 列指向

MPP : Massive Parallel Processing• 1つのタスクを複数のノードで分散して実⾏する

仕組み• Redshiftではリーダーノードがタスクをコン

ピュートノードに分散して実⾏• ノードを追加する(スケールアウト)でパフォー

マンス向上

10Gb Ether

JDBC/ODBC

Redshift⼤規模分散処理で

分析SQLを⾼速実⾏

Page 27: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

拡張性 数百GBから数PBまで拡張可能

シングルノード

クラスター 2 – 32ノード

クラスター 2 – 128ノード

ds2.xlargedc1.large

ds2.8xlargedc1.8xlarge

Page 28: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Redshift クラスタの作成イメージマネジメントコンソールから数クリックの操作でクラスタが作成可能

Page 29: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Redshiftが向く⽤途と向かない⽤途向く⽤途

特化型のデータベースのため、適した⽤途に使うことでパフォーマンスを発揮

Redshiftに向くワークロード• 巨⼤なデータ・セット(数百GB〜ペ

タバイト)• 1つ1つのSQLが複雑だが、同時実⾏

SQLは少ない• データの更新は⼀括導⼊

ユースケース• データウェアハウス(DWH)• ユーザがクエリーを作成する(⾃由ク

エリー)(BI等)

向かない⽤途

SQLの並列実⾏数が多い(※同時接続数ではなく同時実⾏数)• RDS(MySQL ,PostgreSQL, Oracle,

SQL Server)を検討極めて短いレーテンシが必要なケース• ElastiCache (インメモリDB)やRDSを

検討ランダム、かつパラレルな更新アクセス• RDSもしくはDynamoDB (NoSQL)を

検討巨⼤なデータを格納するが集計等はしない• DynamoDBや⼤きいインスタンスの

RDSを検討

Page 30: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データマートでの RDS の利⽤• Redshift は⼤量ユーザーからの同時クエリーは不向き

• レポーティング業務(前⽇末段階の販売実績レポート等)では特定時間(朝⼀や⼣⽅等)に⼀⻫にアクセスが発⽣

• クエリーの内容はアドホックで⾮定型と⾔うよりも、定型的

• 上記のようなニーズに対しては Redshift への直接クエリーではなく、予め抽出or 加⼯されたデータをデータマートとして RDS に出⼒し、このデータマートに対するクエリーが望ましい

• なお、Redshift との SQL の親和性から RDS PostgreSQL か、今後登場が期待されている Amazon Aurora PostgreSQL-Compatible Edition が相応しいといえる

D

Page 31: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

⼤量データに対するクエリーの課題とAWS での対応

典型的な課題

• データが⼤量なため従来はクエリー対象データをあらかじめ間引く必要があった

• 本当の意味での全量データを対象にした分析はデータ容量の問題のため事実上できていなかった

• ⼀旦、ローデータをウェアハウスに格納する⼿間が発⽣していた

• そのためのデータロードへの処理時間がオーバーヘッドとなっていた

AWS での改善案

ローデータに対するアドホッククエリーを可能に• データレイクである S3 に対する直接的なクエ

リーの実施• DWH(Redshift)や、データマート(RDS)へ

のデータ移送をスキップすることが可能• データの重複保持を排除

⼿法としては主に下記3種• EMR File System (EMRFS) を使⽤した

Hadoop エコシステムの利⽤• Amazon Athena の利⽤• Redshift を経由した S3 へのクエリーの実⾏

(Redshift Spectrum の利⽤)

D

Page 32: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon Athena

特徴 (https://aws.amazon.com/jp/athena/)

• サーバーレスで運⽤コストがかからない• S3上のデータに対して直接クエリできる• ⼤規模なデータに対しても⾼速に結果を返す• Prestoベースで標準SQLが実⾏可能• ⾛らせたクエリのぶんだけ従量課⾦• スキャンされたデータ1TBあたり5$• 北バージニア、オハイオ、オレゴンリージョンで提供

S3に格納されているローデータへのダイレクトクエリーサーバーレスのインタラクティブなクエリサービス

Page 33: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Redshift Spectrum⼤規模スケールアウトの処理層(Spectrum層)を使い、S3上のデータに対してSQLを実⾏する機能を提供

• S3上に置いたファイルを外部テーブルとして定義し、Amazon Redshiftのクエリがそのまま活⽤できる• Amazon Redshiftクラスター上のデータと、S3上の

データをジョイン可能

• データローディングにかかる⼿間、時間が不要

• 同じS3データセットに対し、⾊々なノードタイプ、サイズで作ったAmazon Redshiftクラスターからアクセス可能

• 北バージニアリージョン等で提供

S3 各種データ(CSV,Parquet等)

Spectrum層

Page 34: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

SQL

アドホック・クエリーのバリエーションAmazon S3

Amazon EMR

Amazon Redshift or RDS

EMRFS

Amazon Redshift

SQL(PRESTO, HiveQL, Spark SQL)

SQL

SQLSQL

Redshift Spectrum を使⽤した場合頻繁にアクセスしないデータをS3においたままRedshift から透過的に S3 をアクセス可能(S3に事前に格納しておく必要がなく、容量も節約できる)

Amazon Athena

RDS, Redshift への⼀般的なSQLアクセス事前に S3 からデータをインポートしておく必要がある

EMR への⼀般的なSQLアクセスEMRFSにより事前に EMR の HDFS へのデータのコピーは不要

Athenaでの S3 への直接の SQL アクセスいかなる事前のデータコピーも不要ただし、利⽤時にスキーマ定義が必要

Spectrum層

Page 35: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ分析・可視化の課題とAWS での対応

典型的な課題• デスクトップまたはオンプレミスが主• ソフトウェアの初期ライセンス費⽤が⾼額

になりがち• インフラストラクチャやメンテナンスにコ

ストがかかる• 展開時間が⻑期化し易い• 効率的に拡張しない• 操作が複雑

AWS での改善案

• 利⽤者の慣れや既存ライセンスの関係から、従来の BI ツールもそのまま AWS でも利⽤可能• ただし、この場合、BIサーバーのインスタンス起

動や処理のリランや可⽤性確保等の検討が従来のオンプレと同様に発⽣してしまう

• 完全マネージド型 BI ツール:Amazon QuickSight の利⽤• 初期コストなくブラウザからすぐに始めら

れる• スマホアプリからもデータ可視化が可能• 従来のようなBIサーバの運⽤管理が不要• 多様なデータソースへのアクセスが可能• 低コスト、無料利⽤枠あり• シンプルな操作性

D

Page 36: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

データ分析・可視化は任意のツールが選択可能

EC2+BIツール多彩なパートナーソリューション・OSSをEC2上で活⽤

Amazon QuickSight専⾨家不要のBIサービスAWS内外のデータソースにアクセス

Page 37: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon QuickSight

特徴 (https://quicksight.aws/)

• 1ユーザあたり$9/⽉からの安価な費⽤• 専⾨家不要でデータ分析がすぐに始められる• AWS内外のデータ・ソースと連携• SPICEエンジンによる⾼速処理• Standard Edition

• $12/ユーザ/⽉ もしくは$9/ユーザ/⽉(1年間契約の場合)

• Enterprise Edition• $24/ユーザ/⽉ もしくは$18/ユーザ/⽉(1年間契約

の場合)• 北バージニア、オハイオ、オレゴン、アイルランド

リージョンで提供

⾼速SPICEエンジンと直感的な操作、専⾨家不要のBI

Page 38: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon QuickSight の多様なデータソースAWS上のデータソースを⾃動的に発⾒多様なデータソースに対応

• Amazon RDS (Aurora, MySQL, MariaDB, PostgreSQL, SQL Server)

• Amazon Redshift• Amazon Athena• オンプレミスやEC2上のRDB

(MySQL, MariaDB, PostgreSQL, SQL Server)

• SalesForce.com• Amazon S3上に置かれたファ

イル、もしくはPC上のファイル(CSV, TSV, CLF, ELF, Excel)

Amazon RDS, Aurora Amazon Redshift Amazon

AthenaAmazon S3

Flat Files

Page 39: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

SPICESuper-fast, Parallel, In-memory, Calculation Engine

• インメモリ処理に最適化された⾼速データベース

• カラムナ:1/2~1/4のサイズに圧縮

• フルマネージド:運⽤管理やライセンスは不要

• RDBのデータやファイルをSPICEに保存することで⾼速なクエリを実現

• QuickSight1ユーザあたり10GBのSPICE⽤領域が利⽤可能(追加可能)

Amazon Redshift

Amazon RDS

Amazon Athena

Amazon S3

Page 40: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon QuickSight 利⽤イメージ新しいデータセッ

トの作成 データセット⼀覧 SPICEの使⽤量

ディメンジョンカラム

ファクトカラム グラフ種類⼀覧

Page 41: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS の各種サービスでの課題解決

Page 42: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS の各種サービスのマッピング例

収集

バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送

蓄積・保存データレイク

クレンジング後データ。加⼯後・

集計後データ

加⼯・分析

DWH

データマート

アドホックな分析・可視化

より⾼度な分析

定型分析・レポーティング

Amazon AI Services

RedshiftSpectrum

ローデータ

VPNAWS Direct

Connect

Amazon Kinesis

AWS DMS

AWSIoT

Amazon S3

Amazon EMR

Amazon Redshift

AmazonRDS

AmazonQuickSight

AmazonQuickSight

AmazonAthena

少数の利⽤者

Page 43: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS の各種サービスのマッピング例

収集

バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送

蓄積・保存データレイク

クレンジング後データ。加⼯後・

集計後データ

加⼯・分析

DWH

データマート

アドホックな分析・可視化

より⾼度な分析

定型分析・レポーティング

Amazon AI Services

RedshiftSpectrum

ローデータ

VPNAWS Direct

Connect

Amazon Kinesis

AWS DMS

AWSIoT

Amazon S3

Amazon EMR

Amazon Redshift

AmazonRDS

AmazonQuickSight

AmazonQuickSight

AmazonAthena

少数の利⽤者バッチ処理の⾼速化

容量無制限のデータ保存

商⽤に匹敵するDWHを数回のクリックでオンデマンドで起動可能

BI ツール⾃体もサーバレス化

データ鮮度の向上

データレイクに対する直接のクエリ発⾏

Page 44: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS の各種サービスでの課題解決• ROIがはっきりしないデータ分析の領域に、最初から多額の投資

は不要

• 短期間で直ぐに始められる

• 元となるローデータがデータレイクに保存されていることにより、より良いテクノロジーが登場したタイミングで容易に導⼊可能

クラウドを利⽤して⼩さく初めて効果を検証しながら必要に応じて増強していくといったスタイルが実現可能

Page 45: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

お客様事例

Page 46: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

NTTドコモ様 統合DWHプロジェクト

「ペタバイト級のデータを安全にハンドリングしつつ、拡張性に富む業務分析システムを実現できました」

多くの携帯電話の中継塔によって⽣成される数ペタバイトのデータ スケールが困難で⾼価オンプレミスと連携できる安全でスケーラブルなシステムが必要

安全性を担保するために、NTTドコモ様で構築する業務系システム等は、⾼い情報セキュリティ基準をクリアすることが前提となっていた。• セキュリティ機能の充実• アクセス制御・統制• ユーザ管理・統制といった AWS の機能追加により、これらの基準をクリアするシステム構築が可能となった。

https://aws.amazon.com/jp/solutions/case-studies/docomo/

Page 47: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

POSデータを定期的に転送

すかいらーく様 POSデータ分析

過去数年分、数⼗億件のデータに加えて、⽇に数百万件のデータを投⼊POSの⽣データを必要とする複雑な分析が、数⽇=>数秒になり、仮説検証・施策投⼊のサイクルが⾶躍的に向上

• レシート単位の売り上げ分析、商品の併売率、バスケット粗利、販促施策の費⽤対効果、時間ごとの店舗稼働率、滞在時間等を分析

Why AWS• コスト:DWHアプライアンスと⽐べて2桁安• スピード:利⽤開始までの期間が既存ソリューショ

ンの10分の1• 容易性:膨⼤なデータを扱うにもかかわらず、⾼度

なITインフラ知識が不要• スケーラビリティ:データ量が増えても

基盤の⼼配なく分析可能

国内3000店舗、年間4億⼈が利⽤するレストランのPOSデータ分析システムを、わずか1ヶ⽉で本番稼動

⾃社DC

AmazonRedshift(DWH)

Amazon S3(データ収集)

Amazon EC2(分析サーバー)

膨⼤なデータを数秒〜数⼗秒で分析

フィードバック

本部(マーケティング部⾨)

きめ細かいメッシュ、多次元の相関を加味した売上予測、販促効果分析

店舗(約3000店)要員計画、調達計画、臨時キャンペーン等に

活⽤

本部店舗

http://aws.amazon.com/jp/solutions/case-studies/skylark/http://media.amazonwebservices.com/jp/summit2014/EA-06.pdf

Page 48: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

あきんどスシロー様ICタグ活⽤による鮮度管理、オペレーション改善データ分析の投資対効果を実機で実証

導⼊前の課題• ⼤量の活⽤されていないデータ• 投資対効果がわからず、分析システムを導⼊できず

AWSを活⽤して、「まずやってみる」を実施• 15億件のデータ分析環境を2⽇で構築。かかった費

⽤は10万円• データ分析の有⽤性を検証でき、AWS上で分析シ

ステムを本格導⼊。廃棄量を75%削減• 全国370以上の店舗、年間10億件にのぼるデータを

リアルタイムでクラウドへ収集し、活⽤• 380店舗の寿司⽫についたセンサーから送られるス

トリームデータを収集・分析し⾷材廃棄の削減、オペレーション改善

http://aws.amazon.com/jp/solutions/case-studies/akindo-sushiro/http://media.amazonwebservices.com/jp/csd20140909/BZ-02.pdf

Page 49: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

⽶国の⾦融業規制機構Financial Industry Regulatory Authority

2007 年7⽉、NASD(National Association Of Securities Dealers、全⽶証券業協会)とNYSE(New York Stock Exchange、NYSE)の⾃主規制部⾨の統合により設⽴

⽶国のすべての証券会社が加盟する⾮政府規制機関

最⼤で750億件のイベントが毎⽇

5 PBを超えるストレージ

投資家を保護する

マーケットを清廉に保つ

アメリカの99%の株取引と70%のオプションを監視している

マーケットの再構築は10兆ものノードとエッジが含まれる

https://aws.amazon.com/jp/solutions/case-studies/finra/

Page 50: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

Amazon EMR による対話的な分析環境

DW2

データマート(Amazon Redshift)

クエリクラスタ(EMR)

クエリクラスタ(EMR)

Auto ScaledEC2

分析アプリ

正規化ETLクラスタ(EMR)

バッチ分析クラスタ(EMR)

アドホッククエリクラスタ

(EMR)

Auto ScaledEC2

分析アプリ

ユーザ データ提供者

Auto ScaledEC2

データ投⼊

サービス

最適化ETLクラスタ(EMR)

MySQL

共有Metastore(RDS)

クエリ最適化(S3)

Auto Scaled EC2

データカタログ&派⽣

サービス

PostgreSQLPostgreSQL

参照データ(RDS)

共有データサービス

Auto ScaledEC2

クラスタ管理&ワークフロー

サービス

⽣データ(S3)

Page 51: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

まとめ

• トラディショナルな DWH/BI のアーキテクチャを、AWS の各種サービスの組み合わせでモダナイゼーションすることで、より安く、早く、柔軟なデータ蓄積・分析環境をクラウド上で構築することが可能になります。

• 従来のアーキテクチャを継承することも可能ですが、マネージドサービスの利⽤により、運⽤負荷をより低減することが可能です。

• まだ、着⼿されていないお客様は、S3 上にデータレイクを構築し、Redshift で DWH を構築するところからトライして頂くことをお勧めします。

Page 52: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

参考情報AWS クラウドサービス活⽤資料集https://aws.amazon.com/jp/aws-jp-introduction/

Amazon S3 開始⽅法https://aws.amazon.com/jp/s3/getting-started/

Redshift ご利⽤開始にあたってhttps://aws.amazon.com/jp/redshift/getting-started/

Amazon QuickSight | Homehttps://quicksight.aws/

AWSクラウド導⼊事例のご案内http://aws.amazon.com/jp/solutions/case-studies-jp/

Page 53: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

AWS ソリューション Day 2017- Database Day- すでに始まっている!「クラウドへのデータベース移⾏」と「データレイクを軸としたビッグデータ活⽤」-

Database Dayとは?ユーザー企業/パートナー/AWSによる導⼊事例や活⽤動向また技術情報をご紹介するIT部⾨(エンジニア・管理者など)向けのカンファレンス

開催⽇時・会場• 2017年7⽉5⽇(⽔) 10:00~17:30 (9:30開場予定)• ⼤崎ブライトコアホール(JR⼤崎駅より徒歩5分)

セッション①基調講演 ②ブレイクアウトセッション – 2トラック構成

トラック1:データベース移⾏ (事例セッションあり)トラック2:データレイク(JAWSUG-BigData⽀部 事例セッションあり)

お申込み– https://aws.amazon.com/jp/about-aws/events/2017/solutiondays20170705/

Page 54: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

本セッションのFeedbackをお願いします

受付でお配りしたアンケートに本セッションの満⾜度やご感想などをご記⼊くださいアンケートをご提出いただきました⽅には、もれなく素敵なAWSオリジナルグッズをプレゼントさせていただきます

アンケートは受付、パミール3FのEXPO展⽰会場内にて回収させて頂きます

Page 55: AWS のデータ分析入門œ¬セッションの 的 • 従来のトラディショナルなDWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューショ

ご静聴ありがとうございました。