Amazon Redshiftを使ったデータ分析

Amazon Redshift を使ったデータ分析モンスター・ラボ　島根開発拠点　山口友洋

自己紹介

株式会社モンスター・ラボ　サービス開発事業部所属

Webアプリケーション開発（Ruby, PHP,AWS）

2014年7月3日に、島根開発拠点立ち上げ（松江テルサ別館）

Amazon Redshiftとは

Amazon Web Serviceで提供されいている、大規模データ分析用途向け分散RDB

2013年6月から運用開始

Amazon Redshiftとは

億円単位で導入していたDWHが、年額100万円～で利用可能に

スタートアップなどの小規模なビジネスでもビッグデータ分析が可能に

Redshiftの料金

月額3万円程度から、スタートできる

国内導入事例

広告配信、ソーシャルゲーム

クックパッド「たべみる」

クラウド会計ソフト「freee」

2015年のアプリ・モバイルトピック

ものが繋がる(Intenet of Things)

Beacon/ロケーションサービス

ウェアラブル

データの分析と活用がさらに進む

人間の身体に関わるデータ

人間の行動に関わるデータ

自動車・家電その他から得られるデータ

分散RDBとはどういうものか

10億～100億行以上の巨大なデータを扱い高速にレスポンスを返す

1.2TBのデータサイズに対して約150秒のレスポンスタイム（hadoopの10倍）

PostgreSQL互換インターフェース

MySQL、PostgreSQLと同じ点

ODBCやJDBCから接続しSQLを実行できる

テーブルを結合（JOIN）できる

INSERT,SELECT,UPDATE,DELETEのSQL実行できる

O／Rマッパからでも使える

MySQL, PostgreSQLとの違い

複数のノードを1つのデータベースとして扱う

データが各ノードに分散配置される

ノードを増やすとクエリ性能が向上する

Redshiftを上手に使うには

ミドルウェアが持つ制限を知る

アーキテクチャーを理解して、設定・チューニングを行う

Redshiftに存在する制限

同時接続数が少ない

バイナリ型が使えない

カラムの変更ができない

Redshiftが向かないシステム

たくさんのユーザが同時接続し、多くのクエリを発行するシステム

柔軟なデータ型が求められるシステム

おさえておきたいアーキテクチャ

ノード構成

データ分散方式

ノード構成図

リーダーノードとコンピュートノード

リーダーノードは接続を受付、コンピュートノードに実行プログラムを配布する

コンピュートノードはデータを保持し、プログラムを実行する

ノードスライス

ノードスライスとは

Redshiftの並列処理単位

CPUコア数=ノードスライス数

ノードスライスは独自にCPUコア、メモリ、ストレージを持つ

ノードスライス間では、データ共有できない

データ分散の方法

均等方式

分散キー方式

ALL 分散

均等分散

テーブルが結合に関与しない場合に向いている

分散キー方式

列の値が一致するとき物理的に同じ場所に格納される

ALL分散

更新頻度・範囲が少ないデータに適している

再分散とは

異なるノードスライス間でJOINするとき、一時テーブルに、必要な全データを転送する処理

再分散が発生するケース（低速）

結合に使うキーと分散キーが異なる場合

再分散が発生しないケース（高速）

結合に使うキーと分散キーが同じ場合

データ分散の目標

ノード間でワークロードを均等に分散させる

クエリ実行中のデータ移動を最小限にとどめる

パフォーマンス・チューニング

1. 最適な分散方式の選択

2. 最適な分散キーの選択

3. 最適なソートキーの選択

分散キーのチューニング

特定のノードに行が集中しないように、偏りのないカラムを分散キーにする（CPU）

同じノードに配置されたデータでJOINできるように、結合キーを分散キーにする（ネットワーク）

同じノードに配置されたデータで集約できるように、GROUP BYに使うカラムを分散キーにする（ネットワーク）

AWSシステム構成例

Redshiftを使ったデモ

松江市人口統計データを S3経由でRedshiftにインポートし、

ビジュアライズツールtableauで可視化する

Amazon Redshiftを使ったデータ分析

Data & Analytics

Transcript of Amazon Redshiftを使ったデータ分析

AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

[AWS Black Belt Online Seminar] Amazon Redshift ......2020/07/29 · mazon Redshift Spectrum Redshift クエリを Amazon S3に拡張し、データレイクアーキテクチャを強化

Amazon Redshift Integration Deep Dive

透過 Amazon Redshift 打造數據分析服務及 Amazon Redshift 新功能案例介紹

Amazon Connect Deep DiveAmazon Connect Deep Dive ... Lambda Amazon API Gateway AWS Step Functions Database Amazon DynamoDB Amazon Redshift Amazon RDS Messaging Amazon Pinpoint Amazon

はじめてのAmazon Redshift

Oracle Exadata AWS移行事例のご紹介 · Exadata AWS cloud Oracle on EC2 AWS cloud Oracle on EC2 Amazon Redshift Amazon Athena Redshift Spectrum 収集 AWS Direct Connect VPN

Speed matters - Amazon Kinesis が実現するストリーミングデータの … · 2017-12-19 · • コピーコマンドで、Amazon Redshift テーブルにデータをロード

Delivering Results with Amazon Redshift, One Petabyte at a ... · Delivering Results with Amazon Redshift, One Petabyte at a Time アマゾンデータサービスジャパン株式会社

AWS Black Belt Online Seminar 2017 Amazon Redshift Update 最近追加された新機能と Redshift Spectrum

[よくわかるAmazon Redshift]Amazon Redshift最新情報と導入事例のご紹介

Amazon Kinesis Data Firehose€¦ · Amazon Kinesis Data Firehose Guía para desarrolladores Flujo de datos Para los destinos de Amazon Redshift, los datos de streaming se entregan

Introdução ao Amazon Redshift

Amazon Redshift - d0.awsstatic.com · Amazon Redshiftの位置づけ データ・ストアの特性に応じた使い分け Amazon DynamoDB Amazon RDS Amazon ElastiCache Amazon Redshift

Amazon Redshift ことはじめ

Amazon Web Services (AWS)における 対応状況 2020€¦ · Amazon EC2 Amazo n ECS Amazon Aurora Amazon DynamoDB Amazon ElastiCache Redshift AWS DMS Amazo n Neptun e Amazon RDS

AWS のデータ分析入門 · Redshift Amazon RDS Amazon QuickSight Amazon QuickSight Amazon Athena ... オンプレミス 独⾃構築on EC2 AWSマネージドサービス お客様がご担当する作業

20130716 AWS Meister re:Generate - Amazon Redshift (Korean)

[よくわかるAmazon Redshift in 大阪]Amazon Redshift最新情報と導入事例のご紹介

Amazon Redshift ベンチマーク Hadoop + Hiveと比較

Amazon Redshift - d0.awsstatic.com · Amazon Redshiftの位置づけデータ・ストアの特性に応じた使い分け Amazon DynamoDB Amazon RDS Amazon ElastiCache Amazon Redshift

Amazon Web Services (AWS)における対応状況 2020€¦ · Amazon EC2 Amazo n ECS Amazon Aurora Amazon DynamoDB Amazon ElastiCache Redshift AWS DMS Amazo n Neptun e Amazon RDS

AWS のデータ分析入門 · Redshift Amazon RDS Amazon QuickSight Amazon QuickSight Amazon Athena ... オンプレミス独⾃構築on EC2 AWSマネージドサービスお客様がご担当する作業