EMR with the MapRは何がうれしいの CM re:Growth
Transcript of EMR with the MapRは何がうれしいの CM re:Growth
EMR with the MapR はなにがうれしいの
CM re:GrowthDevelopers.IO Meetup 01
classmethod.jp 1
2013/12/10 能登 諭(@n3104)
自己紹介• 氏名:能登 諭(のと さとし)• 得意分野: Hadoop• 好きな AWS サービス: EC2
classmethod.jp 2
classmethod.jp 3
みなさん、 EMR 使ってますか?
classmethod.jp 4
私は使ってないですw
(前職は CDH をオンプレで使ってました)
EMR とは• http://aws.amazon.com/jp/elasticmapred
uce/• 正式名称は Amazon Elastic MapReduce 。• AWS が提供する Hadoop のディストリ
ビューション。• オンプレとの一番の違いは保守が不要な点。• 基本的に S3 に入出力ファイルを置くことに
なるため、– HDFS の障害を考慮しなくてよくなる。–容量制限を気にする必要がなくなる。
classmethod.jp 5
そもそも Hadoop とは• http://hadoop.apache.org/• HDFS (分散ファイルシステム)と
MapReduce (分散処理系)をコアとするミドルウェア群。
• 中心は HDFS (分散ファイルシステム)。これがあるおかけで MapReduce で効率的に分散処理ができる。
classmethod.jp 6
classmethod.jp 7
みなさん、 EMR with the MapRを使ってますか?
MapR とは• MapR Technologies が提供する Hadoop の
ディストリビューション。• 一番の特徴はコアとなる HDFS を C++ で書
き直している点。これによって性能を向上させただけでなくスナップショットなど色々な機能を実装している(本家 Hadoop でもスナップショットなどの機能は最近実装されています)。
classmethod.jp 8
EMR with the MapR とは• http://aws.amazon.com/jp/elasticmapred
uce/mapr/• MapR を EMR 上で利用できるオプション。• Amazon の EMR を利用する場合に比べて追
加で利用料金がかかる。
classmethod.jp 9
classmethod.jp 10
MapR は追加料金がかかるけど、処理性能がよいなら
もしかして安くなる?
classmethod.jp 11
ということで検証してみました。
検証内容• Big Data Benchmark– https://amplab.cs.berkeley.edu/benchmark/
• EMR 上で m2.4xlarge を 5 台• EMR は以下の 2 つ– Amazon 2.4.2(Hadoop 1.0.3) latest–MapR M3 3.0.2
• テストケース– SequenceFile の Scale Factor5– a1, b1, c1 の 3 ケース
classmethod.jp 12
classmethod.jp 13
検証結果
a1 a2 a3
Amazon 125 720 767
MapR 28 279 246
※ 単位は秒数です
classmethod.jp 14
MapR はやい!!!( ゚д ゚ ) ポカーン
MapR の追加コスト• http://aws.amazon.com/jp/elasticmapred
uce/mapr/• 東京リージョンで今回利用した m2.4xlarge
(Quadruple Extra Large) の場合。– EC2 Price : $2.02 per hour–M3 Price : $0.42 per hour
• 今回の場合は 5 台たてたので、 Amazon と比べると 1 台分高いが処理時間は半分以下!つまり、サーバー台数を半分にできる!!
classmethod.jp 15
classmethod.jp 16
いちど MapR について試してはいかがでしょうか。
classmethod.jp 17
ご静聴ありがとうございましたm(_ _)m