TokyoWebminig カジュアルなHadoop
-
Upload
teruo-kawasaki -
Category
Technology
-
view
5.054 -
download
4
description
Transcript of TokyoWebminig カジュアルなHadoop
![Page 1: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/1.jpg)
[TokyoWebminig]
カジュアルなHadoop2013/03/23 @teruu
1
![Page 2: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/2.jpg)
「カジュアル」
• MongoDB
• Pentaho ETL
• QlikView
• ドットインストール
• クチコミ係長(テキストマイニングWebサービス)
ドットインストール Amazon Web Services入門 (全17回)http://dotinstall.com/lessons/basic_aws
クチコミ@係長 株式会社ホットリンクhttp://www.hottolink.co.jp/kakaricho
私の考えるカジュアルな製品・サービス
2
![Page 3: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/3.jpg)
「カジュアルなCRM」by 分析力をコアとする企業
3
![Page 4: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/4.jpg)
カジュアルなHadoop
• カジュアルという価値
• 初心者向け「鉄板プロセス」を提案できないか
Amazon EMR & Hive (WebHive)
4
![Page 5: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/5.jpg)
Hadoopサブプロジェクト(一部)Core
分散ファイルシステムと汎用的な I/O(シリアライズ,Java RPC,永続的データ構造)を提供するコンポーネントとインタフェースの集合
Avro高効率かつ多言語間 RPC のためのデータシリアライゼーションシステムと,永続的データストレージ
MapReduce分散データ処理モデルおよびコモディティマシンで構成される大規模クラスタ上の実行環境
HDFSコモディティマシンで構成される大規模クラスタ上の分散ファイルシステム
Pigデータフロー言語および超大規模データセットの調査実行環境.HDFS およびMapRe-duce クラスタ上で実行される
Hbase列指向の分散データベース.HBase は階層のストレージとしてHDFS を使用 h し,MapReduce を使ったバッチ型の演算処理と,一部を読み出すクエリ(ランダムリード)をともにサポートしている
ZooKeeper高可用性分散協調サービス.分散アプリケーションを構築するのに使われる分散ロックのような基礎的な機能要素を提供する
Hive分散データウェアハウス.HDFS に保管されたデータを管理し,SQL に基づくクエリ言語(実行時に MapReduce のジョブに変換される)を提供する
「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf
5
![Page 6: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/6.jpg)
参考
Hadoopファーストガイド
著者:佐々木達也
6
![Page 7: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/7.jpg)
Amazon ElasticMapReduce(EMR)アマゾン版Hadoop
• メリット
– 環境構築が不要
– 運用が不要
– 自動的に修正、バージョンアップ
• デメリット
– コスト(従量制)
– チューニングがしづらい
7
![Page 8: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/8.jpg)
Hive
• 特徴
– SQL(HiveQL)が利用できる
→ 利用ユーザ拡大
– 直接Mapper、Reducerも利用可能
8
![Page 9: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/9.jpg)
Amazon WebServices (AWS)&
Elastic MapReduce (EMR)
登録手順
9
![Page 10: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/10.jpg)
AWSのトップページにアクセス
10
![Page 11: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/11.jpg)
キャンペーンの紹介
11
![Page 12: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/12.jpg)
アカウント作成
12
![Page 13: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/13.jpg)
アカウント情報入力
13
![Page 14: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/14.jpg)
クレジットカード情報入力
14
![Page 15: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/15.jpg)
電話番号入力
15
![Page 16: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/16.jpg)
暗証番号
16
![Page 17: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/17.jpg)
電話がかかってくる
17
![Page 18: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/18.jpg)
認証中
18
![Page 19: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/19.jpg)
サービス一覧
19
![Page 20: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/20.jpg)
EMRの利用開始
20
![Page 21: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/21.jpg)
21
利用可能なサービス
![Page 22: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/22.jpg)
サービス一覧
22
![Page 23: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/23.jpg)
バケット(ディレクトリ)作成
23
![Page 24: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/24.jpg)
バケット作成
24
![Page 25: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/25.jpg)
バケット作成
25
![Page 26: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/26.jpg)
バケットの中にフォルダ作成
26
![Page 27: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/27.jpg)
EC2のインスタンスを起動
27
![Page 28: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/28.jpg)
イメージ選択→Amazon Linux AMI
28
![Page 29: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/29.jpg)
インスタンスタイプ選択→マイクロ
29
![Page 30: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/30.jpg)
インスタンスタイプ一覧
30
![Page 31: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/31.jpg)
インスタンス 追加オプション
31
![Page 32: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/32.jpg)
32
![Page 33: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/33.jpg)
タグ付
33
![Page 34: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/34.jpg)
キーペア作成
34
![Page 35: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/35.jpg)
ファイアウォール設定
35
![Page 36: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/36.jpg)
インスタンス起動
36
![Page 37: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/37.jpg)
インスタンス起動中
37
![Page 38: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/38.jpg)
インスタンス一覧
38
![Page 39: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/39.jpg)
TeraTermで接続(ssh)
39
![Page 40: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/40.jpg)
40
![Page 41: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/41.jpg)
ID入力+キー指定
41
![Page 42: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/42.jpg)
sshで接続
42
![Page 43: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/43.jpg)
パッケージをアップデート
43
![Page 44: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/44.jpg)
EMR JobFlow作成
44
![Page 45: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/45.jpg)
Job名入力、バージョン指定
45
![Page 46: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/46.jpg)
入出力場所の指定
46
![Page 47: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/47.jpg)
インスタンスタイプ指定
47
![Page 48: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/48.jpg)
その他のオプション指定
48
![Page 49: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/49.jpg)
Job作成
49
![Page 50: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/50.jpg)
ブートストラップアクション指定
50
![Page 51: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/51.jpg)
JobFlow作成完了
51
![Page 52: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/52.jpg)
しばらく待つ → 利用可能に
52
![Page 53: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/53.jpg)
Hiveについて
53
![Page 54: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/54.jpg)
Hiveとは
• 2008年にFaceBookで開発され、Hadoopプロジェクトに寄贈される。
• Yahoo!で開発しているPigのライバルプロジェクト?
• 一言で表すとHadoop上で動作するデータウエアハウス。
• HiveQLというSQLのような言語でHDFSなどの分散ファイルシステム上のデータを操作できる。
• HiveQLの実行でMap/Reduce処理が完了する。
• 私見だが複雑なデータのMapReduceから特定のデータを抽出したい場合には便利かも。
Hadoopをより便利に使う!HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用
54
![Page 55: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/55.jpg)
Hadoop & Hive の特徴
Hadoop & HiveDB
アプライアンス
RDB OLTP系
スループット
レイテンシー
高
高 低
低
55
![Page 56: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/56.jpg)
Hiveの設定
HiveQL構文(DDL)HiveQL構文(SQL)など、下記のブログ記事が参考になります
Hadoopをより便利に使う!HiveでのMapReduceまとめ - Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034
56
![Page 57: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/57.jpg)
Hiveのデータ型
Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析(前編) | Opentone Labs.http://labs.opentone.co.jp/?p=1860 より引用 57
![Page 58: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/58.jpg)
WebHiveについて
58
![Page 59: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/59.jpg)
WebHive (githubで公開)
59リクルート社が開発・公開
![Page 60: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/60.jpg)
WebHiveの画面
60
![Page 61: TokyoWebminig カジュアルなHadoop](https://reader036.fdocument.pub/reader036/viewer/2022081401/556613dad8b42a7d608b4839/html5/thumbnails/61.jpg)
発表のまとめ
• 初心者向け「鉄板プロセス?」として、EMR&Hive&WebHiveの組合わせをご紹介
• 「カジュアル」と言いながら、進めてみるとなかなか一筋縄ではいかないことが明らかに
• 一方で、課題解決のためのポイントがおぼろげながら見えてきた
61