はやわかりHadoop

152
ははははは Hadoop shot6

Transcript of はやわかりHadoop

Page 1: はやわかりHadoop

はやわかりHadoop

shot6

Page 2: はやわかりHadoop

Hadoop

Page 3: はやわかりHadoop

最近名前をよく聞く

Page 4: はやわかりHadoop

たまにいる

Page 5: はやわかりHadoop

「おお、あの新型 DBだろ?

早いの?」

Page 6: はやわかりHadoop

たまにいる

Page 7: はやわかりHadoop

「あのクラウドね。 SaaSだっけ?」

Page 8: はやわかりHadoop

「ああ、 Googleのあれでしょ?」

Page 9: はやわかりHadoop

おしい

Page 10: はやわかりHadoop

実態がよくわかってない人も多い

Page 11: はやわかりHadoop

NOPROBLEM

Page 12: はやわかりHadoop

何ら恥じることはない

Page 13: はやわかりHadoop

Hadoopとは

Page 14: はやわかりHadoop

並列分散処理基盤

Page 15: はやわかりHadoop

・・・

Page 16: はやわかりHadoop

バッチ基盤分析基盤

Page 17: はやわかりHadoop

なんとなくわかる

Page 18: はやわかりHadoop

巨大なデータ

Page 19: はやわかりHadoop

100GBのログ

Page 20: はやわかりHadoop

これを処理する

Page 21: はやわかりHadoop

並列に

Page 22: はやわかりHadoop

そして安価に

Page 23: はやわかりHadoop

サーバを追加

Page 24: はやわかりHadoop

=

Page 25: はやわかりHadoop

処理性能アップ

Page 26: はやわかりHadoop

でも最も重要な点

Page 27: はやわかりHadoop

生態系

Page 28: はやわかりHadoop
Page 29: はやわかりHadoop

エコシステム

Page 30: はやわかりHadoop

全体を俯瞰

Page 31: はやわかりHadoop

これ重要

Page 32: はやわかりHadoop

この LTの目的

Page 33: はやわかりHadoop

ディストリビューション

Page 34: はやわかりHadoop

そもそも3 つある

Page 35: はやわかりHadoop

Apache

Hadoop

Page 36: はやわかりHadoop

本家本元

Page 37: はやわかりHadoop

特徴

Page 38: はやわかりHadoop

リリースが慎重

Page 39: はやわかりHadoop

様々な要望

Page 40: はやわかりHadoop

色々な事情

Page 41: はやわかりHadoop

あるはず

Page 42: はやわかりHadoop

早く進化したい

Page 43: はやわかりHadoop

もっと機能追加したい

Page 44: はやわかりHadoop

あるはず

Page 45: はやわかりHadoop

OSSのジレンマ

Page 46: はやわかりHadoop
Page 47: はやわかりHadoop

でも

Page 48: はやわかりHadoop

互換性重視

Page 49: はやわかりHadoop

堅実な進化

Page 50: はやわかりHadoop

大人なOSS

Page 51: はやわかりHadoop

Cloudera

Hadoop

Page 52: はやわかりHadoop

米国Cloudera 社

Page 53: はやわかりHadoop
Page 54: はやわかりHadoop

特徴

Page 55: はやわかりHadoop

エンタープライズ向け?

Page 56: はやわかりHadoop

簡単

Page 57: はやわかりHadoop

yum/apt

Page 58: はやわかりHadoop

即インストール

Page 59: はやわかりHadoop

設定も楽ちん

Page 60: はやわかりHadoop

大量バグフィックス

Page 61: はやわかりHadoop

例えば

Page 62: はやわかりHadoop

hadoop-

0.20.1+169

Page 63: はやわかりHadoop

169個のバグフィックス

Page 64: はやわかりHadoop

Apache版に貢献済

Page 65: はやわかりHadoop

Cloudera

Desktop

Page 66: はやわかりHadoop

Hadoop の管理ツール

Page 67: はやわかりHadoop
Page 68: はやわかりHadoop
Page 69: はやわかりHadoop

超絶便利( まだ α)

Page 70: はやわかりHadoop

YahooHadoo

p

Page 71: はやわかりHadoop

Yahooで使用

Page 72: はやわかりHadoop

巨大クラスタでの実績

Page 73: はやわかりHadoop

品質向上に全力

Page 74: はやわかりHadoop

セキュリティなどの新機能

Page 75: はやわかりHadoop

勿論膨大なバグフィックス

Page 76: はやわかりHadoop

Apache版に貢献済

Page 77: はやわかりHadoop

Hadoopを支える

トライアングル

Page 78: はやわかりHadoop

Apache HadoopApache Hadoop

ClouderaHadoop

ClouderaHadoop

YahooHadoopYahoo

Hadoop

フィードバック

フィードバック

意見交換

Page 79: はやわかりHadoop

機能

Page 80: はやわかりHadoop

大量

Page 81: はやわかりHadoop

CoreCore

MapReduce

MapReduce HDFSHDFS Zoo

KeeperZoo

Keeper

HBaseHBasePigPig HiveHive Chukwa

Chukwa

ClouderaDesktopClouderaDesktop AvroAvro SqoopSqoop

Page 82: はやわかりHadoop

Core

Page 83: はやわかりHadoop

Hadoop の中核

Page 84: はやわかりHadoop

基本的な通信、IO、ファイルシステム、設定などなど

Page 85: はやわかりHadoop

HDFS

Page 86: はやわかりHadoop

HadoopDistribut

edFileSyste

m

Page 87: はやわかりHadoop

Hadoop分散ファイルシステム

Page 88: はやわかりHadoop

巨大ファイルをでかめのブロックに分割し、管理・保存

Page 89: はやわかりHadoop

ノード間は勝手にレプリケーションする

Page 90: はやわかりHadoop

Elasticさを持つファイルシステム

Page 91: はやわかりHadoop
Page 92: はやわかりHadoop

NameNodeは、ファイル名、ブロック、ノードの対応の管理

Page 93: はやわかりHadoop

DataNodeは、ブロックを管理

Page 94: はやわかりHadoop

HadoopMapReduc

e

Page 95: はやわかりHadoop

みんな大好きMapReduceプログラミング

Page 96: はやわかりHadoop

並列処理プログラミングモデルの一種

Page 97: はやわかりHadoop

Hadoopとプログラマの基本的な接点

Page 98: はやわかりHadoop

Map : ある観点でデータをまとめる。

Page 99: はやわかりHadoop

Reduce :ソート済みデータを集約・計算する

Page 100: はやわかりHadoop

仕組み

Page 101: はやわかりHadoop

ジョブトラッカーと

タスクトラッカー

Page 102: はやわかりHadoop

ジョブトラッカーと

タスクトラッカー

Page 103: はやわかりHadoop
Page 104: はやわかりHadoop

キモイ… .

Page 105: はやわかりHadoop

じゃなくて

Page 106: はやわかりHadoop

MapReduceジョブを適切なタスクに分解し管理

Page 107: はやわかりHadoop

ジョブトラッカーと

タスクトラッカー

Page 108: はやわかりHadoop

分解されたタスクを実行。

Page 109: はやわかりHadoop

Map/Reduceタスクは

子 JVM起動して実行。

Page 110: はやわかりHadoop

データがあるところで、タスクを起動。

Page 111: はやわかりHadoop

ここまでが基本中の基本

Page 112: はやわかりHadoop

こっからは

早足

Page 113: はやわかりHadoop

HBase

Page 114: はやわかりHadoop

Hadoop上に構築したDB

Page 115: はやわかりHadoop

BigTableクローン

Page 116: はやわかりHadoop

Hadoopが本来不得意な小口データを効率よく処理

Page 117: はやわかりHadoop

Hive/Pig

Page 118: はやわかりHadoop
Page 119: はやわかりHadoop

ちょw

Page 120: はやわかりHadoop

MapReduce を書くのがメンドイ

Page 121: はやわかりHadoop

そんな人のための簡易言語

Page 122: はやわかりHadoop

Pigのほうが独自っぽい

Page 123: はやわかりHadoop

PigはYahooが作成

Page 124: はやわかりHadoop

HiveはSQLっぽい

Page 125: はやわかりHadoop

HiveはFaceBookが作成

Page 126: はやわかりHadoop

ZooKeepe

r

Page 127: はやわかりHadoop

やあやあ

Page 128: はやわかりHadoop

ちょw

Page 129: はやわかりHadoop

分散協調サービス

Page 130: はやわかりHadoop

リソースやデータの調整役

Page 131: はやわかりHadoop

Chukwa

Page 132: はやわかりHadoop

データ収集システム

Page 133: はやわかりHadoop

小さな大量ログを

Hadoopで扱い易く

Page 134: はやわかりHadoop

使ってる人いない^^;?

Page 135: はやわかりHadoop

Avro

Page 136: はやわかりHadoop

シリアライズシステム

Page 137: はやわかりHadoop

非常に高速かつ柔

Page 138: はやわかりHadoop

ベンチマーク

Page 139: はやわかりHadoop
Page 140: はやわかりHadoop

爆速

Page 141: はやわかりHadoop

現状Hadoopに組み込まれていない

Page 142: はやわかりHadoop

今後 Avroベースになるはず

Page 143: はやわかりHadoop

要注目

Page 144: はやわかりHadoop

他にも

Page 145: はやわかりHadoop

Cascading

Page 146: はやわかりHadoop

まとめ

Page 147: はやわかりHadoop

Hadoop

Page 148: はやわかりHadoop

ひとつのミドルウェア

Page 149: はやわかりHadoop

ではなく

Page 150: はやわかりHadoop

複数ミドルウェアを支える

Page 151: はやわかりHadoop

プラットフォーム

Page 152: はやわかりHadoop

Have fun with

Hadoop family!