はやわかりHadoop
-
Upload
shinpei-ohtani -
Category
Technology
-
view
6.873 -
download
4
Transcript of はやわかりHadoop
はやわかりHadoop
shot6
Hadoop
最近名前をよく聞く
たまにいる
「おお、あの新型 DBだろ?
早いの?」
たまにいる
「あのクラウドね。 SaaSだっけ?」
「ああ、 Googleのあれでしょ?」
おしい
実態がよくわかってない人も多い
NOPROBLEM
何ら恥じることはない
Hadoopとは
並列分散処理基盤
・・・
バッチ基盤分析基盤
なんとなくわかる
巨大なデータ
100GBのログ
これを処理する
並列に
そして安価に
サーバを追加
=
処理性能アップ
でも最も重要な点
生態系
エコシステム
全体を俯瞰
これ重要
この LTの目的
ディストリビューション
そもそも3 つある
Apache
Hadoop
本家本元
特徴
リリースが慎重
様々な要望
色々な事情
あるはず
早く進化したい
もっと機能追加したい
あるはず
OSSのジレンマ
でも
互換性重視
堅実な進化
大人なOSS
Cloudera
Hadoop
米国Cloudera 社
特徴
エンタープライズ向け?
簡単
yum/apt
即インストール
設定も楽ちん
大量バグフィックス
例えば
hadoop-
0.20.1+169
169個のバグフィックス
Apache版に貢献済
Cloudera
Desktop
Hadoop の管理ツール
超絶便利( まだ α)
YahooHadoo
p
Yahooで使用
巨大クラスタでの実績
品質向上に全力
セキュリティなどの新機能
勿論膨大なバグフィックス
Apache版に貢献済
Hadoopを支える
トライアングル
Apache HadoopApache Hadoop
ClouderaHadoop
ClouderaHadoop
YahooHadoopYahoo
Hadoop
フィードバック
フィードバック
意見交換
機能
大量
CoreCore
MapReduce
MapReduce HDFSHDFS Zoo
KeeperZoo
Keeper
HBaseHBasePigPig HiveHive Chukwa
Chukwa
ClouderaDesktopClouderaDesktop AvroAvro SqoopSqoop
Core
Hadoop の中核
基本的な通信、IO、ファイルシステム、設定などなど
HDFS
HadoopDistribut
edFileSyste
m
Hadoop分散ファイルシステム
巨大ファイルをでかめのブロックに分割し、管理・保存
ノード間は勝手にレプリケーションする
Elasticさを持つファイルシステム
NameNodeは、ファイル名、ブロック、ノードの対応の管理
DataNodeは、ブロックを管理
HadoopMapReduc
e
みんな大好きMapReduceプログラミング
並列処理プログラミングモデルの一種
Hadoopとプログラマの基本的な接点
Map : ある観点でデータをまとめる。
Reduce :ソート済みデータを集約・計算する
仕組み
ジョブトラッカーと
タスクトラッカー
ジョブトラッカーと
タスクトラッカー
キモイ… .
じゃなくて
MapReduceジョブを適切なタスクに分解し管理
ジョブトラッカーと
タスクトラッカー
分解されたタスクを実行。
Map/Reduceタスクは
子 JVM起動して実行。
データがあるところで、タスクを起動。
ここまでが基本中の基本
こっからは
早足
HBase
Hadoop上に構築したDB
BigTableクローン
Hadoopが本来不得意な小口データを効率よく処理
Hive/Pig
ちょw
MapReduce を書くのがメンドイ
そんな人のための簡易言語
Pigのほうが独自っぽい
PigはYahooが作成
HiveはSQLっぽい
HiveはFaceBookが作成
ZooKeepe
r
やあやあ
ちょw
分散協調サービス
リソースやデータの調整役
Chukwa
データ収集システム
小さな大量ログを
Hadoopで扱い易く
使ってる人いない^^;?
Avro
シリアライズシステム
非常に高速かつ柔
軟
ベンチマーク
爆速
現状Hadoopに組み込まれていない
今後 Avroベースになるはず
要注目
他にも
Cascading
まとめ
Hadoop
ひとつのミドルウェア
ではなく
複数ミドルウェアを支える
プラットフォーム
Have fun with
Hadoop family!