Hadoop HDFS: The Ultimate Storage

12
Hadoop HDFS The Ultimate Storage tagomoris 2013/05/20 Cassandra Casual #1 13520日月曜日

description

 

Transcript of Hadoop HDFS: The Ultimate Storage

Hadoop HDFSThe Ultimate Storage

tagomoris2013/05/20 Cassandra Casual #1

13年5月20日月曜日

Nodes

• NameNode (metadata)

• 1

• or 2 (NamenodeHA + 3 JournalNodes)

• DataNode (blocks)

• 3~ nodes

• Rack awareness

13年5月20日月曜日

Filesystem

• Metadata on Namenode JVM heap

• "OK, Namenode should have giant RAM"

• File with Blocks (default 64MB)

• Block level compression & parallel read

13年5月20日月曜日

Compression

• Gzip, Bzip2, ....

• By filename suffix!

• By HDFS specific container file feature

13年5月20日月曜日

Replication

• Block level replication

• Default 3 replicas

• Automatically replicated

13年5月20日月曜日

Rebalancing

• `start-balancer.sh`

13年5月20日月曜日

Protocol

• Java (DFSClient) Native Protocol

• Binary protocol

• Version sensitive

• All clients communicate with all nodes

13年5月20日月曜日

Protocol #2• WebHDFS (Hadoop v1.0~)

• HTTP

• Protocol version defined

• All clients communicate with all nodes

• HttpFs (Hadoop v2.0~)

• HTTP proxy server for DFSClient

• All clients communicate with a node

13年5月20日月曜日

Concurrency

• NONE

• Concurrent write(append) breaks file

13年5月20日月曜日

Performance

• HDFS is for sequencial access

• and for large (128MB or more) files

• HDFS is not for random access

• HBase is perfect software for you!

13年5月20日月曜日

Admin tools

• WebUI with poor CSS

• CLI `hdfs dfsadmin`

13年5月20日月曜日

Conclusion

• Use just for Hadoop batches

13年5月20日月曜日