Mongodb 紹介 - [Download PDF]

MongoDB紹介

2012/5/18 matsumura

MongoDBってなんぞ - 多機能 but 発展途上 •  ドキュメント指向データベース

o  最新2.0.5 •  自動シャーディング

o  Read / Writeがスケールアウト

•  自動フェイルオーバー o  Master deadでも自動でフェイルオーバー

•  柔軟なクエリ o  SQLで可能なことはJOIN句以外一通りできる

•  スキーマレス o  データによって自由に持つものを決められる

他にも多機能

構成例

Web mongos

Mongod (config)

meta

Replica set

mongod

Replica set

mongod

data data

3processで最適化最小構成台数

３process

基本的なデータの持ち方

mongod

データベース etcr

データベース other

コレクション行動履歴コレクション XXマスタ

コレクション各種ログ

doc doc doc

doc

doc doc doc

mysqld

MySQLで例えると

データベース

テーブル

レコード

レプリカセット - MySQL同様

Mongod (Primary)

データベース etcr

コレクション行動履歴

docA docB docC

docD docE docF

データベース local

コレクション oplog

操作操作操作

Mongod(Secondary)

データベース etcr

コレクション行動履歴

docA docB docC

docD docE docF

データベース local

コレクション oplog

操作操作操作

Mongod(Secondary)

データベース etcr

コレクション行動履歴

docA docB docC

docD docE docF

データベース local

コレクション oplog

操作操作操作同期

再現再現

自動フェイルオーバー •  Primaryが死ぬ

•  Primaryが死んだことがreplica set内で共有 •  残ったノードで投票を行う •  ノードごとの優先度設定、最終同期時刻をもとに投票を行う

•  過半数より多くの票を集めたノードがPrimaryとなる

•  この間約20s ～ 60s

Mongod (Shard A)

自動シャーディング - phase1

データベース etcr

コレクション行動履歴

Mongod (Shard B) データベース etcr

コレクション行動履歴

Chunk ( –無限大〜無限大]

docA docB docC

デフォルト 200MB

Mongod (Shard A)

自動シャーディング - phase2

データベース etcr

コレクション行動履歴

Mongod (Shard B) データベース etcr

コレクション行動履歴

Chunk ( –無限大〜 D]

docA docB docC

Chunk ( D 〜無限大]

docD docE docF

Mongod (Shard A)

自動シャーディング - phase3

データベース etcr

コレクション行動履歴

Mongod (Shard B) データベース etcr

コレクション行動履歴

Chunk ( –無限大〜 D] docA docB docC

Chunk ( D 〜無限大]

docD docE docF

docC’ docC’’ docC’’’

Mongod (Shard A)

Chunk (C’ 〜 D]

自動シャーディング - phase4

データベース etcr

コレクション行動履歴

Mongod (Shard B) データベース etcr

コレクション行動履歴

Chunk ( –無限大〜 C’]

docA docB docC

Chunk ( D 〜無限大]

docD docE docF

docC’ docC’’ docC’’’

Mongod (Shard A)

Chunk (C’ 〜 D]

自動シャーディング - phase5

データベース etcr

コレクション行動履歴

Mongod (Shard B) データベース etcr

コレクション行動履歴

Chunk ( –無限大〜 C’]

docA docB docC

Chunk ( D 〜無限大]

docD docE docF

docC’ docC’’ docC’’’ 水平方向にスケールアウト

自動シャーディング - phase6

• Sharding Demo

スキーマレス

• Create table, Create column family 不要 o  Insertした時点で作られる o アプリ要件に合わせて柔軟に入れられる Item1 = {

_id: ObjectId('4b0552b0f0da7d1eb6f12xxx'), name: 秘薬, price: 100,

} Item2 = {

_id: ObjectId('4b0552b0f0da7d1eb6f12yyy'), name: 自分用秘薬,

}

柔軟なクエリ

• SQL文を持たない • Demo • ハッシュでO/Rマッパーのように指定する

o フロントjavascriptからクエリオブジェクトを送って、サーバーサイドでは検証後、即実行できる

クエリ周辺の話 (1)

• Index(B-Tree) o 配列やオブジェクトに対してもはれる

§ ただし、配列は1つ / indexに制限 o メモリに乗るようにintを使うと吉

// indexをつける db.test.ensureIndex({x:1, y:1, z:1}) ○ db.test.find({x:'a'}) ○ db.test.find({x:'a', y:'b'}) ○ db.test.find({x:'a', y:'b'}).sort({z:1}) // 順序が重要 × db.test.find({y:'b', x:'a'})

クエリ周辺の話(2)

• クエリオプティマイザ o MySQLのようなコストベースではない o 初回のクエリで複数クエリプランを同時実行 o 最も早かったクエリを利用 o データ量に応じて定期的に見直し o explain()

クエリ周辺の話(3)

• Capped コレクション o あらかじめサイズを決めたコレクション o 古いものから順次消えていく o 挿入順での検索で高速 o Shardingできない o 削除不能 o Create文を明示的に発行して作成

§ db.createCollection("mycoll", {capped:true, size:100000})

クエリ findの話 (1) • 検索条件は、bsonオブジェクトの先頭に寄せる

{ owner_id: 123, request: { type: '合成', params: {}}, process: {category: 'composit'}, memo: ['lv.0 -> lv.15'], concerned: [ {io: 'i', type: 'card', id: 100, object: '111', base: true}, {io: 'i', type: 'card', id: 201, object: '222'}, {io: 'o', type: 'card', id: 100, object: '111'}, ] })

1. db.activityHistoryDemo.find({owner_id: 123})

2. db.activityHistoryDemo.find({‘concerned.id’: ‘201’})

クエリ findの話 (2) •  bsonオブジェクト階層を細分化したほうが早い

{ owner_id: 123, request: { type: '合成', params: {}}, process: {category: 'composit'}, memo: ['lv.0 -> lv.15'], concerned: [ {io: 'i', type: 'card', id: 100, object: '111', base: true}, {io: 'i', type: 'card', id: 201, object: '222'}, {io: 'o', type: 'card', id: 100, object: '111'}, ] })

db.activityHistoryDemo.find({‘concerned.id’: ‘201’})

クエリ findの話 (3) • 条件の指定順序

o  And条件は結果の小さな条件から順次 §  補集合を無視するので。

o  Or条件は結果の大きな条件から順次 §  後続条件は補集合から検索するので。

○ db.sample.find({owner_id: 123, ‘concerned.type’: ‘card’})

× db.sample.find({‘concerned.type’: ‘card’, owner_id: 123})

○ db.sample.find({$or: [{‘concerned.type’: ‘card’}, {owner_id: 123}])

× db.sample.find({$or: [{owner_id: 123}, {‘concerned.type’: ‘card’}])

クエリ findの話 (4) •  DBRef

doc = { name: 'ryooo', card:[ {'$ref': 'card', '$id' : ObjectId('4b0552b0f0da7d1eb6f12xxx')}, ] } doc.card[0].fetch() // ←カードオブジェクトがとれる

@ruby db = Connection.new.db(”etcr ") user_card = db["user_card"].save({:name => ”ryooo”, :card_id => 123}) ref = DBRef.new(”card", user_card.card_id) db.dereference(ref) #=> カードオブジェクト

クエリ findの話 (5) • 検索条件に関数も使える(javascript)

• mongoサーバーサイドに関数を登録できる

// 極端な話、こんなクエリも書けちゃいます db.cards.find(function(){ row = db.user_summary.findOne({owner_id: this.owner_id}) return this._id == row.leader_card_id; })

// 関数を登録 db.system.js.save({_id:’name', value: function (){ //implementation }}); f = db.system.js.findOne({_id:’name'}) // 検索で利用(fはサーバー側で実行される) Db.cards.find(f)

Mongod (Shard A)

クエリ findの話 (6)

データベース etcr

コレクション行動履歴

Mongod (Shard B)

データベース etcr

コレクション行動履歴

Chunk

docA docB docC

Chunk

docD docE docF

Shard keyを利用したクエリ Shard keyを利用しないクエリ

targeted global

クエリ insert/updateの話 (1) •  fire and forget

o  発火即忘却 §  結果を確認せずreturnする §  結果を知りたければgetlasterrorオプションを指定

• 確実にcommitさせる o  データファイルにフラッシュさせる

§  fsync: true o  2台のメンバーに書き込みが完了するまで待機(timeout:5000)

§  db.getlasterror(2, 5000) §  db.getlasterror('majority')

クエリ insert/updateの話 (2) •  ID値

o  デフォルトでは、IDは自動で振られる o  ObjectId = BSON(

[4byte timestamp] + [3byte hash(hostname)] + [2byte pid] + [3byte inc])

// parseすれば時間やサーバーなどもわかる object_id = '4b0552b0f0da7d1eb6f12yyy’ createdDt = new Date(parseInt(object_id.substr(0, 8), 16) * 1000) #=> Thu Nov 19 2009 23:14:08 GMT+0900 (JST)