自発的継続囚人のジレンマにおける...

32
自発的継続囚人のジレンマにおける 協力的戦略の動学的安定性 鈴木 伸枝 駒澤大学経済学部 概要 自発的継続囚人のジレンマゲームにおいて,1 期間の信頼構築を伴う協力 戦略の動学的安定性を考察する.1 期間の信頼構築を伴う協力者・信頼構築 を伴わない協力者・パートナーシップを継続しない非協力者の 3 戦略間では, 殆どの場合に長期均衡では 1 期間の信頼構築を伴う協力者のみが存在する. また,非協力者がパートナーシップを継続しようとする場合にも,協力者の 中でもとりわけ裏切られたらパートナーシップを解消する戦略が進化し,1 期間の信頼構築を伴う協力均衡は維持される. キーワード:自発的継続,囚人のジレンマ,協力,ランダムマッチング,動 学,リプリケータ・ダイナミクス,アウト・フォー・タット JEL 分類: C 73 本稿執筆にあたり,東京大学経済学研究科の奥野(藤原)正寛先生および慶應義塾大学経済 学部のグレーヴァ香子先生から貴重なコメントをいただいた.ここに記して感謝したい. 55 〈論 説〉

Transcript of 自発的継続囚人のジレンマにおける...

自発的継続囚人のジレンマにおける

協力的戦略の動学的安定性∗

鈴木 伸枝

駒澤大学経済学部

概要

自発的継続囚人のジレンマゲームにおいて,1 期間の信頼構築を伴う協力

戦略の動学的安定性を考察する.1 期間の信頼構築を伴う協力者・信頼構築

を伴わない協力者・パートナーシップを継続しない非協力者の 3戦略間では,

殆どの場合に長期均衡では 1 期間の信頼構築を伴う協力者のみが存在する.

また,非協力者がパートナーシップを継続しようとする場合にも,協力者の

中でもとりわけ裏切られたらパートナーシップを解消する戦略が進化し,1

期間の信頼構築を伴う協力均衡は維持される.

キーワード:自発的継続,囚人のジレンマ,協力,ランダムマッチング,動

学,リプリケータ・ダイナミクス,アウト・フォー・タット

JEL 分類: C 73

∗ 本稿執筆にあたり,東京大学経済学研究科の奥野(藤原)正寛先生および慶應義塾大学経済学部のグレーヴァ香子先生から貴重なコメントをいただいた.ここに記して感謝したい.

55- -

〈〈〈〈論論論論 説説説説〉〉〉〉

1 はじめに

商取引や労使関係などの経済関係は,潜在的には長期に渡って繰り返される

が,どちらかが継続を拒否して短期間で終わる場合も多い.悪事を働いた者は

制裁を受ける前に逃げ,次のカモを探そうとする.裏切られた者は,制裁を加

えながら関係を継続するよりは,誠意ある別な相手とパートナーシップを組ん

で有意義な取引をしようを考える.このことは,長期的関係を考察するのによ

く用いられる通常の繰り返しゲームの仮定とは異なる.Axelrod (1997) は進

化ゲーム理論に基づくシミュレーションによって,固定的長期関係における協

力の維持には ティット・フォー・タット (tit-for-tat) が有効であることを示

唆した.しかし,裏切られて次期に報復しようとした時にはパートナーシップ

が既に解消されている場合には,ティット・フォー・タットは使えない.

Fujiwara-Greve & Okuno-Fujiwara (2006)や奥野・グレーヴァ・鈴木 (2007)

は,双方の合意に基づいてのみ関係が継続する自発的継続ゲームを定式化し,

段階ゲームが囚人のジレンマの場合にどのような戦略分布が進化的に安定で

あるかを考察した.その結果,単に初期から協力を始めて相手が非協力なら

逃げるという アウト・フォー・タット (out-for-tat) 戦略には非協力戦略が侵

入可能であるものの,一定期間信頼構築をしてから協力期間に入ってアウト・

フォー・タットをする 信頼構築戦略 ならば非協力者の侵入を防ぎうることを

示した.これらの論文は均衡の局所安定性のみに着目しているが,本稿では大

域的な動学の過程を明らかにする.

また,これまでの論文では,戦略のクラスを非協力戦略と信頼構築戦略に限

定していた.しかしながら,裏切られたときにパートナーシップを解消しない

「他人に甘い人」が存在する場合にも社会全体の協力が維持できるかどうかは

自明ではない.むしろ,Sethi & Somanathan (1996) に代表される(ティッ

ト・フォー・タットが非現実的な場合の)繰り返し囚人のジレンマの進化ゲー

ム理論的研究からは,協力的行動をとりつつも非協力者には制裁を加えない者

が増えると,非協力者が侵入可能となって協力状態が崩壊することがわかって

56

駒沢大学経済学論集 第 39 巻第 3号

- -

いる.本稿では,自発的継続囚人のジレンマにおいては,協力期間中の非協力

行動を黙認する戦略が現れたとしても,その期待利得が信頼構築戦略の期待利

得を上回ることはなく,協力状態が維持可能であることを示す.

2 VSRPDモデル

非常に大きな社会を考え,プレイヤーの集合は大きさ 1の連続体とする.時

間は離散時間 1, 2, . . . で続いていく.各プレイヤーは毎期末に 1 − δ の確率

(0 < δ < 1)で外生的な理由によりモデルから退出する.(これを「死ぬ」 と

表現する.)1 人のプレイヤーが死ぬと,新しいプレイヤーが社会に入り,プ

レイヤー全体の集合の大きさは不変である.新しく社会に入ったプレイヤーは

「マッチング・プール」に入り,そこでランダムにもう 1人のプレイヤーと出会

い,次段落以降で記述する 自発的継続囚人のジレンマ (Voluntarily Separable

Repeated Prisoner’s Dilemma;以下 VSRPD と略す)をプレイする.

マッチしたペアは,まず通常の囚人のジレンマ(表 1参照)を行い,同時手

番で協力(アクション C)または非協力(アクション D)を選択する.この結

果はパートナーシップ内ではお互いに観察可能である.次に,その観察に基づ

いて,同じパートナーと次の期もゲームを継続する(アクション k)か別れる

か(アクション e)を同時手番で決める.1人でも e をとった場合,両者とも

(死ななければ)次期にマッチング・プールに行く.また,2人とも k をとっ

た場合は,2人とも期末に死ななければ,次期も同じ 2人で囚人のジレンマを

プレイする.2 人とも k をとっても,パートナーに死なれた場合,生き残った

方は次期はマッチング・プールで相手を探すことになる.

各期の利得は囚人のジレンマでの行動の組だけで決まり,表 1で表されると

する.ここで,g > c > d > � および 2c > g + � を仮定する∗1.各プレイヤー

から見ると,ゲームは確率 δ で常に次期へと続く.そこで,時間選好は考え

∗1 2c > g + � の仮定は,対称な行動の組 (C, C) の利得が実現可能な利得の組の中で最も効率的であることを意味している.

57

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

P1 \ P2 C D

C c, c �, g

D g, � d, d

表 1: 囚人のジレンマ

ず,この δ によって割り引かれる期待総利得を平均生存期間 11−δ で除した 1

期あたりの期待利得に着目する.

各プレイヤーは,パートナーシップ内での自分と相手の行動を観察できる

が,マッチング・プールで新しく出会った相手の過去の行動は全く観察不可能

とする.このため,プレイヤーのとりうる戦略は,現在のパートナーシップで

の行動にのみ依存するものとなる.その中から,本稿では以下で定義される非

協力戦略 d,T 期信頼構築戦略 cT およびその亜系の cT の 3クラスに属する

戦略を考える.

• d 戦略: D をプレイし,e を選ぶ;

• cT 戦略:

(i) t ≤ T ならば,D をプレイし,今期 (D,D)を観察したら,またその

ときのみ k を選ぶ;

(ii) t > T ならば,C をプレイし,今期 (C, C)を観察したら,またその

ときのみ k を選ぶ;

• cT 戦略:

(i) t ≤ T ならば,D をプレイし,今期何を観察しても k を選ぶ;

(ii) t > T ならば,C をプレイし,今期何を観察しても k を選ぶ.

本稿での分析の中心となる c1 戦略は,マッチして最初の期だけ D をとり,

(D, D) が観察されれば「話のわかる相手」とみなして k をとり,2期目から協

力期間に入ろうとするものである.2期目以降に相手が 1度でも D をとれば

パートナーシップを解消してマッチング・プールで新しい相手を探す.c1 戦

58

駒沢大学経済学論集 第 39 巻第 3号

- -

略は,c1 戦略と同様に 2期目から協力期間に入るが,相手が自分の期待通りに

プレイしていなくても k をとり続ける∗2.c0 は信頼構築期間を設けずにマッ

チしてすぐ協力期間に入り,相手が D をとればすぐパートナーシップを解消

するもので,無限回繰り返し囚人のジレンマでお馴染みのティット・フォー・

タットに対比してアウト・フォー・タットともいえる戦略である.d は典型的

な非協力戦略である.また,c∞ や c∞ はいくらパートナーシップが続いても

協力期間に入らないので,これらも事実上は一種の非協力戦略とみなすことが

できる.

戦略 s にとっての戦略 s′ とのマッチから期待される利得の割引価値を

V (s, s′),そのマッチの期待継続期間を L(s, s′) で表す.戦略の集合を S,戦

略分布を p とすると,戦略 s ∈ S の 1期あたりの期待利得 v(s; p) は

v(s; p) =∑

s′∈S p(s′)V (s, s′)∑

s′∈S p(s′)L(s, s′)(1)

である.

3 VSRPDの動学

本稿では VSRPD における戦略の動学的な進化を考える.各プレイヤーが

先読みで意図的に戦略を選択するのではなく,学習や遺伝を通じて全体の平均

利得よりも期待利得の高い戦略の割合が時間を通じて増えていくと仮定する.

すなわち,全体の平均利得を

v =∑

s′∈S

p(s′)v(s′; p) (2)

としたとき,戦略 s の割合 p(s) は

p(s) ≷ p(s)(v(s; p) − v) iff p(s)(v(s; p) − v) ≷ 0, (3)

∗2「C をとるはずが間違って D をとってしまった」「次期から協力期間に入るつもりだった」と言われて再交渉に応じる人もいるかもしれない.cT 戦略で想定しているのはその極端なケースで,常に何度でも繰り返し再交渉に応じる人である.

59

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

を満たす動学過程に従い変化すると考える.

上記の (3)式を満たす動学過程は無数に存在する.本節では動学を一意に定

めずに一般的な考察したうえで,補論においてリプリケータ・ダイナミクス

(replicator dynamics)を用いた具体例を示す.

3.1 c1, c0, d の 3戦略の場合

Fujiwara-Greve & Okuno-Fujiwara (2006)や奥野・グレーヴァ・鈴木 (2007)

は,戦略のクラスを d および cT に限定し cT 戦略は含めずに,ナッシュ均衡

や侵入不可能な分布 (Newtrally Stable Distribution; NSD) を分析した.そ

の結果,信頼構築なしで協力を始める c0 戦略はそれ自身に対する最適反応

(best response) ではなく非協力戦略の d や他の信頼構築戦略 cT が侵入可能

であるが,協力の便益が十分に大きくパラメータの値が

δ2(c − d) > (g − c) (4)

を満たす場合には,1期の信頼構築期間を設けた上で協力を開始する c1 戦略

が単一戦略均衡 (monomorphic NSD) であることが示された.本稿でもまず

最初は cT 戦略を考えずに,c0, c1, d の 3戦略の分布が c1 のみの単一戦略均衡

に到る過程を動学的に示す.

戦略の集合を S = {c1, c0, d} とする.このとき

p(c1) = 1 − p(c0) − p(d)

であり,3 戦略の分布は (p(c0), p(d)) の 2 次元で表現することができる.c1

戦略は,c0 戦略とマッチした場合には,第 1期の利得が d で次期以降どちら

かが死ぬまでの δ2

1−δ2 期間の利得は c である.c0 戦略とマッチした場合には

g を得て e をとり 1期で別れ,d 戦略とマッチした場合には d を得て 1期で

相手が e をとり別れる.したがって,c1 戦略の期待利得は以下で表されるも

60

駒沢大学経済学論集 第 39 巻第 3号

- -

のとなる.

v(c1; p) =

s=c1,c0,d

p(s)V (c1, s)

s=c1,c0,d

p(s)L(c1, s)

=p(c1)(d + δ2c

1−δ2 ) + p(c0)g + p(d)d

p(c1) 11−δ2 + p(c0) + p(d)

=p(c1)((1 − δ2)d + δ2c) + p(c0)(1 − δ2)g + p(d)(1 − δ2)d

p(c1) + p(c0)(1 − δ2) + p(d)(1 − δ2)

=(1 − p(c0) − p(d))δ2c + (1 − p(c0))(1 − δ2)d + p(c0)(1 − δ2)g

1 − (p(c0) + p(d))δ2

(5)

c0 戦略は,c1 や d とマッチすれば � を得て 1期で別れ,c0 とマッチすれば

どちらかが死ぬまでの 11−δ2 期間ずっと c を得る.したがって,c0 戦略の期

待利得は以下のようになる.

v(c0; p) =

s=c1,c0,d

p(s)V (c0, s)

s=c1,c0,d

p(s)L(c0, s)

=(1 − p(c0))� + p(c0) c

1−δ2

(1 − p(c0)) + p(c0) 11−δ2

=(1 − p(c0))(1 − δ2)� + p(c0)c(1 − p(c0))(1 − δ2) + p(c0)

(6)

d 戦略は,c1 や d とマッチすれば d を得て 1期で別れる.また,c0 とマッチ

すれば g を得て 1期で別れる.したがって,d 戦略の期待利得は以下のように

61

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

なる.

v(d; p) =

s=c1,c0,d

p(s)V (d, s)

s=c1,c0,d

p(s)L(d, s)

=p(c1)d + p(c0)g + p(d)d

p(c1) + p(c0) + p(d)= (1 − p(c0))d + p(c0)g

(7)

各戦略の期待利得を比較する.まず,c1 と d に関しては,x∗ = c−dg−d とす

るとv(c1; p) ≷ v(d; p) iff p(c0) ≶ x∗

である.c0 が少なければ協力期間に c を得られる c1 は d よりも利得が高い

が,c0 が多くなれば c1 出合ったときにパートナーシップを継続して c を得る

よりも別れてマッチング・プールで c0 に会って g を得るほうが有利となる.

次に,c0 と d の期待利得を比較すると

θ = [(c − d) + (1 − δ2)((d − �) − (g − d))]2 − 4δ2(1 − δ2)(g − d)(d − �)

の符号によって場合分けされる.θ < 0 の場合には常に v(c0; p) < v(d; p) で

ある.他方,θ > 0 の場合には v(c0; p) = v(d; p) となる p(c0) が 2つ存在す

る.そのような 2つの p(c0) の値のうち,小さいものを xA,大きいものを xB

とおく.このとき,xA < p(c0) < xB においては v(c0; p) > v(d; p) となり,

p(c0) < xA および p(c0) > xB においては v(c0; p) < v(d; p) となる∗3.

∗3 xA および xB の値を明示的に表すと

xA =(c − d) + (1 − δ2)((d − �) − (g − d)) −√

θ

2δ2(g − d)

xB =(c − d) + (1 − δ2)((d − �) − (g − d)) +

√θ

2δ2(g − d)

である.

62

駒沢大学経済学論集 第 39 巻第 3号

- -

�p(c0)1

�p(d)1

0 x∗��

(i) θ < 0 の場合

�p(c0)1

�p(d)1

0 x∗xA xB

B

A

(ii) θ > 0 の場合

図 1: c1, c0, dの位相図

最後に c1 と c0 の期待利得を比較する.θ < 0 の場合には常に v(c1; p) >

v(c0; p) である.θ > 0 の場合には,xA < p(c0) < xB において p(d) が十分

に多いときのみ v(c1; p) < v(c0; p) となる.図 1-(ii) の点 A と点 B を結ぶ

点線の右上の領域では v(c1; p) < v(c0; p) で,点線 AB の原点側の領域では

v(c1; p) > v(c0; p) である.

以上を総合すると,c1, c0, d の 3 戦略の動学の位相図は図 1 のようにな

る.まず,θ の符号にかかわらず,c1 のみからなる信頼構築を伴う協力均

衡 (p(c0), p(d)) = (0, 0) は漸近安定 (asymptotically stable) である.また,

c0 のみからなる信頼構築なしの協力状態 (p(c0), p(d)) = (1, 0) は不安定

で,d のみからなる非協力状態 (p(c0), p(d)) = (0, 1) は鞍点 (saddle point)

となっている.これらに加えて,θ > 0 の場合には,図 1-(ii) の点 A が

不安定で,点 B には左上方向の限られた領域からのみ収束する.点 A は

(p(c0), p(d)) = (xA, 1 − xA),点 B は (p(c0), p(d)) = (xB , 1 − xB) で,いず

れも非協力の d と信頼構築なしで初期から協力を始める c0 が混在している.

(p(c0), p(d)) = (0, 1) や (p(c0), p(d)) = (xB , 1 − xB) が鞍点やそれに類す

63

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

る性質をもつ静止点であることから,短期的には d ばかりの非協力状態や d

と c0 による非協力・協力混在状態に向う動きを見せる可能性はある.しかし,

殆どの場合に長期的には c1 が台頭し,1期間の信頼構築を伴う協力均衡が達

成される∗4.単なるアウト・フォー・タットの c0 戦略はパートナーシップを

解消する前に 1期間搾取されてしまうが,c1 戦略は 1期間信頼構築してから

協力を開始することで d に搾取されずに協力の便益を得ることができる.ま

た,信頼構築期間の設定はアウトサイド・オプションを低下させ,非協力者の

利得を相対的に低下させることにも役立つ.

3.2 c1, c1, d の 3戦略の場合

非協力者のいない平和な社会が続けば,相手をよく見極めずに信頼したり,

協力期間に D をとられても「今のは間違いだった」と言われると許してしま

うお人好しが増えるかもしれない.c1 戦略と同じように 1期目の信頼構築期

間で D をとり,2期目以降の協力期間で C をとるものの,相手が何をしても

e を選ばない c1 戦略がこの例である.c1 は c1 と対戦している限りは c1 と見

分けがつかない.1期信頼構築戦略のみからなる単一戦略均衡のはずが,気付

かない間に c1 戦略の多くが c1 戦略に転じている可能性もある.そのような

「他人に甘い人の多い協力状態」に,非協力者が侵入して協力が崩壊すること

はないのだろうか.ここでは,c1, c1, d の 3戦略の動学を考察する.

戦略の集合を S = {c1, c1, d} とする.このとき

p(c1) = 1 − p(c1) − p(d)

であり,3 戦略の分布は (p(c1), p(d)) の 2 次元で表現することができる.c1

や c1 が,c1 もしくは c1 にマッチした場合には 1期間信頼構築をした上で協

力を開始し,どちらかが死ぬまでの平均 11−δ2 期間パートナーシップは存続す

る.c1 や c1 が d とマッチした場合には,d が e を選択するため 1期間でパー

∗4 θ > 0 の場合の点 B の収束領域 (basin of attraction)の大きさに関しては,補論でリプリケータ・ダイナミクスを用いた数値例によって考察する.

64

駒沢大学経済学論集 第 39 巻第 3号

- -

トナーシップは終わる.したがって,c1 および c1 の期待利得は

v(c1; p) = v(c1; p) =

s=c1,c1,d

p(s)V (c1, s)

s=c1,c1,d

p(s)L(c1, s)

=(1 − p(d))(d + δ2c

1−δ2 ) + p(d)d

(1 − p(d)) 11−δ2 + p(d)

=(1 − p(d))((1 − δ2)d + δ2c) + p(d)(1 − δ2)d

(1 − p(d)) + p(d)(1 − δ2)

=(1 − p(d))δ2c + (1 − δ2)d

1 − p(d)δ2

(8)

である.他方,d は誰に会っても 1 期間でパートナーシップを終わらせるの

で,期待利得は

v(d; p) =

s=c1,c1,d

p(s)V (d, s)

s=c1,c1,d

p(s)L(d, s)

=(1 − p(d))d + p(d) d

1−δ2

(1 − p(d)) + p(d) 11−δ2

= d

(9)

である.

c > d の仮定より,0 ≤ p(d) ≤ 1 において常に v(c1; p) = v(c1; p) ≥ v(d; p)

であり,p(d) < 1 においては v(c1; p) = v(c1; p) > v(d; p) が成立する.よっ

て,図 2 に示すように,VSRPD における c1, c1, d の 3 戦略の動学では,c1

と c1 のみからなる協力均衡

(p(c1), p(d)) = (α, 0), 0 ≤ α ≤ 1 (10)

が安定集合となる.また,d戦略のみからなる非協力状態 (p(c1), p(d)) = (0, 1)

は,不安定である.

65

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

�p(c1)1

�p(d)1

0

� �

図 2: c1, c1, dの位相図

d は c1 とマッチしても c1 とマッチしても,第 1期に e を選びパートナー

シップを解消する.c1, c1, d の 3 戦略はいずれも第 1 期には D をとってい

るから,c1 と c1 が d とのマッチから受け取る利得(それぞれ V (c1, d) と

V (c1, d))は共に d であり,d にとっても c1 と c1 のどちらとマッチしても利

得(それぞれ V (d, c1) と V (d, c1))は共に d である.したがって,この 3戦

略の場合には c1 と c1 の差異は問題にならない.非協力者がパートナーシッ

プを 1期で打ち切る限り,1期の信頼構築期間をおくことは非協力者からの搾

取に対する有効な障壁となり,「他人に甘い人」が増えても協力的な状態は崩

れないことがわかる.

3.3 c1, c1, c∞ の 3戦略の場合

非協力者が 1 期でパートナーシップを解消しない場合,1 期の信頼構築期

間つきの協力戦略 c1, c1 により協力を維持することは可能だろうか.パート

ナーシップを 2期以上続ける可能性のある非協力戦略としては c∞ や c∞ が挙

66

駒沢大学経済学論集 第 39 巻第 3号

- -

げられる.この副節 3.3 ではまず d のかわりに c∞ が入った場合の動学を考

え,c∞ の場合については次の副節 3.4で考える.自らは非協力を続けるくせ

に,信頼構築期間で相手が D をプレイしなければパートナーシップを解消す

る c∞ 戦略というのは,奇妙に思えるかもしれない.非協力者にとっては相手

が C をプレイしてくれるほうが利得は大きいのである.しかし,c∞ 戦略は

相手の協力期間が始まったら 1期だけ g を得て逃げてしまう戦略とも解釈で

きる∗5.ここでの分析は,そのような 1期裏切ってすぐに逃げる戦略に対する

c1 や c1 の耐性を確認するためのものである.

戦略の集合を S = {c1, c1, c∞} とする.このとき

p(c1) = 1 − p(c1) − p(c∞)

であり,3戦略の分布は (p(c1), p(c∞)) の 2次元で表現することができる.各

戦略の期待利得を求めると

v(c1; p) = v(c1, p) =

s=c1,c1,c∞

p(s)V (c1, s)

s=c1,c1,c∞

p(s)L(c1, s)

=(1 − p(c∞))(d + δ2c

1−δ2 ) + p(c∞)(d + δ2�)

(1 − p(c∞)) 11−δ2 + p(c∞)(1 + δ2)

=(1 − p(c∞))((1 − δ2)d + δ2c) + p(c∞)(1 − δ2)(d + δ2�)

(1 − p(c∞)) + p(c∞)(1 − δ4)

=(1 − p(c∞))δ2c + (1 − δ2)d + p(c∞)(1 − δ2)δ2�

1 − p(c∞)δ4

(11)

∗5 本稿では,cT 戦略の裏をかいて「囚人のジレンマでは常に D をとり,継続の意思決定においては第 T 期までは k を選択し第 T + 1 期で e を選択する」といった類の複雑な戦略は定義していない.しかし,「囚人のジレンマでは常に D をとり,継続の意思決定においては第 1期には k を選択し第 2期に e を選択する」という戦略を考えるとすれば,それはc1 および c1 に対しては,ここで考察する c∞ と全く同じように作用する.

67

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

�p(c1)1

�p(c∞)

1

0

� �

y∗

図 3: c1, c1, c∞ の位相図

および

v(c∞; p) =

s=c1,c1,c∞

p(s)V (c∞, s)

s=c1,c1,c∞

p(s)L(c∞, s)

=(1 − p(c∞))(d + δ2g) + p(c∞) d

1−δ2

(1 − p(c∞))(1 + δ2) + p(c∞) 11−δ2

=(1 − p(c∞))(1 − δ2)(d + δ2g) + p(c∞)d

(1 − p(c∞))(1 − δ4) + p(c∞)

=(1 − δ2 + δ2p(c∞))d + (1 − p(c∞))(1 − δ2)δ2g

1 − δ4 + p(c∞)δ4

(12)

である.

図 3に示すように,VSRPD における c1, c1, c∞ の 3戦略の動学には(協力

の便益が裏切りの便益に比べて十分大きければ)2種類の安定的な状態がある.

まず,d > � の仮定より,p(c∞) = 1 においては v(c1; p) = v(c1; p) < v(c∞; p)

が成立する.よって,c∞ 戦略のみからなる非協力均衡 (p(c1), p(c∞)) = (0, 1)

68

駒沢大学経済学論集 第 39 巻第 3号

- -

は漸近安定である.また,(4)式が満たされる場合には,p(c∞) = 0 において

v(c1; p) = v(c1; p) > v(c∞; p) が成立し,c1 と c1 のみからなる協力均衡

(p(c1), p(c∞)) = (α, 0), 0 ≤ α ≤ 1 (13)

も安定集合となる.このとき,v(c1; p) = v(c1; p) = v(c∞; p) となるような

p(c∞) = y∗ が存在し,

(p(c1), p(c∞)) = (α, y∗), 0 ≤ α ≤ 1 − y∗

は協力者と非協力者が混在する不安定集合である∗6.

非協力戦略が 1 期でパートナーシップを解消する d ではなく相手の戦略次

第では何期も継続する c∞ の場合には,2期目から協力を始める c1 と c1 は共

に第 1期に損失を被る.しかし,c∞ は c1 や c1 と会うと第 2期に自らの期待

する (D,D) ではなく (D, C) を観察してパートナーシップを解消する.した

がって,第 2期に c∞ に裏切られると逃げる c1 のみならず,許してしまう c1

も c∞ に継続的に搾取されることはない.ここでも,非協力者が d の場合と

同様に,c1 と c1 の差異は問題にならないことがわかる.非協力者が c∞ の場

合には,初期に c∞ が十分に多ければ社会は非協力状態に到達し,c1 や c1 が

十分に多ければ協力状態が実現する.

3.4 c1, c1, c∞ の 3戦略の場合

ここでは,非協力者が相手のプレイにかかわらず常にパートナーシップの

継続を希望する c∞ の場合を考える.c∞ はこれまで考えてきた非協力戦略

∗6 明示的に y∗ を求めると以下の通りである.

y∗ =θ1 +

√θ2

2δ4((c − d) + (1 − δ2)(g − �))

θ1 = −(1 − 2δ4)c − (1 − (1 − δ2)2δ2)d + (1 − δ2)(1 − δ4)� + (1 − δ2)(1 + δ4)g

θ2 = θ21 − 4δ4(1 − δ2)((c − d) + (1 − δ2)(g − �))((g − c) − (c − d)δ2)

69

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

とは異なり,相手が k をとる限りはパートナーシップが継続する.c∞ は c1

とマッチしても 1期間しか搾取できないが,c1 のような他人に甘い協力者と

マッチした場合には長期間に渡って搾取を続けることができる.次節で紹介

する PDCSゲームの先行研究においては,他人に甘い協力者が増えると非協

力者の侵入が可能となり,長期的には協力が崩壊することが示唆されている.

VSRPDにおいても c1 戦略が増加して c∞ 戦略の侵入を招き,協力が崩壊す

るのであろうか.それとも VSRPD においては c1 戦略が生き残って協力の存

続が可能となるのであろうか.

戦略の集合を S = {c1, c1, c∞} とする.このとき

p(c1) = 1 − p(c1) − p(c∞)

であり,3戦略の分布は (p(c1), p(c∞)) の 2次元で表現することができる.各

戦略の期待利得を求める.まず,c1 は c1 や c1 とマッチすれば 1期間の信頼

構築をしたうえで 2期目から協力期間に入り,パートナーシップの期待継続期

間は 11−δ2 である.c1 が c∞ とマッチした場合には第 2 期に (C, D) を観察

して e をとるので,パートナーシップの期待継続期間は 1 + δ2 となる.した

がって,c1 の期待利得は

v(c1; p) =

s=c1,c1,c∞

p(s)V (c1, s)

s=c1,c1,c∞

p(s)L(c1, s)

=(1 − p(c∞))(d + δ2c

1−δ2 ) + p(c∞)(d + δ2�)

(1 − p(c∞)) 11−δ2 + p(c∞)(1 + δ2)

=(1 − p(c∞))((1 − δ2)d + δ2c) + p(c∞)(1 − δ2)(d + δ2�)

(1 − p(c∞)) + p(c∞)(1 − δ4)

=(1 − p(c∞))δ2c + (1 − δ2)d + p(c∞)(1 − δ2)δ2�

1 − p(c∞)δ4

(14)

である.c1 は c1 や c1 とマッチすれば 1期間の信頼構築をしたうえで 2期目

から協力期間に入り,パートナーシップの期待継続期間は 11−δ2 である.c1 が

70

駒沢大学経済学論集 第 39 巻第 3号

- -

c∞ とマッチした場合には第 2期以降の囚人のジレンマでは (C, D) となるが,

c1 と違って c1 は k をとり続けるので,パートナーシップの期待継続期間は1

1−δ2 となる.したがって,c1 の期待利得は

v(c1; p) =

s=c1,c1,c∞

p(s)V (c1, s)

s=c1,c1,c∞

p(s)L(c1, s)

=(1 − p(c∞))(d + δ2c

1−δ2 ) + p(c∞)(d + δ2�1−δ2 )

11−δ2

= (1 − p(c∞))((1 − δ2)d + δ2c) + p(c∞)((1 − δ2)d + δ2�)

= (1 − p(c∞))δ2c + (1 − δ2)d + p(c∞)δ2�

(15)

である.c∞ のパートナーシップの期待継続期間は,c1 とマッチした場合には

1 + δ2 で c1 や c∞ とマッチした場合には 11−δ2 となる.したがって,c∞ の

期待利得は

v(c∞; p) =

s=c1,c1,c∞

p(s)V (c∞, s)

s=c1,c1,c∞

p(s)L(c∞, s)

=p(c1)(d + δ2g) + p(c1)(d + δ2g

1−δ2 ) + p(c∞) d1−δ2

p(c1)(1 + δ2) + (p(c1) + p(c∞)) 11−δ2

=p(c1)(1 − δ2)(d + δ2g) + p(c1)((1 − δ2)d + δ2g) + p(c∞)d

p(c1)(1 − δ4) + (p(c1) + p(c∞))

=p(c∞) + (1 − p(c∞))(1 − δ2)1 − δ4 + (p(c1) + p(c∞))δ4

d

+p(c1) + (1 − p(c1) − p(c∞))(1 − δ2)

1 − δ4 + (p(c1) + p(c∞))δ4δ2g

(16)

である.

c1 と c1 の期待利得を比較すると,常に v(c1; p) ≥ v(c1; p)であり,p(c∞) > 0

においては,v(c1; p) > v(c1; p) (17)

71

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

�p(c1)1

�p(c∞)

1

0

y∗A

y∗B

x∗∗

��

図 4: c1, c1, c∞ の位相図

が成立する.つまり,c1 は c∞ に永続的に搾取されるため c1 よりも弱い戦略

である.p(c∞) = 0 においては v(c1; p) = v(c1; p) である.p(c∞) = 0 のとき

の c1, c1 と c∞ の期待利得を比較すると,

x∗∗ =(1 − δ4)c − δ2(1 − δ2)d − (1 − δ2)g

δ2(g − d) − δ4(c − d)(18)

に対して,

v(c1; p) = v(c1; p) ≷ v(c∞; p) iff p(c1) ≶ x∗∗ (19)

であり,c1 が十分に少なければ c1-c1 の協力状態に c∞ は侵入できないことが

わかる.

p(c∞) ≥ 0 全般における c1 や c1 と c∞ の期待利得を比較する.c1 と c∞に関しては,図 4 の y∗A と x∗∗ を結ぶ点線の原点側では v(c1; p) > v(c∞)

72

駒沢大学経済学論集 第 39 巻第 3号

- -

で,外側では v(c1; p) < v(c∞) である∗7.また,c1 と c∞ に関しては,図

4 の y∗B と x∗∗ を結ぶ点線の原点側では v(c1; p) > v(c∞) で,外側では

v(c1; p) < v(c∞) である∗8.

図 4 に示すように,VSRPD における c1, c1, c∞ の 3 戦略の動学には(協

力の便益が裏切りの便益に比べて十分大きければ)2種類の安定的な状態があ

る.まず,c∞ のみからなる非協力均衡 (p(c1), p(c∞)) = (0, 1) は漸近安定で

ある.また,c1 と c∞ からなる信頼構築を伴う協力状態

(p(c1), p(c∞)) = (α, 0), 0 ≤ α ≤ x∗∗ (20)

も安定集合である.他人に甘い c1 が多ければ c∞ の侵入を誘発するが,c1 が

十分に多ければ協力状態を維持できる.ドリフト (drift)により c1 が多少増え

ても,c∞ の侵入により c1 が減少し,協力者に占める c1 の割合を回復できる

ため,c1-c1 の協力状態はある種の堅牢性を備えていることがわかる.これら

の安定的な状態に加えて,(p(c1), p(c∞)) = (0, y∗A) が鞍点となっている.c1

のみからなる (p(c1), p(c∞)) = (1, 0) は不安定点である.

この節では,「1期信頼構築期間を経てから協力期間に入り,協力期間中は相

手が裏切ればパートナーシップを解消する」という c1 戦略によって協力状態

が達成・存続できるかどうかを検討した.各副節での 3戦略間の動学の分析結

∗7 y∗A を明示的に求めると以下の通りである.

y∗A =−θA1 +

√θA2

2δ4(c − d + (1 − δ)(g − �))

θA1 = (1 − 2δ4)c + (1 − 2δ2 + 2δ4)d − (1 − δ2)((1 + δ4)g + (1 − δ4)�)

θA2 = θ2A1 + 4(1 − δ2)δ4(c − d + (1 − δ)(g − �))(c + δ(c − d) − g)

∗8 y∗B を明示的に求めると以下の通りである.

y∗B =−θB1 +

√θB2

2δ4(c − �)

θB1 = (1 − 2δ4)c + (1 − δ2 + δ4)d − (1 − δ4)� − (1 − δ2)g

θB2 = θ2B1 + 4(1 − δ2)δ4(c + δ(c − d) − g)(c − �)

73

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

果は次の通りである.

(3.1) c1,初期から協力する c0,非協力かつパートナーシップを継続しない d

の 3戦略間では,c1 のみからなる協力状態が唯一の漸近安定点であり,

圧倒的に広い収束領域をもつ.

(3.2) c1,相手が協力期間中に D をとってもパートナーシップを解消しない

c1,d の 3戦略間では,c1-c1 の協力状態のみが安定的となる.このケー

スでは c1 と c1 は無差別な戦略である.

(3.3) c1,c1,相手が協力期間に入るまではパートナーシップを続けようとす

る非協力戦略 c∞ の 3戦略間では,c∞ のみの非協力状態と c1-c1 の協

力状態がともに安定的となる.このケースにおいても,c1 と c1 は無差

別な戦略である.

(3.4) c1,c1,常にパートナーシップを継続しようとする非協力戦略 c∞ の 3

戦略間では,c∞ のみの非協力状態と c1-c1 で c1 が一定以上の割合を占

める協力状態がともに安定的である.このケースでは c1 から c1 へのド

リフトは c∞ の侵入をもたらすことがあるが,実際に c∞ が侵入すると

c1 が淘汰され相対的に c1 が増え,再び c∞ が 侵入できない c1-c1 均衡

に戻るというメカニズムが働く.

非協力戦略がここで考えたどの形をとる場合にも,c1 戦略(および c1 戦略)

による協力状態の維持が可能である.

4 PDCSとの比較

Sethi & Somanathan (1996) は,社会的ジレンマにおいて費用を伴う処罰

により協力が維持される可能性を進化ゲーム理論的に考察した.彼らは,

• 非協力の他者を見ても干渉しない協力者 (cooperator)

• 非協力者 (defector)

• 協力した上で非協力者を費用をかけて処罰する強制者 (enforcer)

74

駒沢大学経済学論集 第 39 巻第 3号

- -

の 3タイプのうち,強制者が十分に多ければ非協力者は侵入できず協力が維持

されることを示した.しかしながら,この協力状態は強制者から協力者へのド

リフトに対しては脆弱である.ドリフトを考慮した場合には,長期的には協力

者が増え強制者が減ったところに非協力者が侵入し,非協力状態へと移行する

傾向があると予想される.この節では,Sethi & Somanathan (1996) のモデ

ルを簡略化し 2人囚人のジレンマに置き換えた上で,費用を伴う処罰の脆弱性

についてより詳しく解説する∗9.

4.1 PDCSのモデルと動学

非常に大きな社会を考え,プレイヤーの集合は大きさ 1 の連続体とする.

各プレイヤーは毎期一人の相手とマッチして,その相手と次の段落で記述さ

れる費用を伴う処罰付き囚人のジレンマ (Prisoner’s Dilemma with Costly

Sanction;以下 PDCSと略す)をプレイする∗10.

各期に各ペアは,まず表 1の囚人のジレンマをプレイする.VSRPDの場合

と同様に,g > c > d > � および 2c > g + � を仮定する.さらに,同じ期のう

ちに,囚人のジレンマでの相手のプレイを観察した上で処罰するか何もしない

かを選ぶ機会があるものとする.処罰する側は費用 wE を負担し,処罰される

側は wD の損失を被る.ただし,処罰の効果は十分に大きく,wD > g − c を

満たすとする.

この PDCSゲームにおいて,以下の 3戦略の進化を,前節 (3)式と同様の

動学過程を用いて考える.

• 協力者:囚人のジレンマで C をプレイし,相手が C でも D でも処罰し

ない;

• 非協力者:囚人のジレンマで D をプレイし,相手が C でも D でも処罰

∗9 Sethi & Somanathan (1996) が扱ったのは社会的ジレンマ問題であるが,この節で示す通り,2人囚人のジレンマにおいても費用を伴う処罰は同様な進化的脆弱性をもつ.

∗10 協力者・非協力者・強制者の 3 戦略しか考えない限り,対戦相手が毎期同じであろうと変わろうと影響はない.

75

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

しない;

• 強制者:囚人のジレンマで C をプレイし,相手が D なら処罰する.

すなわち,協力者・非協力者・強制者それぞれの割合を pC , pD, pE,それぞれ

の期待利得を vC , vD, vE としたとき,

pi ≷ pi(vi − v) iff pi(vi − v) ≷ 0, (21)

where v =∑

i=C,D,E

pivi

に従い,全体の平均利得 v よりも期待利得 vi の高い戦略の割合は増え,低い

戦略の割合は減ると仮定する.ここで,

pE = 1 − pC − pD

であり,3戦略の分布は (pC , pD) の 2次元ベクトルで表現することができる.

囚人のジレンマ部分の期待利得は,C をプレイする協力者および強制者が

πC = πE = (1 − pD)c + pD� (22)

であり,D をプレイする非協力者が

πD = (1 − pD)g + pDd (23)

である∗11.処罰の機会において,強制者は相手が非協力者であった場合には

費用 wE を負担して処罰し,処罰された非協力者は wD だけの損失を被る.

したがって,協力者・非協力者・強制者それぞれの PDCS ゲーム全体での各

期の期待利得は

vC = πC = (1 − pD)c + pD� (24)vD = πD − pEwD = (1 − pD)g + pDd − (1 − pC − pD)wD (25)vE = πE − pDwE = (1 − pD)c + pD� − pDwE (26)

で与えられる.

∗11 正確には,Sethi & Somanathan (1996) のモデルは共有地問題であるため,πC , πD, πE

は pD に関して線形ではなく凹になっている.しかし,期待利得を pD に関して線形としても凹としても,ここで述べる均衡の性質には本質的な違いは生じない.

76

駒沢大学経済学論集 第 39 巻第 3号

- -

�pC1

�pD

1

0 1 − g−cwD

図 5: PDCSの位相図

VSRPDに関しては戦略間の利得比較や不安定状態や鞍点にも言及したが,

PDCSは Sethi & Somanathan (1996)で既に分析されているので詳細は省略

し,ここでは安定的な状態のみに着目する.図 5に示されるように,PDCSに

おける協力者・非協力者・強制者の 3戦略の動学には 2種類の安定的な定常状

態がある.まず pD = 1 のときには vE < vC < vD となり,(pC , pD) = (0, 1)

は漸近安定である.すなわち,非協力者のみが存在して協力者・強制者がいな

い非協力均衡は局所安定的であることがわかる.他方,pD = 0 のときには,

pE > g−cwDであれば vD < vE = vC である.つまり,協力者と強制者のみか

らなる協力状態

(pC , pD) = (α, 0), 0 ≤ α < 1 − g − c

wD(27)

も安定集合となる.協力者と強制者のみからなる協力均衡は,強制者の割

合が十分に多ければ安定的である.しかし,協力者が多く強制者が少ない

pE < g−cwDの場合には,非協力者の侵入を許すことになる.強制者から協力者

へのドリフトにより協力者の割合がこの閾値を越えると,非協力者が侵入して

強制者がますます減り,協力状態は崩壊してしまう.

77

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

4.2 VSRPDの c1 と PDCSの強制者の違い

VSRPDにおける c1 戦略と PDCSにおける強制者はいずれも,自らは協力

的な行動をとり,なおかつ非協力者を容赦しない戦略である.また,VSRPD

における c1 戦略と PDCSにおける協力者はいずれも,自らは協力的な行動を

とりつつ,非協力者を容赦する戦略である.c1 と強制者の働きは似ているよ

うでいて,c1 は c1 へのドリフトを乗り越えて協力状態を維持できるのに対し

て,強制者は協力者へのドリフトによって消え協力状態が崩壊するという点

で,大きく異なっている.

PDCS では囚人のジレンマという 1 次的なジレンマに加えて,非協力者と

マッチしたときに処罰するか否かという問題がある.社会的には処罰を決行し

て 1次ジレンマの回避に協力することが望ましいが,処罰は一種の公共財であ

り,只乗りしたほうが私的な期待利得は上昇する.処罰への只乗りの問題は,

2次ジレンマと呼ばれている.2次ジレンマが回避されなければ,費用を伴う

処罰による協力状態は長期的には維持できない.2次ジレンマの解消のために

処罰を怠る者にも制裁を加えようとすれば,そこでも只乗りの誘因が生じる.

これが 3次ジレンマである.高次ジレンマを解決するためには,非協力者を処

罰しない者を処罰し,処罰しない者を処罰しない者を処罰し,処罰しない者を

処罰しない者を処罰しない者を処罰し . . .ということを無限に続けなければな

らない.情報が完全でない現実の社会でそのような方法をとれば,誤認による

不適切な処罰が頻発するであろう.現在の日本の社会においては,非協力者に

何らかの制裁を加えることはある程度受け入れられているが,非協力者に制裁

を加えないというだけの理由で制裁を加えることは美徳とはされていないよう

に思われる.強制者は長期的には存続不可能な戦略である.

これとは対称的に,VSRPDで裏切られた時にパートナーシップを解消する

ことは,個人の私的な利害と矛盾しない.自分を裏切った相手とパートナー

シップを続けてもその間ずっと搾取され続けることになるので,さっさとマッ

チング・プールに戻って新しいパートナーを探したほうがよい.「他人に甘い

78

駒沢大学経済学論集 第 39 巻第 3号

- -

人」よりも「容赦しない人」のほうが高い期待利得を享受できる.すなわち,

アウト・フォー・タットには 2次ジレンマの問題は伴わないのである.しかし

ながら,単なるアウト・フォー・タット戦略は非協力者に「食い逃げ」されて

しまい,1次ジレンマの問題が残る.そこで有効なのがアウト・フォー・タッ

トの協力期間の前に信頼構築期間を設置することである.奥野・グレーヴァ・

鈴木 (2007) で示したように,信頼構築戦略はアウトサイド・オプションの価

値を下げることによって協力期間中の非協力行動を抑止する.同時に,信頼構

築期間の設置は,パートナーシップの初期の段階における非協力者の搾取から

身を守る効果もある.

c1 戦略では,1 期の信頼構築期間の導入により 1 次ジレンマの問題を改善

する.協力期間中に相手の裏切りに際してパートナーシップを解消すれば,信

頼資本を築くために投じた機会費用が無駄になる.しかし,非協力者とのパー

トナーシップを続ければそれ以上に大きな損失を被るため,協力期間中はアウ

ト・フォー・タットを遵守する c1 のほうが c1 よりも利得が高く,2次ジレン

マは生じない.c1 戦略による協力状態は長期的に維持可能である.

5 結び

本稿では VSRPDゲームにおける戦略の進化を考察した.その結果,1期間

の信頼構築を経た上で協力期間に入り,協力期間中に相手が非協力ならばパー

トナーシップを解消するという,「1期信頼構築戦略」により協力状態の維持が

可能であることが示唆された.

非協力者に費用をかけて制裁を加えるという手段では,良く言えば「寛大

な」,悪く言えば協力行動はとるが処罰費用は只乗りする「ずるい」協力者が増

えるという 2次ジレンマが生じ,長期的には非協力に対する抑止力は失われて

しまう.また,単なるアウト・フォー・タットでは,初期に非協力行動をとっ

て逃げることが最適反応となるので,そもそも 1次ジレンマを抑制できない.

それに対して信頼構築戦略は,最初に一定期間非協力行動をとることで非協力

者による搾取から自らの身を守るとともに,裏切った場合のアウトサイド・オ

79

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

プションの価値を下げて 1次ジレンマを回避する.そして協力期間に入ってか

らは費用を伴う処罰ではなくアウト・フォー・タットを用いることで,2次ジ

レンマも回避できるのである.

補論

ここではパラメータの値や (3)式の動学を特定化し,リプリケータ・ダイナ

ミクスp(s) = p(s)(v(s; p) − v) (28)

のもとでの戦略分布の変化を考察する.すなわち,戦略 s の割合の変化率

p(s)/p(s) は全体の平均利得との差 v(s; p) − v に等しいと仮定する.

副節 3.1で考察した S = {c1, c0, d} の 3 戦略の場合のリプリケータ・ダイ

ナミクスのベクトル場を,4通りのパラメータに関して示しているのが図 6で

ある.横軸が p(c0),縦軸が p(d) で,原点は (p(c0), p(d)) = (0, 0) の c1 単一

戦略均衡となっている.図 6(i)-(iii) は θ > 0,図 6(iv) は θ < 0 の場合であ

る.図 6(iv)では全域から c1 単一戦略均衡に収束することが確認できる.図

6(i)-(iii)では一部の領域からは c0-d0 混在均衡へ収束するが,図 1の点 A と

点 B がかなり離れているケースに相当する図 6(ii)においてすら,大半の領域

から c1 単一戦略均衡に収束することがわかる.

副節 3.2 で扱った S = {c1, c1, d} の 3 戦略の場合と,副節 3.3 で扱った

S = {c1, c1, c∞} の 3戦略の場合は,リプリケータ・ダイナミクスのベクトル

場はそれぞれ図 7,図 8のようになる.これらの場合にはパラメータを変えて

も位相図の形状に大きな変化はないので,1通りのパラメータのみ載せておく.

図 7においては,図 2で見た通り全域から c1-c1 の協力状態へと収束すること

が確認できる.図 8では,図 3から示唆される通り,初期値によって c1-c1 の

協力状態か c∞ の非協力状態のどちらかに収束する.

副節 3.4 の S = {c1, c1, c∞} の 3 戦略の場合は図 9 のようになる.パラ

メータが変わっても位相図の形状に本質的な変化はなく,c1-c1 の協力状態か

c∞ の非協力状態のどちらかに収束する.しかし,パラメータの値によって

80

駒沢大学経済学論集 第 39 巻第 3号

- -

x∗∗-y∗A 線および x∗∗-y∗B 線の形状や収束領域は変わる.

図 10は PDCSのリプリケータ・ダイナミクスのベクトル場を 4通りのパラ

メータについて描写したものである.本文中では各戦略の期待利得の大小関係

の詳細を省略したが,ここでは vE = vD や vC = vD を満たす戦略分布の組

合せを点線で示した.

参考文献

[1] 奥野正寛,グレーヴァ香子,鈴木伸枝 (2007),「社会規範と自発的協力」

『経済研究』第 58巻,110-121頁.

[2] Axelrod, R. (1997), The Complexity of Cooperation: Agent-Based

Models of Competition and Collaboration, Princeton, New Jersey:

Princeton University Press.

[3] Fujiwara-Greve, T., and M. Okuno-Fujiwara (2006), “Voluntarily Sep-

arable Prisoner’s Dilemma,” CIRJE Discussion paper No. 415. Univer-

sity of Tokyo.

[4] Sethi, R. and Somanathan, E. (1996), “The Evolution of Social Norms

in Common Property Resource Use,” American Economic Review

86(4), 766-788.

81

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(i) g = 1.2, � = −1 (ii) g = 1.2, � = −.2

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(iii) g = 1.3, � = −1 (iv) g = 1.5, � = −1.2横軸:p(c0),縦軸:p(d)

: v(c0; p) = v(d; p)

: v(c0; p) = v(c1; p)

: v(c1; p) = v(d; p)

パラメータ: c = 1, d = 0, δ = .9; g および � は各図の下に表記

図 6: � = {c1, c0, d} のリプリケータ・ダイナミクス

82

駒沢大学経済学論集 第 39 巻第 3号

- -

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

横軸:p(c1),縦軸:p(d)

g = 1.2, c = 1, d = 0, � = −1, δ = .9

図 7: � = {c1, c1, d} のリプリケータ・ダイナミクス

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

横軸:p(c1),縦軸:p(c∞)

: v(c1; p) = v(c1; p) = v(c∞; p)

パラメータ: g = 1.2, c = 1, d = 0, � = −1, δ = .9

図 8: � = {c1, c1, c∞} のリプリケータ・ダイナミクス

83

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(i) g = 1.2, � = −1 (ii) g = 1.2, � = −.2

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(iii) g = 1.3, � = −1 (iv) g = 1.5, � = −1.2

横軸:p(c1),縦軸:p(c∞)

: v(c1; p) = v(c∞; p)

: v(c1; p) = v(c∞; p)

パラメータ: c = 1, d = 0, δ = .9; g および � は各図の下に表記

図 9: � = {c1, c1, c∞} のリプリケータ・ダイナミクス

84

駒沢大学経済学論集 第 39 巻第 3号

- -

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(i) � = −1, wD = 1, wC = .5 (ii) � = −1, wD = .5, wC = .5

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

(iii) � = −.2, wD = 1, wC = 1 (iv) � = −1, wD = .5, wC = 1横軸:pC,縦軸:pD

: vE = vD

: vC = vD

パラメータ: g = 1.2, c = 1, d = 0; �, wD, wE は各図の下に表記

図 10: PDCS のリプリケータ・ダイナミクス

85

自発的継続囚人のジレンマにおける協力的戦略の動学的安定性(鈴木)

- -