第十一讲 不完美信息动态博弈
上海财经大学经济学院
2
例:进入博弈
潜在进入者
进入 不进入在位者
容纳 反击 210
43
-1 1
d1
d2 e1
e2 e3
例:进入博弈
• 不完美信息情形– 后行动者不能观察到先行动者的行动
3
33
00
有准备 不进入
容纳 (A) 反击(F)
43
-1 1
进入企业
无准备
容纳 (A) 反击 (F)210
在位企业d2.1 d2.2
例:进入博弈
• 不完全信息– 在位者可能是高成本厂商或低成本厂商 ,
– 进入者不知道在位者的类型 .• 海萨伊转换• 企业 1的信息集
– I1={d1.1, d1.2}
• 企业 2的信息集– I21={d2.1, d2.2}=t2L
– I22={d2.3, d2.4}=t2H
低成本(L)
高成本 (H)
自然
d1.2
-1 5
A F
3 4
退出(N)
2 15
2:在位者
进入(E)
1:进入者
d2.1
-1 1
A F
4 3
退出 (N)
2 10
进入 (E)
d2.2
d1.1
例:进入博弈:不完美信息• 策略式表示
– s1 {有准备,无准备,不进入 }
– s2{A ,F}
• 纳什均衡 : (无准备 , A) 、 (不进入 , F)
• 都是子博弈完美均衡– SPE无法剔除 NE2
• 如何进行逆向推理?
3,3 0,0
4,3 -1,1
2,10 2,10
容纳 反击
无准备
有准备
不进入
33
00
有准备 不进入
容纳 (A) 反击(F)
43
-1 1
进入企业
无准备
容纳 (A) 反击 (F)210
在位企业d2.1 d2.2
PBE
• 要求 1:信念– 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断(信念)。
• 多个结点:概率分布• 单个结点信息集:在该结点的概率为 1
– 例: 2 = (p,1-p)
[p] [1-p]
6
33
00
有准备 不进入
容纳 (A) 反击(F)
43
-1 1
进入企业
无准备
容纳 (A) 反击 (F)210
在位企业d2.1 d2.2
PBE
• 要求 2:序贯理性– 给定参与者的信念和其他参与者的后续策略选择,每个参与者在自己信息集上的选择都是最优反应。
• 例: =(1, 2)=(p,1-p)
• EU2(A )=3
>
EU2(F )=0·p +(1- p)=1-p[p] [1-p]
33
00
有准备 不进入
容纳 (A) 反击(F)
43
-1 1
进入企业
无准备
容纳 (A) 反击 (F)210
在位企业d2.1 d2.2
PBE
• 合理信念的形成– 根据先行动者的策略形成自己的信念
• 例– 如果企业 1 “ ”的策略是确定的选择 有准备进入 ,– 那么企业 2 就可以形成一个信念: p=1
[p] [1-p]
33
00
有准备 不进入
A F
43
-1 1
进入企业
无准备
A F210
在位企业
PBE
• 行为策略– 一个扩展式博弈中参与人 i 的一个行为策略 i 是一个
函数赋予参与人 i的每个信息集 Ii 对 A(Ii)中行动的概率分布 , 具有每个概率分布相互独立。
• 例– 1=(q1, q2, 1- q1- q2)
– 2=(h, 1-h)[p] [1-p]
33
00
有准备(q1)
不进入(q3)
A F
43
-1 1
进入企业
无准备 (q2)
A F210
在位企业
(h) (1-h) (1-h)(h)
例:进入博弈 :不完全信息情形
• 企业 1的信息集– I1={d1.1, d1.2}
• 1=(q,1-q)
• 企业 2的信息集– I21={d2.1, d2.2}=t2L
– I22={d2.3, d2.4}=t2H
– 2=(11 , 12)= ((h1, 1-h1), (h2, 1-h2))
低成本(L)
高成本 (H)
自然
d1.2
-1 5
A F
3 4
退出(N)
2 15
2:在位者
进入(E)
1: 进入者
d2.1
-1 1
A F
4 3
退出 (N)
2 10
进入 (E)
d2.2
d1.1
PBE
• 合理信念的形成• 1 = (p,1-p)
=(, 1-)
低成本 () 高成本 (1- )
自然
d1.2
-1 5
A F
3 4
退出(N)
2 15
2:在位者
进入(E)
1: 进入者
d2.1
-1 1
A F
4 3
退出 (N)
2 10
进入 (E)
d2.2
d1.1
[p] [1-p]
PBE
• 信念的形成• 给定 1=(q1, q2, 1- q1- q2)
– 如果 q1+q2>0,那么• p=Prob(d 2.11)= q1/[q1+q2]
– 如果 q1+q2=0,那么• ????
[p] [1-p]
33
00
有准备(q1)
不进入(q3)
A F
43
-1 1
进入企业
无准备 (q2)
A F210
在位企业d2.1 d2.1
PBE
• 定义:均衡路径– 给定一个扩展式博弈均衡,当参与者按均衡策略行动时会以正的概率到达某个信息集,称该信息集处于均衡路径上。如果博弈按均衡策略进行时肯定不会达到的信息,称之为在均衡路径之外。
• NE1: 1 =(0, 1, 0) , 2 =(1,0)
• NE2: 1 =(0, 0, 1), 2 =(0,1)
[p] [1-p]
33
00
有准备(q1)
不进入(q3)
A F
43
-1 1
进入企业
无准备 (q2)
A F210
在位企业
PBE
• 要求 3:均衡路径上的信念 (一致性 )– 如果一个信息集处于均衡路径上,那么该信息集上的
信念根据参与者策略由贝叶斯法则决定。
• 要求 4:非均衡路径上的信念• 如果一个信息集处于非均衡路径上,那么该信息集上
的信念根据贝叶斯法则和可能的参与者策略决定。• 存在一个可能的信念支撑均衡即可。
Pr( )( )
Pr( )ij i
ikik
ijd I
dd
d
PBE
• 序贯理性• 例:给定 NE1: 1 =(0, 1, 0), 2 =(1,0)
– (d2.1)= q1 /(q1+q2)=0
– (d2.2)= q2 /(q1+q2)=1
– 在该信念下 2 =(1,0) 是企业 2的最优反应,满足要求2,。即满足序贯理性。
[p] [1-p]
33
00
有准备(q1)
不进入(q3)
A F
43
-1 1
进入企业
无准备 (q2)
A F210
在位企业d2.1 d2.1
PBE
• 序贯理性• 例:给定纳什均衡: 1=(0 , 0, 1), 2=(0,1)
• 企业 2的信息集不在均衡路径上• 因为: EU2(A )=3 > EU2(F ) p[0,1]
• 所以,不存在一个信念 =(p,1-p)支撑 2,即,不满足序贯理性。
[p] [1-p]
33
00
有准备(q1)
不进入(q3)
A F
43
-1 1
进入企业
无准备 (q2)
A F210
在位企业d2.1 d2.1
完美贝叶斯均衡 ( PBE)
• 定义• 称满足要求 1-4的策略与信念组合 (, )为完美贝叶斯均
衡
• 例: • ((无准备进入 ,容纳 ), =(0,1)) 是 PBE
• NE2: (不进入,反击 )不能构成一个 PBE
17
[p] [1-p]
33
00
有准备(q1)
不进入(q1)
A F
43
-1 1
进入企业
无准备 (q1)
A F210
在位企业
例:进入博弈:变型• 找出该博弈的 PBE?• 令: 1=(q1, q2, 1- q1- q2) , 2=(h, 1-h)
1. 如果 (q1+q2)>0, 那么 p=q1/(q1+q2)
(1) 满足 q1+q2>0条件下不存在纯策略组合构成 PBE。(2)EU2(A2)=EU2(F2)
– 3=4(1-p)
– p=1/4
(3.1) EU1( 有 2 )= EU1( 无 2 )
• 3h=4h-(1-h)
• h=1/218
[p] [1-p]
33
00
有准备(q1)
不进入(q1)
A F
43
-1 4
进入企业
无准备 (q1)
A F210
在位企业
例:进入博弈:变型• 1. 如果 (q1+q2)>0, 那么 p=q1/(q1+q2)
(1) 满足 q1+q2>0条件下不存在纯策略组合构成 PBE。
(2) EU2(A2)=EU2(F2) p=1/4
(3.1) EU1( 有 2 )= EU1( 无 2 )h=1/2
EU1( 有 2 )=3/2 < EU1( 不 2 )= 2
企业 1 的最优选择是: 1=(0, 0, 1)
所以,当 (q1+q2)>0 不存在与条件一致的 PBE。
19
例:进入博弈:变型• 2. 如果 (q1+q2)=0, 即 1=(0, 0, 1) ,那么 p[0,1]
• (1) 如果 1是企业 1的均衡策略,那么一定有:– EU1( 有 2 )=3h 2;
– h 2/3
– EU1( 无 2 )=4h - (1-h) 2;
– h 3/5
– 因为 h>1/2时, EU1( 无 2 ) > EU1( 有 2 )
– 所以,当 2满足 h 3/5时, 1=(0, 0, 1)就是企业 1的最优策略。
20
例:进入博弈:变型
• (1) 当 2满足 h 3/5时, 1=(0, 0, 1)就是企业 1的最优策略• (2) 给定 1=(0, 0, 1) , p[0,1]
– 当 p < ¼ 时, EU2(F2)>EU2(A2)
• h=0 ——满足 (1)
– 当 p = ¼ 时, EU2(F2)=EU2(A2)
• h[0, 1] —— 取 h[0, 3/5],即满足 (1)
– 当 p > ¼ 时, EU2(F2)<EU2(A2)
• h=1 ——不满足 (1)
• 所以,存在以下 PBE:– (*1=(0, 0, 1) , *2=(0, 1), =(p,1-p)) 是 PBE,其中 p<1/4 ;– (*1=(0, 0, 1) , *2=(h, 1-h), =(p,1-p)) 是 PBE,其中 h=3/5,p=1/4 。
例:扑克博弈• 博弈开始,两个参与人各将一美元放在盘中• 参与人 1 被发到一张牌,可能是大牌,也可是小牌,他能看卡片 , 参与人 2不能看到牌的大小。
• 参与人 1 看到牌后可以选择摊牌 (See)或加钱 (Raise)
– 如果他选择摊牌 , 他将牌展示给参与人 2
• 如果大牌 , 参与人 1赢得盘中的钱 , 否则 , 参与人 2赢。这两种情形下,博弈都到此结束
– 如果他选择加钱 , 他往盘中加 1 美元,参与人 2 选择Pass 或 Meet
• 如果参与人 2选择放弃 , 参与人 1赢得盘中的钱• 如果参与人 2选择Meet,他往盘中加 1美元 , 参与人 1摊牌,如果是大牌 , 参与人 1赢;否则 , 参与人 2赢。
22
例:扑克博弈自然
High(0.5)
Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
例:扑克博弈• I11={d11}, I12={d12}, I2={d21,d22}
• 1=(11 , 12)=((h1, 1-h1), (h2, 1-h2));
• 2=(q,1-q)
自然
High(0.5)
Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
d1.1
• (1) 在信息集 I11
上, Raise是参与者 1的占优策略,所以 11
=(0 , 1)
• (2)在信息集 I12 和 I2上任何纯策略不构成均衡策略
24
例:扑克博弈• 假设 1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略,那么
自然
High(0.5)
Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
d1.1
• (3) 给定 2,有 EU1(R,2)= EU1(S,2)
• EU1(R,2)=q-2(1-q)
• EU1(S,2)= -1
• q=1/3
[p] [1-p]
25
例:扑克博弈• 假设 1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略,那么• (3) q=1/3
• (4)给定信念 =(p,1-p) ,有 EU2(P, )= EU1(M, )
• EU2(P, )=-1
• EU1(M, )= -2p+2(1-p)
• p=3/4
自然
High(0.5)
Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
d1.1
[p] [1-p]
26
27
例:扑克博弈• 给定 1=((0, 1), (h2, 1-h2)); 2=(1/3, 2/3) , p=3/4
• (5)到达信息集 I2的概率为:
– 0.5(1-h1)+0.5(1-h2)]=0.5+ 0.5(1-h2)
• 贝叶斯法则 p=0.5/[0.5+0.5(1-h2)]
3/4=1/(2-h2)
• h2 =2/3
自然High(0.5
)Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
d1.1
[p] [1-p]
例:扑克博弈• 所以, 1=((0, 1), (1/2, 1/2)); 2=(1/3,2/3), =(2/3,1/3) 构成一个 PBE。 自然
High(0.5)
Low(0.5)
1
-1
d1.2
d2.1
Pass Meet
See
d2.2
-1
1
1
-1
MeetPass
2
-2
1
-1
-2
2
See
Raise Raise
d1.1
[p] [1-p]
28
例: Selton Horse
• Selton Horse– 1=(p,1-p),
– 2=(q,1-q),
– 3=(h,1-h)
– 给定参与人 1 和 2的策略 , 一致性 要求 3 =(,1- ), 其中
• = p/ [p+(1-p)q] 当 p+(1-p)q >0
• [0,1] 当 p+(1-p)q =0
332
000
C
3
L R
440
001
1
L R
1,1,12 c
D d
[] [1-]
29
例: Selton Horse
• 给定策略组合 =(1 ,2 ,3) 和他的信念 3, 参与人 3的期望支付是– EU3( 3)= (2h)+(1-)(1-h)
= (3-1) h +1-
– 3 的最优反应 3(1,2)
332
000
C
3
L R
440
001
1
L R
1
1
1
2 c
D d
[] [1-]1 if 1/ 3
[0,1] if 1/ 3
0 if 1/ 3
h
30
例: Selton Horse
• 给定策略组合 (1,2) 和 3(1,2), 参与人 2的期望支付是:– EU2(1,2, 3(1,2))= q(4h)+ (1- q)
– 参与人 2 的最优反应 2(1,3)
332
000
C
3
L R
440
001
1
L R
1
1
1
2 c
D d
[] [1-]
1 if 1/ 4
[0,1] if 1/ 4
0 if 1/ 4
h
q h
h
31
例: Selton Horse
• 给定策略组合 (1) 以及参与人 2 和 3的最优反应 , 参与 人 1的期望支付是
• EU1(1,2(1,3), 3(1,2))= p(3h)+ (1- p)[4qh+1(1-q)]
= (3h - 4qh+q-1)p+ [4qh+1(1-q)]
332
000
C
3
L R
440
001
1
L R
1
1
1
2 c
D d
[] [1-]
– 参与人 1的最优选择是:
1 if 3 4 1 0
[0,1] if 3 4 1 0
0 if 3 4 1 0
h qh q
p h qh q
h qh q
32
• 情形 1:
– h >1/4 给定信念 = p/ [p+(1-p)q] 1/3
– q = 1
– 3h - 4qh+q-1= - h < 0
– p = 0 ,这与 1/3不一致– 任何 h >1/4的策略组合都不会 是 PBE的一部分
1 if 1/ 3
[0,1] if 1/ 3
0 if 1/ 3
h
1 if 3 4 1 0
[0,1] if 3 4 1 0
0 if 3 4 1 0
h qh q
p h qh q
h qh q
1 if 1/ 4
[0,1] if 1/ 4
0 if 1/ 4
h
q h
h
33
• 情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3
– q = 0
– 3h - 4qh+q-1= 3h -1 < 0
– p = 0
– [0,1], 任何 1/3 的信念是一致的» 如果 <1/3 则 h=0;
» 具有信念 3 =(,1- ) 的策略组合 ((0,1), (0,1),(0,1)) 当 <1/3 时是 PBE
1 if 1/ 3
[0,1] if 1/ 3
0 if 1/ 3
h
1 if 3 4 1 0
[0,1] if 3 4 1 0
0 if 3 4 1 0
h qh q
p h qh q
h qh q
1 if 1/ 4
[0,1] if 1/ 4
0 if 1/ 4
h
q h
h
34
• 情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3
– q = 0
– 3h - 4qh+q-1= 3h -1 < 0
– p = 0
– [0,1], 这样任何满足 1/3 的信念都是一致的» 如果 =1/3那么 h[0,1];
» 策略组合 ((0,1), (0,1),(h,1-h)) 和 3 =(1/3,2/3), 当h<1/4 时是一个 PBE
1 if 1/ 3
[0,1] if 1/ 3
0 if 1/ 3
h
1 if 3 4 1 0
[0,1] if 3 4 1 0
0 if 3 4 1 0
h qh q
p h qh q
h qh q
1 if 1/ 4
[0,1] if 1/ 4
0 if 1/ 4
h
q h
h
35
• 情形 3: h=1/4 给定信念 = p/ [p+(1-p)q] =1/3
– q [0, 1]
– 3/4 - q+q+1= 7/4>0
» 那么 p = 1 与 =1/3不一致– 任何 h=1/4的策略组合不是一个 PBE
1 if 1/ 3
[0,1] if 1/ 3
0 if 1/ 3
h
1 if 3 4 1 0
[0,1] if 3 4 1 0
0 if 3 4 1 0
h qh q
p h qh q
h qh q
1 if 1/ 4
[0,1] if 1/ 4
0 if 1/ 4
h
q h
h
36
小结:不完美信息博弈与 PBE
• 行为策略 = (1,2 ,…, n )
– 一个扩展式博弈中参与人 i 的一个行为策略 i 是一个 函数赋予参与人 i的每个信息集 Ii 对 A(Ii)中行动的
概率分布 , 具有每个概率分布相互独立。• 一致信念
– 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断(信念)。
– 如果一个信息集处于均衡路径上,那么该信息集上的信念根据参与者策略由贝叶斯法则决定。
– 如果一个信息集处于非均衡路径上,那么该信息集上的信念根据贝叶斯法则和可能的参与者策略决定
37
小结:不完美信息博弈与 PBE
• 行为策略 = (1,2 ,…, n )
• 一致信念• 序贯理性
– 给定参与者的信念和其他参与者的后续策略选择,每个参与者在每个自己行动的信息集上的选择是最优反应。
• 完美贝叶斯均衡( PBE)• 称满足要求 1-4的策略与信念组合 (s, )为完美贝叶斯均
衡
Top Related