Download - 第十一讲不完美信息动态博弈

Transcript

第十一讲不完美信息动态博弈

上海财经大学经济学院

例：进入博弈

潜在进入者

进入不进入在位者

容纳反击 210

-1 1

d2 e1

e2 e3

例：进入博弈

• 不完美信息情形– 后行动者不能观察到先行动者的行动

有准备不进入

容纳 (A) 反击(F)

-1 1

进入企业

无准备

容纳 (A) 反击 (F)210

在位企业d2.1 d2.2

例：进入博弈

• 不完全信息– 在位者可能是高成本厂商或低成本厂商 ,

– 进入者不知道在位者的类型 .• 海萨伊转换• 企业 1的信息集

– I1={d1.1, d1.2}

• 企业 2的信息集– I21={d2.1, d2.2}=t2L

– I22={d2.3, d2.4}=t2H

低成本(L)

高成本 (H)

自然

d1.2

-1 5

A F

3 4

退出(N)

2 15

2:在位者

进入(E)

1:进入者

d2.1

-1 1

A F

4 3

退出 (N)

2 10

进入 (E)

d2.2

d1.1

例：进入博弈：不完美信息• 策略式表示

– s1 {有准备，无准备，不进入 }

– s2{A ,F}

• 纳什均衡 : (无准备 , A) 、 (不进入 , F)

• 都是子博弈完美均衡– SPE无法剔除 NE2

• 如何进行逆向推理？

3,3 0,0

4,3 -1,1

2,10 2,10

容纳反击

无准备

有准备

不进入

有准备不进入

容纳 (A) 反击(F)

-1 1

进入企业

无准备

容纳 (A) 反击 (F)210

在位企业d2.1 d2.2

PBE

• 要求 1：信念– 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断（信念）。

• 多个结点：概率分布• 单个结点信息集：在该结点的概率为 1

– 例： 2 = (p,1-p)

[p] [1-p]

有准备不进入

容纳 (A) 反击(F)

-1 1

进入企业

无准备

容纳 (A) 反击 (F)210

在位企业d2.1 d2.2

PBE

• 要求 2：序贯理性– 给定参与者的信念和其他参与者的后续策略选择，每个参与者在自己信息集上的选择都是最优反应。

• 例： =(1, 2)=(p,1-p)

• EU2(A )=3

EU2(F )=0·p +(1- p)=1-p[p] [1-p]

有准备不进入

容纳 (A) 反击(F)

-1 1

进入企业

无准备

容纳 (A) 反击 (F)210

在位企业d2.1 d2.2

PBE

• 合理信念的形成– 根据先行动者的策略形成自己的信念

• 例– 如果企业 1 “ ”的策略是确定的选择有准备进入，– 那么企业 2 就可以形成一个信念： p=1

[p] [1-p]

有准备不进入

A F

-1 1

进入企业

无准备

A F210

在位企业

PBE

• 行为策略– 一个扩展式博弈中参与人 i 的一个行为策略 i 是一个

函数赋予参与人 i的每个信息集 Ii 对 A(Ii)中行动的概率分布 , 具有每个概率分布相互独立。

• 例– 1=(q1, q2, 1- q1- q2)

– 2=(h, 1-h)[p] [1-p]

有准备(q1)

不进入(q3)

A F

-1 1

进入企业

无准备 (q2)

A F210

在位企业

(h) (1-h) (1-h)(h)

例：进入博弈 :不完全信息情形

• 企业 1的信息集– I1={d1.1, d1.2}

• 1=(q,1-q)

• 企业 2的信息集– I21={d2.1, d2.2}=t2L

– I22={d2.3, d2.4}=t2H

– 2=(11 , 12)= ((h1, 1-h1), (h2, 1-h2))

低成本(L)

高成本 (H)

自然

d1.2

-1 5

A F

3 4

退出(N)

2 15

2:在位者

进入(E)

1: 进入者

d2.1

-1 1

A F

4 3

退出 (N)

2 10

进入 (E)

d2.2

d1.1

PBE

• 合理信念的形成• 1 = (p,1-p)

=(, 1-)

低成本 () 高成本 (1- )

自然

d1.2

-1 5

A F

3 4

退出(N)

2 15

2:在位者

进入(E)

1: 进入者

d2.1

-1 1

A F

4 3

退出 (N)

2 10

进入 (E)

d2.2

d1.1

[p] [1-p]

PBE

• 信念的形成• 给定 1=(q1, q2, 1- q1- q2)

– 如果 q1+q2>0，那么• p=Prob(d 2.11)= q1/[q1+q2]

– 如果 q1+q2=0，那么• ????

[p] [1-p]

有准备(q1)

不进入(q3)

A F

-1 1

进入企业

无准备 (q2)

A F210

在位企业d2.1 d2.1

PBE

• 定义：均衡路径– 给定一个扩展式博弈均衡，当参与者按均衡策略行动时会以正的概率到达某个信息集，称该信息集处于均衡路径上。如果博弈按均衡策略进行时肯定不会达到的信息，称之为在均衡路径之外。

• NE1: 1 =(0, 1, 0) , 2 =(1,0)

• NE2: 1 =(0, 0, 1), 2 =(0,1)

[p] [1-p]

有准备(q1)

不进入(q3)

A F

-1 1

进入企业

无准备 (q2)

A F210

在位企业

PBE

• 要求 3：均衡路径上的信念 (一致性 )– 如果一个信息集处于均衡路径上，那么该信息集上的

信念根据参与者策略由贝叶斯法则决定。

• 要求 4：非均衡路径上的信念• 如果一个信息集处于非均衡路径上，那么该信息集上

的信念根据贝叶斯法则和可能的参与者策略决定。• 存在一个可能的信念支撑均衡即可。

Pr( )( )

Pr( )ij i

ikik

ijd I

PBE

• 序贯理性• 例：给定 NE1: 1 =(0, 1, 0), 2 =(1,0)

– (d2.1)= q1 /(q1+q2)=0

– (d2.2)= q2 /(q1+q2)=1

– 在该信念下 2 =(1,0) 是企业 2的最优反应，满足要求2,。即满足序贯理性。

[p] [1-p]

有准备(q1)

不进入(q3)

A F

-1 1

进入企业

无准备 (q2)

A F210

在位企业d2.1 d2.1

PBE

• 序贯理性• 例：给定纳什均衡： 1=(0 ， 0, 1)， 2=(0,1)

• 企业 2的信息集不在均衡路径上• 因为： EU2(A )=3 > EU2(F ) p[0,1]

• 所以，不存在一个信念 =(p,1-p)支撑 2，即，不满足序贯理性。

[p] [1-p]

有准备(q1)

不进入(q3)

A F

-1 1

进入企业

无准备 (q2)

A F210

在位企业d2.1 d2.1

完美贝叶斯均衡（ PBE）

• 定义• 称满足要求 1-4的策略与信念组合 (, )为完美贝叶斯均

衡

• 例： • ((无准备进入 ,容纳 ), =(0,1)) 是 PBE

• NE2: (不进入，反击 )不能构成一个 PBE

[p] [1-p]

有准备(q1)

不进入(q1)

A F

-1 1

进入企业

无准备 (q1)

A F210

在位企业

例：进入博弈：变型• 找出该博弈的 PBE？• 令： 1=(q1, q2, 1- q1- q2) ， 2=(h, 1-h)

1. 如果 (q1+q2)>0, 那么 p=q1/(q1+q2)

(1) 满足 q1+q2>0条件下不存在纯策略组合构成 PBE。(2)EU2(A2)=EU2(F2)

– 3=4(1-p)

– p=1/4

(3.1) EU1( 有 2 )= EU1( 无 2 )

• 3h=4h-(1-h)

• h=1/218

[p] [1-p]

有准备(q1)

不进入(q1)

A F

-1 4

进入企业

无准备 (q1)

A F210

在位企业

例：进入博弈：变型• 1. 如果 (q1+q2)>0, 那么 p=q1/(q1+q2)

(1) 满足 q1+q2>0条件下不存在纯策略组合构成 PBE。

(2) EU2(A2)=EU2(F2) p=1/4

(3.1) EU1( 有 2 )= EU1( 无 2 )h=1/2

EU1( 有 2 )=3/2 < EU1( 不 2 )= 2

企业 1 的最优选择是： 1=(0, 0, 1)

所以，当 (q1+q2)>0 不存在与条件一致的 PBE。

例：进入博弈：变型• 2. 如果 (q1+q2)=0, 即 1=(0, 0, 1) ，那么 p[0,1]

• (1) 如果 1是企业 1的均衡策略，那么一定有：– EU1( 有 2 )=3h 2;

– h 2/3

– EU1( 无 2 )=4h - (1-h) 2;

– h 3/5

– 因为 h>1/2时， EU1( 无 2 ) > EU1( 有 2 )

– 所以，当 2满足 h 3/5时， 1=(0, 0, 1)就是企业 1的最优策略。

例：进入博弈：变型

• (1) 当 2满足 h 3/5时， 1=(0, 0, 1)就是企业 1的最优策略• (2) 给定 1=(0, 0, 1) ， p[0,1]

– 当 p < ¼ 时， EU2(F2)>EU2(A2)

• h=0 ——满足 (1)

– 当 p = ¼ 时， EU2(F2)=EU2(A2)

• h[0, 1] —— 取 h[0, 3/5],即满足 (1)

– 当 p > ¼ 时， EU2(F2)<EU2(A2)

• h=1 ——不满足 (1)

• 所以，存在以下 PBE：– (*1=(0, 0, 1) ， *2=(0, 1), =(p,1-p)) 是 PBE,其中 p<1/4 ；– (*1=(0, 0, 1) ， *2=(h, 1-h), =(p,1-p)) 是 PBE,其中 h=3/5,p=1/4 。

例：扑克博弈• 博弈开始，两个参与人各将一美元放在盘中• 参与人 1 被发到一张牌，可能是大牌，也可是小牌，他能看卡片 , 参与人 2不能看到牌的大小。

• 参与人 1 看到牌后可以选择摊牌 (See)或加钱 (Raise)

– 如果他选择摊牌 , 他将牌展示给参与人 2

• 如果大牌 , 参与人 1赢得盘中的钱 , 否则 , 参与人 2赢。这两种情形下，博弈都到此结束

– 如果他选择加钱 , 他往盘中加 1 美元，参与人 2 选择Pass 或 Meet

• 如果参与人 2选择放弃 , 参与人 1赢得盘中的钱• 如果参与人 2选择Meet,他往盘中加 1美元 , 参与人 1摊牌，如果是大牌 , 参与人 1赢；否则 , 参与人 2赢。

例：扑克博弈自然

High(0.5)

Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

例：扑克博弈• I11={d11}, I12={d12}, I2={d21,d22}

• 1=(11 , 12)=((h1, 1-h1), (h2, 1-h2));

• 2=(q,1-q)

自然

High(0.5)

Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

d1.1

• (1) 在信息集 I11

上， Raise是参与者 1的占优策略，所以 11

=(0 ， 1)

• (2)在信息集 I12 和 I2上任何纯策略不构成均衡策略

例：扑克博弈• 假设 1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略，那么

自然

High(0.5)

Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

d1.1

• (3) 给定 2，有 EU1(R,2)= EU1(S,2)

• EU1(R,2)=q-2(1-q)

• EU1(S,2)= -1

• q=1/3

[p] [1-p]

例：扑克博弈• 假设 1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略，那么• (3) q=1/3

• (4)给定信念 =(p,1-p) ，有 EU2(P, )= EU1(M, )

• EU2(P, )=-1

• EU1(M, )= -2p+2(1-p)

• p=3/4

自然

High(0.5)

Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

d1.1

[p] [1-p]

例：扑克博弈• 给定 1=((0, 1), (h2, 1-h2)); 2=(1/3, 2/3) ， p=3/4

• (5)到达信息集 I2的概率为：

– 0.5(1-h1)+0.5(1-h2)]=0.5+ 0.5(1-h2)

• 贝叶斯法则 p=0.5/[0.5+0.5(1-h2)]

3/4=1/(2-h2)

• h2 =2/3

自然High(0.5

)Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

d1.1

[p] [1-p]

例：扑克博弈• 所以， 1=((0, 1), (1/2, 1/2)); 2=(1/3,2/3)， =(2/3,1/3) 构成一个 PBE。自然

High(0.5)

Low(0.5)

-1

d1.2

d2.1

Pass Meet

See

d2.2

-1

MeetPass

-2

-1

-2

See

Raise Raise

d1.1

[p] [1-p]

例： Selton Horse

• Selton Horse– 1=(p,1-p),

– 2=(q,1-q),

– 3=(h,1-h)

– 给定参与人 1 和 2的策略 , 一致性要求 3 =(,1- ), 其中

• = p/ [p+(1-p)q] 当 p+(1-p)q >0

• [0,1] 当 p+(1-p)q =0

332

000

L R

440

001

L R

1,1,12 c

D d

[] [1-]

例： Selton Horse

• 给定策略组合 =(1 ,2 ,3) 和他的信念 3, 参与人 3的期望支付是– EU3( 3)= (2h)+(1-)(1-h)

= (3-1) h +1-

– 3 的最优反应 3(1,2)

332

000

L R

440

001

L R

2 c

D d

[] [1-]1 if 1/ 3

[0,1] if 1/ 3

0 if 1/ 3

例： Selton Horse

• 给定策略组合 (1,2) 和 3(1,2), 参与人 2的期望支付是：– EU2(1,2, 3(1,2))= q(4h)+ (1- q)

– 参与人 2 的最优反应 2(1,3)

332

000

L R

440

001

L R

2 c

D d

[] [1-]

1 if 1/ 4

[0,1] if 1/ 4

0 if 1/ 4

q h

例： Selton Horse

• 给定策略组合 (1) 以及参与人 2 和 3的最优反应 , 参与人 1的期望支付是

• EU1(1,2(1,3), 3(1,2))= p(3h)+ (1- p)[4qh+1(1-q)]

= (3h - 4qh+q-1)p+ [4qh+1(1-q)]

332

000

L R

440

001

L R

2 c

D d

[] [1-]

– 参与人 1的最优选择是：

1 if 3 4 1 0

[0,1] if 3 4 1 0

0 if 3 4 1 0

h qh q

p h qh q

h qh q

• 情形 1:

– h >1/4 给定信念 = p/ [p+(1-p)q] 1/3

– q = 1

– 3h - 4qh+q-1= - h < 0

– p = 0 ，这与 1/3不一致– 任何 h >1/4的策略组合都不会是 PBE的一部分

1 if 1/ 3

[0,1] if 1/ 3

0 if 1/ 3

1 if 3 4 1 0

[0,1] if 3 4 1 0

0 if 3 4 1 0

h qh q

p h qh q

h qh q

1 if 1/ 4

[0,1] if 1/ 4

0 if 1/ 4

q h

• 情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3

– q = 0

– 3h - 4qh+q-1= 3h -1 < 0

– p = 0

– [0,1], 任何 1/3 的信念是一致的» 如果 <1/3 则 h=0;

» 具有信念 3 =(,1- ) 的策略组合 ((0,1), (0,1),(0,1)) 当 <1/3 时是 PBE

1 if 1/ 3

[0,1] if 1/ 3

0 if 1/ 3

1 if 3 4 1 0

[0,1] if 3 4 1 0

0 if 3 4 1 0

h qh q

p h qh q

h qh q

1 if 1/ 4

[0,1] if 1/ 4

0 if 1/ 4

q h

• 情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3

– q = 0

– 3h - 4qh+q-1= 3h -1 < 0

– p = 0

– [0,1], 这样任何满足 1/3 的信念都是一致的» 如果 =1/3那么 h[0,1];

» 策略组合 ((0,1), (0,1),(h,1-h)) 和 3 =(1/3,2/3), 当h<1/4 时是一个 PBE

1 if 1/ 3

[0,1] if 1/ 3

0 if 1/ 3

1 if 3 4 1 0

[0,1] if 3 4 1 0

0 if 3 4 1 0

h qh q

p h qh q

h qh q

1 if 1/ 4

[0,1] if 1/ 4

0 if 1/ 4

q h

• 情形 3: h=1/4 给定信念 = p/ [p+(1-p)q] =1/3

– q [0, 1]

– 3/4 - q+q+1= 7/4>0

» 那么 p = 1 与 =1/3不一致– 任何 h=1/4的策略组合不是一个 PBE

1 if 1/ 3

[0,1] if 1/ 3

0 if 1/ 3

1 if 3 4 1 0

[0,1] if 3 4 1 0

0 if 3 4 1 0

h qh q

p h qh q

h qh q

1 if 1/ 4

[0,1] if 1/ 4

0 if 1/ 4

q h

小结：不完美信息博弈与 PBE

• 行为策略 = (1,2 ,…, n )

– 一个扩展式博弈中参与人 i 的一个行为策略 i 是一个函数赋予参与人 i的每个信息集 Ii 对 A(Ii)中行动的

概率分布 , 具有每个概率分布相互独立。• 一致信念

– 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断（信念）。

– 如果一个信息集处于均衡路径上，那么该信息集上的信念根据参与者策略由贝叶斯法则决定。

– 如果一个信息集处于非均衡路径上，那么该信息集上的信念根据贝叶斯法则和可能的参与者策略决定

小结：不完美信息博弈与 PBE

• 行为策略 = (1,2 ,…, n )

• 一致信念• 序贯理性

– 给定参与者的信念和其他参与者的后续策略选择，每个参与者在每个自己行动的信息集上的选择是最优反应。

• 完美贝叶斯均衡（ PBE）• 称满足要求 1-4的策略与信念组合 (s, )为完美贝叶斯均

衡

Top Related

第 2 章策略型博弈

博弈智能多重均衡与优化 - 我的西电我的 ... · 的一种理想状态，即假定固有的一群人和可分配的资源，从一种分配状态到另一种状态的变化中

班級:六年七班姓名:羅弈萱座號:22

博弈生存idl.hbdlib.cn/book/00000000000000/pdfbook/003/010/109415.pdf第五章信息、言语与行动 103 一、知识与博弈 105 二、信息与战争博弈 108 三、声称的策略与实际的策略：言语博弈问题

C++ 语言程序设计第六章指针、引用和动态空间管理（第一讲）

情绪与心态调节训练放松方法和程序讲义

第九讲静态代码的可信性分析概述

初中数学思维拓展讲 - ecustpress.cn第9讲近似数 /38 第10讲平方根 /43 第11讲实数 /48 第12讲立方根 /52 第13讲实数的运算 /56 第14讲用字母表示数

Download - 第十一讲 不完美信息动态博弈

Download - 第十一讲不完美信息动态博弈