Game Theory-Solution to Mixed Strategy Nash Equilibrium Part 1
混合战略Nash均衡回顾
定义2.7
在有限$n$人战略式博弈 $G=<\Gamma ;S1,S_2,\cdots,S_n ;u_1,u_2,\cdots,u_n >$ 中,混合战略组合 $\sigma^=(\sigma_1^,\sigma_2^,\cdots,\sigma_n^)$为一个Nash均衡,当且仅当$\forall i \in \Gamma ,\forall \sigma_i \in \Sigma_i$ ,有$v_i(\sigma_i^*,\sigma{-i}^)\ge vi(\sigma_i,\sigma{-i}^)$定义2.8
在有限$n$人战略式博弈 $G=<\Gamma ;S1,S_2,\cdots,S_n ;u_1,u_2,\cdots,u_n >$ 中,混合战略组合 $\sigma^=(\sigma_1^,\sigma_2^,\cdots,\sigma_n^)$为一个Nash均衡,当且仅当$\forall i \in \Gamma ,\forall \sigma_i \in \Sigma_i$ ,有$v_i(\sigma_i^*,\sigma{-i}^)\ge vi(s_i,\sigma{-i}^)$
关于参与人$i$的最优混合战略,有如下命题成立:
命题2.1
在参与人 $i$ 的最优混合战略$\sigma_i^=(\sigma_i^{1},\sigma_i^{2},\cdots,\sigma_i^{K_i})$中,对$\forall \sigma_i^{j*}>0$,有:
命题2.1的含义如下:
如果 $\sigmai^*$ 是参与人 $i$ 在给定对手选择混合战略 $\sigma{-i}$ 下的最优混合战略,若混合战略规定参与人 $i$ 以正概率选择纯概率 $si^k$ ,则 $s_i^k$ 一定也是给定 $\sigma{-i}$ 下的一个最优战略,也就是说,所有以正概率进入最优混合战略的纯战略都是参与人 $i$ 的最优战略,并且参与人 $i$ 在所有这些纯战略之间一定是无差异的,即如果 $\sigma_i^{1}>0,\cdots, \sigma_i^{k}>0$ ,则有:
反之,如果参与人 $i$ 有$n$个纯战略是最优的,那么这些纯战略上的任何一个概率分布都是参与人 $i$ 的最优混合战略。
证明如下:
首先,如果 $\sigma_i^=(\sigma_i^{1},\sigma_i^{2},\cdots,\sigma_i^{K_i})$ 是一个纯战略,那么 $\sigma_i^*$ 的分量中只有一个为 $1$,其余均为 $0$ ,命题2.1显然成立。
考虑一般情况,如果 $\sigma_i^=(\sigma_i^{1},\sigma_i^{2},\cdots,\sigma_i^{K_i})$ 不是一个纯战略,那么 $\sigma_i^$ 的分量中至少含有两个或者两个以上严格大于0的分量,不妨设 $\sigma(s^{j})$ 和 $\sigma(s_i^{h})$ 大于 $0$ ,由于这两个量是随意选取的,我们只需要证明 $\sigma(s^{j})$ 和 $\sigma(s_i^{h*})$ 均满足命题2.1即可,也就是:
即,只需要证明 $vi(s_i^{j},\sigma{-i})=vi(s_i^{h},\sigma{-i})$ 即可。我们采用反证法。假设 $vi(s_i^{j*},\sigma{-i})\neq vi(s_i^{h*},\sigma{-i})$ ,由于希望战略 $s^{j}$ 和战略 $s^{h}$ 是随意选取的,我们就进一步假设 $vi(s_i^{j},\sigma{-i})> vi(s_i^{h},\sigma{-i})$ ,希望推出与“$\sigma_i^*$ 是参与人 $i$ 的最优混合战略”这一前提相悖的结论。为此我们构造出一个参与人 $i$ 的混合战略 $\sigma_i’=(\sigma_i^{1’},\sigma_i^{2’},\cdots,\sigma_i^{K_i’})$ ,满足以下性质:
(1). 对 $\forall k \in {1,2,\cdots,K_i}$ ,若 $k\neq j $ 且 $k\neq h $ ,则 $\sigma_i^{k’}=\sigma_i^{k*}$ ;
(2). $\sigma_i^{j’}=\sigma_i^{j}+\sigma_i^{h},\quad \sigma_i^{h’}=0$
上述两条说明,与最优混合战略 $\sigma_i^$ 相比,在混合战略 $\sigma_i^{‘}$ 中,只有战略 $s^{j}$ 和战略 $s^{h}$ 对应的概率不一样,其余均一样。由*期望效用的公式可得:
由此,我们推出了$\sigmai^*$ 并不是参与人 $i$ 的最优混合战略,这和假设矛盾,所以 $v_i(s_i^{j},\sigma{-i})=vi(s_i^{h},\sigma{-i})$ 成立,即在$\sigma_i^=(\sigma_i^{1},\sigma_i^{2},\cdots,\sigma_i^{K_i})$ 不是一个纯战略的情况下,命题2.1也成立。
最优反应及最优反应引理
上述内容所讨论的都是对于单个参与人 $i$ 的情况,是单个参与人的最优混合战略。我们没有提及Nash均衡,因为Nash均衡是针对多个参与人而言的,所以下面的几个概念/定理说明了多个参与人的时候,混合战略Nash均衡的定义。
最优反应
我们用 $p^*(q)$表示在给定参与人 $2$ 的混合战略 $\sigma_2=(q,1-q)$ 的情况下,参与人 $1$ 的最优反应。支集
对于给定的参与人 $i$ 的混合战略 $\sigma_i$ ,称 $\sigma_i$ 中所有大于0的分量对应的纯战略组合的集合为 $\sigma_i$ 的支集,记为 $S_i(\sigma_i)$ ,即 $S_i(\sigma_i)={s_i \in S_i | \sigma_i(s_i)>0}$最优反应的引理
在有限 $n$ 人战略式博弈 $G=<\Gamma ;S1,S_2,\cdots,S_n ;u_1,u_2,\cdots,u_n >$ 中,混合战略组合 $\sigma^=(\sigma_1^,\sigma_2^,\cdots,\sigma_n^)$为一个Nash均衡,当且仅当$\forall i \in \Gamma $ , $\sigma_i^ $的支集 $S_i(\sigma_i^)$ 中的每一个战略都是给定 $\sigma{-i}^* $ 下的最优反应。
等值法求解 $2\times 2$ 战略式博弈
等值法基于下面的假设:在最优混合战略中,大于0的分量对应的纯战略的期望支付相等。
| $q$ | $1-q$ | ||
|---|---|---|---|
| $b_1$ | $b_2$ | ||
| $p$ | $a_1$ | $x_1,y_1$ | $x_2,y_2$ |
| $1-p$ | $a_2$ | $x_3,y_3$ | $x_4,y_4$ |
假定 $\sigma_1=(p,1-p)$,$\sigma_2=(q,1-q)$ 为参与人 $1$和参与人 $2$ 的混合战略, $\sigma_1,\sigma_2$ 为博弈的混合战略Nash均衡,不失一般性,假设 $p \in (0,1),q \in (0,1)$ ,因此 $1-p \in (0,1),1-q \in (0,1)$ ,根据最优战略的性质,有:
即:
求解上述方程可得:
对于参与人大于 $2$ 的博弈问题,无法直接利用”等值法”求解。
支撑求解法
相关概念
支撑
对于给定的混合战略组合 $\sigma$ , $\sigma$ 的支撑,记为 $S(\sigma)$,指的是参与人按照 $\sigma$ 选择战略的时候,所有参与人支集 $Si(\sigma_i)={s_i\in S_i|\sigma_i(s_i)>0}$ 的直积,即 $S(\sigma)=\prod\limits{i\in \Gamma}{s_i \in S_i|\sigma_i(s_i)>0}$
举例:
比如在两人战略式博弈中,
设
所以有:
战略组合 $\sigma=(\sigma_1,\sigma_2)$ 的支撑为:
具体方法
对于给定的有限$n$人战略式博弈 $G=<\Gamma ;S1,S_2,\cdots,S_n ;u_1,u_2,\cdots,u_n >$ 中,假设混合战略组合 $\sigma^=(\sigma_1^,\sigma_2^,\cdots,\sigma_n^)$为一个Nash均衡,此时考察 $\sigma$ 的支撑 $S(\sigma)=\prod \limits {i\in \Gamma}S_i(\sigma_i^)$ ,对于$\forall i \in \Gamma,\sigma _i^= (\sigma _i^(s_i^1), \sigma _i^(s_i^2),\quad \cdots\quad \sigma _i^(s_i^{K_i}))$,不失一般性,设$\sigma _i^(s_i^1),\quad \sigma _i^(s_i^2),\quad \cdots\quad \sigma _i^(s_i^{K_i})>0$ ,则参与人 $i$ 关于战略组合 $\sigma^$的支集为 $S_i(\sigma_i^)={s_i^1,\cdots,s_i^{k_i}}$ ,(注意是小k)由最优反应的引理可得:
上述一共 $k_i+1$ 个未知数 [即 $\sigma _i^(s_i^1), \sigma _i^(s_i^2),\quad \cdots\quad \sigma _i^*(s_i^{K_i})$] 和 $k_i+1$ 个方程,考虑一般性,就可以解出所有的未知数,即混合最优战略。
例子(Page 43例2.10)
| $A(\sigma_2^A)$ | $B(\sigma_2^B)$ | $C(\sigma_2^C)$ | $D(\sigma_2^D)$ | |
|---|---|---|---|---|
| $U(\sigma_1^U)$ | $0,2$ | $6,1$ | $2,3$ | $4,6$ |
| $L(\sigma_1^L)$ | $4,3$ | $2,6$ | $1,2$ | $6,1$ |
在上述博弈问题中,很显然无法通过重复剔除劣战略达到纯Nash战略均衡。因此不存在其制程中只包含参与人一个战略的Nash均衡。因此,在上述博弈问题中,可能的支撑如下:
下面我们逐一判断这些战略组合:
$2\times 4战略组合:{U,L}\times{A,B,C,D}$
对于参与人1或者2,其战略组合的支集中每个纯战略获得的期望支付相同,由此我们可以列出来方程:
即:
上述方程中,显然,由于我们的前提就是混合战略,排除了纯战略,故未知数都严格大于零,考虑到上述方程组中3~6个方程的特点,如果有解,则 $\sigma_1^U=\sigma_1^L=0$ ,所以上述方程不存在正数解,即 ${U,L}\times{A,B,C,D}$ 不可能成为博弈的均衡支撑。
$2\times 3$战略组合
同理,利用对于参与人1或者2,其战略组合的支集中每个纯战略获得的期望支付相同这一性质,我们列出来$2\times 3$战略组合${U,L}\times{A,B,C}$的方程:
各个等式之间依然存在矛盾问题, 所以上述方程组没有正数解,即$2\times 3战略组合:{U,L}\times{A,B,C}$不可能成为博弈的均衡支撑。
基于同样的原因,其他的$2\times 3$ 战略组合:${U,L}\times{A,B,D},\quad{U,L}\times{B,C,D},\quad {U,L}\times{A,C,D},\quad$都不是博弈的均衡支撑。
接下来从 $2\times 2$ 的战略组合中寻找可能的均衡支撑。
$2\times 2战略组合:{U,L}\times{A,B}$
上述方程组,可以求得唯一的正数解,即:
但是,此时如果我们让参与人 $1$ 采用这个解,但是让参与人 $2$ 采用纯战略$C$,此时参与人 $1$ 和 $2$ 的期望收益变为:
故,参与人 $2$ 必定会偏离这个解,因此,${U,L}\times{A,B}$ 不是博弈的均衡支撑。
$2\times 2战略组合:{U,L}\times{A,C}$
当支撑是${U,L}\times{A,C}$的时候,仿照上例,得到方程为:
它的解是:
但是我们再考虑一种情况,给定 $\sigma_1=(\frac{1}{2},\frac{1}{2})$ ,让参与人 $2$ 去选择纯战略 $B$ ,则此时,$v_2(\sigma_1,B)=v_2(\sigma_1,D)=\frac{7}{2}$,即此时参与人 $2$ 选择纯战略的支付大于在所求解均衡中的支付,即 ${U,L}\times{A,C}$ 不可能成为博弈的均衡支撑。
$2\times 2战略组合:{U,L}\times{A,D} 和{U,L}\times{C,D}$
和之前的情况一样,求解出来上述均衡支撑之后,可以找到不属于均衡支撑的纯战略,使得期望支付更大,所以这两种情况排除。
$2\times 2战略组合:{U,L}\times{B,D}$
列出来方程组如下:
上述方程组的解为
参与人 $2$ 在均衡中的所得均大于选择纯战略 $A$ 或 $C$ 的所得,所以上述解构成混合战略Nash均衡:
合理分析以减少运算
从上述例子中可以看出来,如果无法事先确定好支撑,就只能逐一计算,导致计算量十分巨大。因此我们可以进行如下分析,进而排除不合理的支撑,减少计算量。
| $A(\sigma_2^A)$ | $B(\sigma_2^B)$ | $C(\sigma_2^C)$ | $D(\sigma_2^D)$ | |
|---|---|---|---|---|
| $U(\sigma_1^U)$ | $0,2$ | $6,1$ | $2,3$ | $4,6$ |
| $L(\sigma_1^L)$ | $4,3$ | $2,6$ | $1,2$ | $6,1$ |
分析1
第一种分析方法思路是,如果某一个支撑是最后的Nash均衡,那么这个均衡中的各个战略必定不存在严格的占优行为。
考虑一种战略组合 ${U,L}\times{A,D}$,假定它是我们要求解的均衡支撑。那么参与人 $1$ 的两个战略 $ U$ 和 $ L$ 之间必定不存在占优行为,即不管参与人 $2$ 选择什么战略,那么参与人 $1$ 的两个战略 $ U$ 和 $ L$ 没有明显的占优,我们不能把其中一个战略剔除掉。
明显,无论参与人 $2$ 在支撑集 ${A,D}$上有任何的概率分布,参与人 $1$ 选择战略 $L$ 获得的期望支付大于选择战略 $U$ 的期望支付,所以,在这种战略组合中,存在参与人 $1$ 的 $L$ 对 $ U$ 的占优,即战略组合 ${U,L}\times{A,D}$必定不是我们要找的均衡支撑!
同样的道理,战略组合 ${U,L}\times{B,C}$也不是我们要找的支撑。
分析2
第二种分析方法是通过构造不含有某一个战略的混合战略,彻底排除该战略。
构造出来参与人 $2$ 的一个不含战略 $A$ 的混合战略 $\sigma_2=(0,\frac{1}{2},\frac{1}{3},\frac{1}{6})$ ,很显然,无论参与人 $1$ 选择战略 $U$ ,还是选择战略 $L$ ,参与人 $2$ 的期望支付总是大于选择纯战略 $A$ 的期望支付。更进一步,不管参与人 $1$ 的混合战略分布 $\sigma_1=(\sigma_1^U,\sigma_1^L)$如何取值,对于参与人 $2$ ,选择混合战略 $\sigma_2=(0,\frac{1}{2},\frac{1}{3},\frac{1}{6})$ 总是优于选择纯战略 $A$.
即 $\sigma_2=(0,\frac{1}{2},\frac{1}{3},\frac{1}{6})$ 对纯战略 $A$ 严格占优!
既然纯战略 $A$ 是参与人 $2$ 的严格劣战略,因此我们可以将纯战略 $A$ 从参与人 $2$ 的均衡战略支集中排除。
同样,我们可以构造出来参与人 $2$ 的一个不含战略 $C$ 的混合战略 $\sigma_2=(\frac{1}{3},\frac{1}{6},0,\frac{1}{2})$,这个战略对纯战略 $C$ 严格占优,因此可以把纯战略 $C$ 从参与人 $2$ 的均衡战略支集中排除。
因此,该博弈问题中的可能的均衡支撑只有 ${U,L}\times{B,D}$.



