规划法求解Nash均衡

两人的情况

原理

所谓规划求解法,就是将求解博弈问题的混合战略Nash均,转换为一个规划问题进行求解。相对于支撑求解法,规划求解法对两人有限博弈问题的Nash均衡求解尤为有效。下面对规划求解法的基本原理和步骤进行介绍。

在一个两人有限战略式博弈中,设 $S1={s_1^1,…,s_1^m},S_1={s_2^1,…,s_2^n}$ 。用矩阵 $\mathbf U_1=(a{ij}){m\times n}$ 表示参与人 $1$ 的支付,其中 $a$ 表示参与人 $1$ 在战略组合 $(s_1^i,s_2^j)$ 下的支付,即 $a{ij}=u1(s_1^i,s_2^j)$ ;用矩阵 $\mathbf U_2=(b{ij}){m\times n}$ 表示参与人 $2$ 的支付,其中 $b{ij}$ 表示参与人 $2$ 在战略组合 $(s1^i,s_2^j)$ 下的支付,即 $b{ij}=u_2(s_1^i,s_2^j)$ 。设参与人 $1$ 和参与人 $2$ 的混合战略分别为 $\boldsymbol \sigma_1=(\sigma_1^1,\cdots,\sigma_1^m) $和$\boldsymbol \sigma_2=(\sigma_2^1,\cdots,\sigma_2^n) $,则

一个两人有限战略式博弈的 Nash均衡可以通过求解以下规划问题得到:

其中,

$v_1、v_2$ 分别是参与人 $1$ 和参与人 $2$ 在Nash均衡下的期望支付。

$A(\sigma_2^A)$ $B(\sigma_2^B)$ $C(\sigma_2^C)$ $D(\sigma_2^D)$
$U(\sigma_1^U)$ $3,5$ $1,4$ $5,7$ $4,2$
$L(\sigma_1^L)$ $4,3$ $2,5$ $0,3$ $2,6$

上述博弈问题中,

设 $\boldsymbol {v_1、v_2}$ 分别是参与人 $1$ 和参与人 $2$ 在Nash均衡下的期望支付。

我们可以列出来以下方程:

(U,C)\
\left(
\left(\frac{1}{3},\frac{2}{3}\right),
\left(0,\frac{2}{3},0,\frac{1}{3}\right)
\right)\
\left(
\left(\frac{2}{5},\frac{3}{5}\right),
\left(0,\frac{5}{6},\frac{1}{6},0\right)
\right)

\begin{aligned}
&\max z = && \sum{i=1}^{n}\left(v{i}\left(\boldsymbol \sigma{i},\boldsymbol \sigma{-i}\right) - \boldsymbol v{i}\right) \
&\text{s.t.} && v
{i}\left(s{i}^{j},\boldsymbol \sigma{-i}\right) \leqslant \boldsymbol v{i}, && \forall i \in \Gamma, \forall s{i}^{j} \in S{i}, \
&&& \sum
{j} \boldsymbol \sigma{i}^{j} = 1, && \forall i \in \Gamma, \
&&& \boldsymbol \sigma
{i}^{j} \geqslant 0, && \forall i \in \Gamma, \forall j \in \left{1,\cdots,K_{i}\right}.
\end{aligned}

\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\
\ \ \ \ \ \ \ \ \ \ \ \ U = \begin{bmatrix}
1 & 4 & 2 \
4 & 3 & 2 \
1 & 0 & 1
\end{bmatrix}
\begin{array}{c}
1 \
(2) \
1
\end{array}
\
\max \ \ \ \ \ \ \ \ \ \ 4\quad 4\quad \left(2\right)

a{i^,j^}=\max_i \min_j a{ij}= \minj\max_i a{ij}

$$
那么称 $i^$ 行 $j^$ 列对应的点为 鞍点(saddle point)

关于鞍点和Nash均衡,我们有如下定理:

定理:鞍点和Nash均衡

在Nash均衡中,如果支付矩阵 $\boldsymbol U$ 存在鞍点,那么鞍点对应的战略组合即为Nash均衡。

我们可以定义混合战略的鞍点

定义:混合战略意义下的鞍点

对于给定的零和博弈的支付矩阵 $\boldsymbol U$ ,如果存在参与人 $1$ 的某个混合战略 $\boldsymbol \sigma_1^=(\sigma_1^{1},\cdots,\sigma_1^{m})$和参与人 $2$ 的某个混合战略 $\boldsymbol \sigma_2^=(\sigma_2^{1},\cdots,\sigma_2^{n})$ ,使得:

那么称战略组合$(\boldsymbol \sigma_1^,\boldsymbol \sigma_2^)$ 为支付矩阵 $\boldsymbol U$ 的鞍点。

von Neumann极大极小定理

von Neumann极大极小定理

在零和博弈中,对于给定的支付矩阵 $\boldsymbol U$ ,如果存在混合战略 $\boldsymbol \sigma_1^=(\sigma_1^{1},\cdots,\sigma_1^{m})$ 和 $\boldsymbol \sigma_2^=(\sigma_2^{1},\cdots,\sigma_2^{n})$以及一个常数 $v$ ,使得

那么称战略组合 $(\boldsymbol \sigma_1^,\boldsymbol \sigma_2^)$ 为博弈的Nash均衡,其中 $v$ 为参与人 $1$ 在均衡中所得到的期望支付,亦称该博弈的值。

零和博弈问题转化为对偶的规划问题

对于给定的零和博弈问题,如果博弈的值 $v>0$ ,那么博弈的 Nash均衡为下列对偶问题的解:

其中,Nash均衡支付为 $v=\frac{1}{\sum\limits{i=1}^m p_i}=\frac{1}{\sum\limits{j=1}^n q_j}$ ,Nash均衡战略 $\sigma_1^=(vp_1,\cdots,vp_i,\cdots,vp_m),\sigma_2^=(vq_1,\cdots,vq_j,\cdots,vq_n)$.

如果支付矩阵 $\boldsymbol U=(a{ij}){m\times n}$中每个元素都大于零,即 $a_{ij}>0$ ,则博弈的值 $v>0$ ;

由此,如果发现给定的支付矩阵 $\boldsymbol U$ 中存在小于 $0$ 的元素,那么可以把每个元素都加上一个常数,从而使得每个元素都大于 $0$ ,这样的话,可以保证博弈的值 $v>0$ ,就可以应用上面的方法求解博弈问题了。

例题

给定博弈如下,求解Nash均衡

$L$ $M$ $N$
$U$ $2,-2$ $-2,2$ $1,-1$
$C$ $-1,1$ $1,-1$ $0,0$
$D$ $3,-3$ $0,0$ $2,2$

解:

支付矩阵为:

我们可以加上一个常数 $2$ ,得到下面的支付矩阵:

设参与人 $1$ 和参与人 $2$ 的混合战略分别是 $\sigma_1=(v’p_1,v’p_2,v’p_3),\sigma_2=(v’q_1,v’q_2,v’q_3)$, $v$ 为原博弈的值, $v’$ 为新博弈的值,且 $v’=v+2$ ,利用对偶线性规划方法求解新战略式博弈的Nash均衡,构造规划问题如下:

上述对偶问题的解是

因此,所求的混合战略Nash均衡为: