我们现在来看如何求得博弈的解。
也就是基于前面提出的三点,关于博弈推理的假定,看
一个博弈的参与人分别会采用什么策略,形成一个
每个人都不得不满意的策略组。讨论博弈问题可以有两个出发点,
一是从已经严格定义好的博弈出发,也就是已经明确了参与人、
策略和回报,那么三个要素,简单地通常就是给出收益矩阵。
不管它是怎么来的, 从那里开始讨论每个参与人可能采取的策略。
例如有这样一个收益矩阵, 尽管我们现在也许能想起来它有着我们前面谈
到的那两个学生考试前一天要做的某种决定的那个背景, 但那对我们现在讨论这个博弈的解来说已经无关紧要了。
我们现在只是关心有两个人,各自有这么两个
策略选择,从每个策略组呢,从每个策略组合能得到的回报,
如这个矩阵中所表示的,问他们分别会采用什么策略? 我们先看参与人
1 该用什么策略? 他有这个策略
U 和 D,根据假设他是了解整个博弈结构的,
也就是他看得见这个收益矩阵,于是他会想如果参与人 2
采用策略 L, 他应该用策略 D,因为回报
92 比较大, 进一步他还会想,如果这个参与人
2 用的是策略 R,它也应该用策略 D, 因为回报
88 比较大,也就是说无论参与人 2
采用什么策略, 这个参与人 D 他都应该用策略 D。
否则, 就不符合理性人假设。具有这样一种性质的策略,
即无论对方用什么策略,这个都是最好的,给个名字 叫做严格占优策略。这个
D 就是参与人 1 的严格占优策略。类似的分析能看到
这个 R 是参与人 2 的严格占优策略。按照博弈推理的假设,
参与人不可能不选择严格占优策略。
那么对这个例子而言,博弈的解就是策略组(D, R)。
不过讨论博弈问题有时候是从某种
情景描述出发,首先是从那个情景中抽象归纳出博弈的三要素,
于是就构造了一个博弈,然后再讨论它的解。
例如我们前面从田忌赛马的故事,
归纳出那个博弈,从两个学生面临的问题归纳出刚才我们求解的那个博弈。
这其实是很有意义的,因为从情景归纳出博弈本身常常就是一个挑战,
是我们应用博弈论知识解决问题的一个关键,这也就是我们说的第二个出发点。
看这个博弈论的经典例子。
“囚徒困境”问题,假设有两个疑犯被警察抓住, 并且被分开关在不同的囚室,
于是他们就没有机会商量订立什么攻守同盟之类的事情,警察呢也
强烈怀疑他们和一场这个抢劫案有关, 但是没有充足的证据,然而他们当时都拒捕了,那么这件事情也是可以判刑的。
那么在这个情况下,两个疑犯就被告知下面的结果, 如果你坦白,而同伙抵赖的话,
那么你就马上被释放,那么你的同伙他要承担全部的罪行,就要判十年。
如果你们都坦白,那就是你们都犯了抢劫罪了,
但由于你们有认罪的表现,就判四年。如果你们都不坦白,
那么就没办法证明你们的抢劫罪,但是我们将以拒捕 这个罪来控告你们,都会被判刑一年。
那么现在你的同伙也在接受这样的审讯,
你是坦白还是抵赖呢?根据上面的描述,
将判刑的年数看出是负的回报, 认为释放的回报就是 0 了,我们就得到这么一个收益矩阵。
类似于前面的分析, 我们可以看到这个坦白是
两个人的严格占优策略,大家都是坦白, 那么两人会分别去选择这个策略了,也就是说
坦白和坦白这个策略组是这个博弈的解。
在这里啊,我们特别值得注意到的是 如果都抵赖其实两个人都有更好的回报,也就是判一年嘛,
而不是现在都坦白了判四年,但是在现实中如果我们面临这样的选择,
大概也只能如此,因为会担心另外一个人坦白了,自己抵赖那就会很糟糕了。
也就是说这个博弈模型,包括它的解, 相当有效地刻画了一种现实的情形。
上面这个例子每个参与人都有一个严格占优策略,
于是很自然地就会选它,,但显然不会总有那么容易的事儿。
我们教材上讲到一个“营销战略”博弈的例子, 归纳起来的收益矩阵就是这个样子的,可以看到廉价
是公司 1 的严格占优策略,但公司 2 没有占优策略,
因为如果这个公司 1 出的是廉价策略, 公司 2
的好策略是高档,对公司 1 的高档策略呢, 公司
2 的好策略就是廉价,那么这样一个博弈的解应该是什么呢?
其实也很简单,由于这个公司 1 一定会用它的占优策略,
也就是廉价策略,这个时候呢按照理性人的假设, 公司 2
的选择就只会是高档策略, 我们就说公司
2 的高档策略 是公司 1 廉价策略的严格最佳应对,
也就是说公司 1 有严格占优策略, 公司
2 虽然没有,但有一个最佳应对,于是
这个博弈的解就是策略组合:(廉价,高档)。
到这儿,我们已经引入了博弈推理的两个很基本的
概念,占优策略和最佳应对。
占优策略是相对于对方所有策略而言的, 而最佳应对是针对对方某一个策略而言的。
前面冠以严格两个字, 是因为在我们给出的例子中,它们分别是独一无二的。
下面我们再通过一个例子来进一步辨别这么几个概念。
这儿是一个简单的收益矩阵, 可以看出这个 U
是参与人 1,就这个横方向, 的严格占优策略,对于参与人
2 来说 R 是一个好策略, 无论参与人 1 采用
U 还是 D,策略 R 至少不比这个 L
差,我们 说这个 R 是参与人 2 的占优策略。
同时由于在应对 U 的时候呢, 这个 R 和这个
L 有同样的回报,我们说这个 R 不是严格占优的,
类似地,我们看到这个 L 是 U 的
最佳应对,但不是严格的, 因为它与 R 应对的回报是一样的,都是 3。
同时呢,我们看到这个 R 是 D 的严格最佳应对。
到此我们看到了在博弈 求解中,如果参与人都有严格占优策略,
那他们一定会选那个策略。
在双人博弈的场合,如果参与人 1
有严格占优策略, 参与人 2 没有,那他就会采用
对参与人 1 严格占优策略的最佳应对策略。
现在的问题是如果
两个人都没有严格占优策略呢?例如我们教材中的这个例子,
背景是两个公司在三个客户之间竞争, 不难检查他们都没有严格占优策略。我们看到对公司
1 来说, 它对于公司 2 的 A B C 三个策略,
它最佳应对分别是 A B C,都不一样的,因此没有一个是占优的。
而对公司 2 来说呢,相对于公司 1 的 A B C 三个策略,
它的最佳应对分别是 A C B,也都不同,也就是说
没有占优的,这样一个博弈的解会是什么呢? 如何把它找出来呢?这就是博弈论的一个核心问题。
我们下节讨论。