博弈论(Game Theory) - 01 - 前传之占优战略均衡

开始

我们现在准备攀爬博弈论的几座高峰。
我们先看看在纳什均衡产生之前，博弈论的发展情况。
我们的第一座高峰是占优战略均衡。

囚徒困境（prisoner's dilemma）和占优战略均衡

囚徒困境

经典的囚徒困境如下：
警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：
若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持抵赖，此人将即时获释，沉默者将判监10年。
若二人都保持抵赖（相关术语称互相“合作”），则二人同样判监1年。
若二人都互相坦白（相关术语称互相“背叛”），则二人同样判监8年。
如果你是其中一个囚徒，你该怎么办？

第一步：表述问题

博弈论表述问题的方式有：

博弈的“战略式”表述（strategic form representation）（也称为标准式表述（normal form representation））
“战略式”表述是使用一个支付矩阵来表述。
博弈的“扩展式”表述（extensive form representation）
“扩展式”表述是使用一个博弈树来表述。

这里，我们使用“战略式”表述，其支付矩阵如下：

		乙
		坦白	抵赖
甲	坦白	-8,-8	0,-10
甲	抵赖	-10,0	-1,-1

这个表中的数字，第一个是甲的支付结果，第二个是乙的支付结果。
比如：右上角的单元中，表示：在甲选择坦白，乙选择抵赖时，甲被释放，而乙获刑10年。

第二步：选择占优战略

首先，我们假设每个人都是理性人。
甲会如何考虑呢？
甲会先不考虑自己做出什么选择。他会先假设乙的选择是什么？
如果乙选择坦白，则甲选坦白，获刑8年；或者选择抵赖，获刑10年。这种情况下，甲选择坦白占优。
如果乙选择抵赖，则甲选坦白，获刑0年；或者选择抵赖，获刑1年。这种情况下，甲选择坦白占优。
因此，对于甲来说，选择坦白就是一个占优选择。

第三步：均衡

当然，坦白也是乙的占优战略。
这种场景下，甲和乙都选择了最优战略，不会再改变自己的战略，达到了均衡。

概念

博弈论
要理解博弈论，可以通过博弈论和决策论的区别开始。
决策论是研究局中人在给定其他环境参数条件下的最优选择问题。
博弈论研究的是当局中人充分考虑到其他局中人对其战略选择的反应后（即局中人都具有同样充分的理性时）进行最优战略的选择。
Player
\(\Gamma\)是玩家构成的集合。\(\Gamma = (1, 2, \dots, n)\)。
\(i\)是一个特定的玩家, \(\ i = 1, 2, \cdots, n, \ i \in \Gamma\)。
战略空间（strategy space）
一个战略告诉玩家在什么时候选择什么行动。
\(S_i\): 第i个玩家的战略空间。
\(s_i\): 第i个玩家的战略空间的一个元素。\(s_i \in S_i, \ i \in \Gamma\)。
要注意：场景的不同\(s_i\)的含义也有区别。有时\(s_i\)代表\(\forall s_i \in S_i\);有时\(s_i\)代表一个特定选择。
\(s_{-i}\): 除第i个局中人所选择战略\(s_i\)之外的其他所有局中人所选择的战略组合向量
信息
指玩家在博弈中拥有的相关知识，特别是有关其他玩家的特征和行动的知识。
支付函数和结果
\(u_i\): 第i个玩家的支付函数。
\(u_i = u_i(s_1, \cdots, s_i, \cdots, s_n), \ i \in \Gamma\)。
玩家的支付不仅是该玩家自己所选战略的函数，而且还是所有其他玩家选择的战略的函数，这正是博弈论所强调的互动效应的数学描述。
均衡
所有玩家都选择的最优战略或行动的组合。
\(G\): 博弈。
\(G = {S_1, \cdots, S_n; u_1, \cdots, u_n}\), 博弈的“战略式表述”（strategic form representation），玩家战略空间和支付函数的集合。

定义

有限博弈（finite game）
当局中人的个数n为有限数且每个局中人的战略空间中的元素只有限个时，称博弈为有限博弈（finite game）。

参考

博弈论与经济模型，蒲勇健。