博弈论(Game Theory) - 01 - 前传之占优战略均衡
博弈论(Game Theory) - 01 - 前传之占优战略均衡
开始
我们现在准备攀爬博弈论的几座高峰。
我们先看看在纳什均衡产生之前,博弈论的发展情况。
我们的第一座高峰是占优战略均衡。
囚徒困境(prisoner's dilemma)和占优战略均衡
囚徒困境
经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持抵赖,此人将即时获释,沉默者将判监10年。
若二人都保持抵赖(相关术语称互相“合作”),则二人同样判监1年。
若二人都互相坦白(相关术语称互相“背叛”),则二人同样判监8年。
如果你是其中一个囚徒,你该怎么办?
第一步: 表述问题
博弈论表述问题的方式有:
- 博弈的“战略式”表述(strategic form representation)(也称为标准式表述(normal form representation))
“战略式”表述是使用一个支付矩阵来表述。 - 博弈的“扩展式”表述(extensive form representation)
“扩展式”表述是使用一个博弈树来表述。 
这里,我们使用“战略式”表述,其支付矩阵如下:
| 乙 | |||
|---|---|---|---|
| 坦白 | 抵赖 | ||
| 甲 | 坦白 | -8,-8 | 0,-10 | 
| 抵赖 | -10,0 | -1,-1 | |
这个表中的数字,第一个是甲的支付结果,第二个是乙的支付结果。
比如:右上角的单元中,表示:在甲选择坦白,乙选择抵赖时,甲被释放,而乙获刑10年。
第二步:选择占优战略
首先,我们假设每个人都是理性人。
甲会如何考虑呢?
甲会先不考虑自己做出什么选择。他会先假设乙的选择是什么?
如果乙选择坦白,则甲选坦白,获刑8年;或者选择抵赖,获刑10年。这种情况下,甲选择坦白占优。
如果乙选择抵赖,则甲选坦白,获刑0年;或者选择抵赖,获刑1年。这种情况下,甲选择坦白占优。
因此,对于甲来说,选择坦白就是一个占优选择。
第三步:均衡
当然,坦白也是乙的占优战略。
这种场景下,甲和乙都选择了最优战略,不会再改变自己的战略,达到了均衡。
概念
博弈论
要理解博弈论,可以通过博弈论和决策论的区别开始。
决策论是研究局中人在给定其他环境参数条件下的最优选择问题。
博弈论研究的是当局中人充分考虑到其他局中人对其战略选择的反应后(即局中人都具有同样充分的理性时)进行最优战略的选择。Player
\(\Gamma\)是玩家构成的集合。\(\Gamma = (1, 2, \dots, n)\)。
\(i\)是一个特定的玩家, \(\ i = 1, 2, \cdots, n, \ i \in \Gamma\)。战略空间(strategy space)
一个战略告诉玩家在什么时候选择什么行动。
\(S_i\): 第i个玩家的战略空间。
\(s_i\): 第i个玩家的战略空间的一个元素。\(s_i \in S_i, \ i \in \Gamma\)。
要注意:场景的不同\(s_i\)的含义也有区别。有时\(s_i\)代表\(\forall s_i \in S_i\);有时\(s_i\)代表一个特定选择。
\(s_{-i}\): 除第i个局中人所选择战略\(s_i\)之外的其他所有局中人所选择的战略组合向量信息
指玩家在博弈中拥有的相关知识,特别是有关其他玩家的特征和行动的知识。支付函数 和 结果
\(u_i\): 第i个玩家的支付函数。
\(u_i = u_i(s_1, \cdots, s_i, \cdots, s_n), \ i \in \Gamma\)。
玩家的支付不仅是该玩家自己所选战略的函数,而且还是所有其他玩家选择的战略的函数,这正是博弈论所强调的互动效应的数学描述。均衡
所有玩家都选择的最优战略或行动的组合。
\(G\): 博弈。
\(G = {S_1, \cdots, S_n; u_1, \cdots, u_n}\), 博弈的“战略式表述”(strategic form representation),玩家战略空间和支付函数的集合。
定义
- 有限博弈(finite game)
当局中人的个数n为有限数且每个局中人的战略空间中的元素只有限个时,称博弈为有限博弈(finite game)。 
参考
- 博弈论与经济模型, 蒲勇健。
 
博弈论(Game Theory) - 01 - 前传之占优战略均衡的更多相关文章
- 博弈论(Game Theory) - 03 - 前传之最大最小均衡
		
博弈论(Game Theory) - 03 - 前传之最大最小均衡 开始 最大最小均衡是由人冯·诺依曼和摩根斯坦提出.冯·诺依曼和摩根斯坦也被认为是博弈论的创始人. 冯·诺依曼提出的"最大最 ...
 - 博弈论(Game Theory) - 02 - 前传之重复剔除严格劣战略的占优战略均衡
		
博弈论(Game Theory) - 02 - 前传之重复剔除严格劣战略的占优战略均衡 开始 "重复剔除劣战略的严格占优战略均衡"(iterated dominance equil ...
 - Vue.js 入门指南之“前传”(含sublime text 3 配置)
		
题记:关注Vue.js 很久了,但就是没有动手写过一行代码,今天准备入手,却发现自己比菜鸟还菜,于是四方寻找大牛指点,才终于找到了入门的“入门”,就算是“入门指南”的“前传”吧.此文献给跟我一样“白痴 ...
 - 《java入门第一季》之Arrays类前传(排序案例以二分查找注意的问题)
		
根据排序算法,可以解决一些小案例.举例如下: /* * 把字符串中的字符进行排序. * 举例:"dacgebf" * 结果:"abcdefg" * * 分析: ...
 - Android-自定义View前传-View的三大流程-Layout
		
Android-自定义View前传-View的三大流程-Layout 参考 <Android开发艺术探索> https://github.com/hongyangAndroid/FlowL ...
 - Android自定义View前传-View的三大流程-Measure
		
Android自定义View前传-View的三大流程-Measure 参考 <Android开发艺术探索> https://developer.android.google.cn/refe ...
 - Category Theory: 01 One Structured Family of Structures
		
Category Theory: 01 One Structured Family of Structures 这次看来要放弃了.看了大概三分之一.似乎不能够让注意力集中了.先更新吧. 群的定义 \( ...
 - (转)Groupon前传:从10个月的失败作品修改,1个月找到成功 并不挶泥在这个点子上面,它反而往后站一步,看看他们已经做好的这个网站,可以再怎么包装成另一个完完全全不同的网站?所有的人所做的每件失败的事情中, 一定有碰到或含有成功的答案」在里面,只是他们不知道而已。 人不怕失败」,只怕宣布失败」
		
(转)Groupon前传:从10个月的失败作品修改,1个月找到成功 今天读到 一个非常励志人心的故事 ,就像现在「叶问」有「前传」,最近很火红的团集购网站Groupon 也出现了「Groupon前传」 ...
 - SpringMVC深度探险(一) —— SpringMVC前传
		
在我们熟知的建立在三层结构(表示层.业务逻辑层.持久层)基础之上的J2EE应用程序开发之中,表示层的解决方案最多.因为在表示层自身的知识触角很多,需要解决的问题也不少,这也就难免造成与之对应的解决方案 ...
 
随机推荐
- 技术方案:在外部网址调试本地js(基于fiddler)
			
1 解决的问题 1) 场景1:生产环境报错 对前台开发来说,业务逻辑都在js中,所以报错90%以上都是js问题. 如果生产环境出现报错,但是测试环境正常.这时修改了代码没有环境验证效果, ...
 - 编程语言基础:用“收集器”理解各种语言(C++、Java、Python)中的可变参数!
			
[C++通常用一种特殊的List收集可变形参,而Java通常用一个数组,Python收集为tuple.dict.] 1.Java中的可变参数的函数:void f(ClassName... object ...
 - Hibernate基础学习(四)—对象-关系映射(上)
			
一.映射对象标识符 Java语言按内存地址来识别或区分同一个类的不同对象,而关系数据库按主键值来识别或区分同一个表的不同记录.Hibernate使用对象标识符(OID)来建立内存中的对象和数 ...
 - matlab实现可调节占空比的方波
			
我大概讲一下实现的原理:正弦波移相φ,当使得大于sin(φ)的值为1,其他值为-1,占空比就跟这个φ值之间有联系. 占空比原理图如下所示. 结果上图,可以实现调节占空比,方波频率,方波个数. 下面是函 ...
 - matlab 2016a破解中文版安装教程
			
之前电脑重装过,所以要重新安装一个matlab,在大三的时候学过matlab,信息老师给的安装包,但是不知道放哪里去了,记忆力不好,找了些网上的教程和下载地址,真的是坑,一些都是不行的,在这里记录下m ...
 - python select epoll poll的解析
			
select.poll.epoll三者的区别 select select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组(在linux中一切事物皆文件 ...
 - z-index用法总结
			
一.定义: z-index 只适用于元素有定位的情况,表示层级 数值越大 层级越高 展示的位置越靠前. 二.用法: 1.同级关系: z-index值较大的元素将叠加在z-index值较小的元素之上 ( ...
 - SQL入门之条件表达式
			
where子句和having子句主要是用来筛选符合条件的元组,其后紧跟的即为条件表达式. 0.and, or条件的连接 用法和一般编程语言一样,主要用于条件的拼接.and两边都为真,则结果为真.or两 ...
 - folly教程系列之:future/promise
			
attension:本文严禁转载. 一.前言 promise/future是一个非常重要的异步编程模型,它可以让我们摆脱传统的回调陷阱,从而使用更加优雅.清晰的方式进行异步编程.c++11中 ...
 - USACO Section 1.1-1 Your Ride Is Here
			
USACO 1.1-1 Your Ride Is Here 你的飞碟在这儿 众所周知,在每一个彗星后都有一只UFO.这些UFO时常来收集地球上的忠诚支持者.不幸的是,他们的飞碟每次出行都只能带上一组支 ...