什么是博弈论_PHP基础

什么是博弈论？

博弈论的英文名字是：game theory。顾名思义，就是做游戏的理论。这个游戏可以是我们正常理解的棋牌类游戏，也可以是电脑游戏，甚至打篮球踢足球这样的游戏。简单来讲，博弈论就是告诉我们怎么玩赢这些游戏的理论。

（图源：https://baike.baidu.com/item/%E5%8D%9A%E5%BC%88%E8%AE%BA/81545 ）

先给出一段简短的历史吧。1928年，冯·诺依曼证明了博弈论的基本原理，宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦著成《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域，奠定了这一学科的基础和理论体系。1950-1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。纳什的论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。

冯·诺依曼

约翰·福布斯·纳什

用一个最典型的例子来讲，囚徒困境（prisoner's dilemma）：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年，

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监2年，

若二人都互相认罪（互相“背叛”），则二人同样判监5年。

（图源：https://www.eisland.com.tw/Main.php?stat=a_pggZeHx）

博弈论有三大要素：

参与者，player：参与者需要作出动作，例子中的“甲”和“乙”；

动作空间，action space：参与者可以做的动作，例子中的“合作”和“被判”；

收益矩阵，payoff matrix：对应每一个可能的结果的每个人的收益，例子中矩阵中的值，对应参与者所获得的收益。

博弈论需要解决的问题是：

如果你是“甲”或者“乙”，你需要做什么来最大化自己的收益？

如果你是旁观者，你觉得这个博弈最可能出现的结果是什么？

在给的这个例子中，最可能出现的结果就是：甲和乙都选择背叛。因为如果你是甲，你选择合作，乙会选择背叛；你选择背叛，乙也会选择背叛——那么你肯定选择背叛；而乙也是这么想的。在这个情况下，没有人可以通过改变自己的策略来提高自己的收益，这被称为纳什均衡（Nash equilibrium）。

——所以这两人在牢里度过了两年相亲相爱的日子。

（图源：https://www.youtube.com/watch?v=1cCS8RMtK7g）

上面这只是最简单的一个例子。这个例子中甲和乙是互相竞争的，这被称为“非合作博弈（noncooperative game）”，同时因为他们的收益加起来不得零，所以也叫“非零和博弈（general-sum game）”。但是如果甲和乙在掷骰子，甲赢了5块钱，乙就得输5块钱，这个就被称为“零和博弈（zero-sum game）”。因为这里面只有两个人，所以也叫“两人博弈（two-player game）”，如果被抓的多于两个人，就被成为“多人博弈（multi-player game）”。我们还可以给这个例子加上很多的条件，来变成博弈论的其他变体：

如果甲和乙不是最大化自己的收益，而是最大化总的收益呢？这个对应的是合作博弈（cooperative game）。

如果甲和乙不是同时做出动作，而是甲先做动作，乙看到甲的动作之后再做动作呢？这个对应的是“序贯博弈（sequential game）”。

如果甲和乙不是做一次博弈，而是做好多次呢？这个对应“重复博弈（repeated game）”。

所以还可以有很多的变体，这些都属于博弈论的范畴。

（图源：https://wiki.mbalib.com/wiki/%E5%8D%9A%E5%BC%88%E8%AE%BA）

博弈论现在已经广泛地应用在经济学领域。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

main.php 是什么,什么是博弈论