概述

在第二节课中,讲师对 上一节课 中的 结尾内容 进行了总结和扩展。

囚徒困境

重新介绍了一下 囚徒困境,并指出 沟通本身并不能化解 他。解决囚徒困境的主要方式还是得跳出思维定势,一般有以下几种方式:

  • 使用 制定协议制定规章制度 等方式
  • 单次博弈 转化为 多次重复博弈
  • 通过教育

最终通过 改变收益 的方式来破解这个问题。

提示

改变收益就能改变动机

比较有意思的是作者对 通过教育 来解决囚徒困境表达的悲观的态度,而在疫情之后来看,通过教育国民改变收益来破解反倒成为了最优解,很具有讽刺意味。时至今日仍然不得不承认这种耗费巨大的做法是具有可行性的。

博弈论的基本要素

博弈论的基本要素包括:

  • 参与人 players 使用 来表达
  • 策略 strategies
    • 使用 来表述某个参与人 的某个策略
    • 使用 来表述策略合集,也即是某参与人 所有可能的策略集合
    • 使用 来表示某一次博弈,可以称其为一个策略组合(也有被称作 策略组合、策略向量、或者是策略列表)
    • 使用 代表除了 以外的其余参与人的策略
  • 收益 payoffs
    • 使用 来代表参与人 的收益
    • 使用 简写来代表上文的收益,代表由 s 策略组合决定的参与人 收益

分析收益

就是 14 这样一个具体的数字

这个集合就是由 组成

就代表譬如 上一节课 中提交的那些个作业,就是一次单独的博弈,最后 就等于

其中 代表误差

一个随意的例子

左 L中 C右 R
上 T
下 B

参与人:

  • player1
  • player2

所以对于参与人 的策略 严格劣势于参与人 的另一个策略 ,在其他 参与人 选择 时,选择 si 的收益 严格优于此情况下选 的收益 ,这种情况下写作下面这样:

在上面这个例子中 player2 的 R 策略相较于 C 符合这一条件,可以认为 C 策略是 R 策略的 优势策略 或者也可以称为 R 是 C 的 严格劣势策略,所以我们如果是 player2 永远不应该选择 R 策略。

通俗的讲

这种情况下无论其他的参与人怎么选择, si 总是更好的选择也就是说他总是能带来更高的收益

进攻 vs 防守

下面举一个特殊的例子,假设有个将军准备进攻一个国家,总计由2单位的军队:

  • E 代表平原,描述相对容易进攻的位置
  • H 代表山路,描述相对困难的位置

对于收益我们使用剩余的兵力数量来代表,如果碰到防守部队,那么他会损失 1 兵力,而如果选择山路不论是否碰到防守部队,都会损失 1 兵力,基于此,会有如下收益矩阵:

EH
E
H

这边很快能判断出,进攻方选择平原不是一定严格优势于山路的,因为如果防御方选择平原防御的情况下,山路和平原的收益完全相同,所以需要引入一个新概念—— 平原 弱优势于 山路, 或者称作 山路为 弱劣势策略

所以对于参与人 的策略 弱劣势于参与人 的另一个策略 ,在其他 参与人 选择 时,选择 si 的收益 大于等于此情况下选 的收益 ,这种情况下写作下面这样:

那么相对的,至少在某种情况下,对于其对手选择参与者 的策略 ,必严格优于其他策略 , 此表达于前文一致。

那么对于参与 不应当选择弱劣势策略。

那么对于防守方来讲,最终的目标是进攻的士兵数量最小化,所以应该在平原设防。

猜数游戏

基于上面学到的知识,现在我们可以开始推导猜数游戏了。

按照算法,我们显然可以得出第一个结论:

大于 67 的数字是一个劣势策略,因为选择小于 67 的情况下总是比 大于 67 要优势。

随后一旦我们意识到 67-100 是劣势策略以后,我们会剔除他们,这样 45-67 就变成一个劣势策略:

大于45小于67 的数字由原先的非劣势策略转换为劣势策略。

以此类推: 最终结果会收束在 1

但是同样的,这样的推理的第一目标是:你是一个理性人,且你的对手也是一个理性人。

但是最终这个实验的结果并不是1,而是 9,很遗憾我也猜错了。

年份平均数字
200318.5
200421.5
200523
200613.3

注:这次没有课后习题