一、强化学习
  • 强化学习是一种无教师学习。Q-learning算法及其在囚徒困境问题中的实现_建模
    理解:系统有学习器和环境两个模块,分时进行学习,在t=i时,向学习器输入xi,选择动作ai可以获得一个ri。此时系统所要选择的是当输入xi时使得ri
    最大的动作ai。选择xi的行为便称为策略。
  • Q-learning算法的优点:不需要对所处的动态环境建模,所以耗费时间少,能在Agent与环境交互时在线使用。
    运行机制:Q-learning算法及其在囚徒困境问题中的实现_强化学习_02
  • TFT算法:即针锋相对算法,其基本策略就是以对手上一步的行动为当前行动。
二、实验设计

Q-learning算法及其在囚徒困境问题中的实现_技术_03
Q-learning算法及其在囚徒困境问题中的实现_强化学习_04
Q-learning算法及其在囚徒困境问题中的实现_建模_05
理解:共四种状态,每种状态有两种可以选择的动作,所以共8种Q值。

三、 实验结果

Q-learning算法及其在囚徒困境问题中的实现_强化学习_06