强化学习相关-JZTXT

强化学习下两类：有模型和无模型。意思就是字面意思，就是算法里有没有网络模型。

没有模型的强化算法有： Q-learning, Sarsa. (PS: 垃圾中的战斗机，了解就行，有一个Q表，不停迭代)

有模型的强化算法有：有太多了，没有必要纠结。常见的就是DQN家族算法，PPO，A2C, A3C, DDPG, TD3等等

其他文章里叫基于模型，有一个高大上英文名叫什么model based 啥玩意。这个玩意听着高大上，其实就是在算法里嵌入里深度神经网络

基于模型分两个派别：值迭代和策略迭代

值迭代很好理解：

给一个状态，把这个这个状态输入到模型，模型给一个值。这个值就是状态值，迭代过程就是训练这个网络模型，更状态值选择目标。当然根据动作来训练。状态价值或者动作价值，他们是一种确定性策略，因为每次选择都是动作集里的最大值

总结：就是根据状态(动作)价值选择动作

策略迭代也很好理解：（

它的基本思想是通过不断地评估和改进策略来找到最优策略。

这个过程可以类比为我们在学习一个新技能，比如学习打篮球。刚开始，随便投篮，这就是我们的初始策略。然后观察投篮的结果，看看哪些动作能让我们投中篮球，这就是策略评估。接着我们会根据这些观察结果调整我们的投篮动作，比如调整投篮的角度或力度，这就是策略改进。然后我们再次投篮，观察结果，调整动作，如此反复，直到我们找到一个最好的投篮动作，这就是最优策略。

在策略迭代中，策略评估就是在给定策略的情况下，计算每个状态的值函数，也就是预期的总回报。策略改进就是在给定值函数的情况下，选择能使值函数最大的动作作为新的策略。这两个步骤交替进行，直到策略不再改变，此时得到的策略就是最优策略。