深度强化学习基本概念-JZTXT

state：状态；Action：动作；Agent：主体；

在状态s下主体可以选择自己的动作a。

policy函数π：给出在状态s下作出动作a的概率，策略作出的动作是随机的。

状态转移：在旧状态s1下作出动作a转移到新状态。

转态转移也是随机的，随机性依环境而变。

在状态s下作出动作a转移到s‘的概率。

主体与环境的交互图：主体在状态s下作出动作a，环境依据主体的状态s和动作a决定状态转移即决定下一个状态s‘，并给出主体奖励。

在深度强化学习中有俩个随机抽样的应用，一个是动作具有随机性，一个是转态转移具有随机性。

主体在AI的辅助下计算当前状态作出的动作的概率，然后随机抽样决定动作，作出动作得到新的状态以及奖励，重复这个步骤得到轨迹（state，action，reward）。

Ut定义为t时刻及t以后直到游戏结束时得到的奖励。考虑到当前的奖励和以后的奖励并不等价（例如现在就给你100块和一年后给你100块，肯定是现在的价值要高一点），于是定义出折扣奖励，使越远的奖励价值越低。

由于当前的奖励取决于当前的状态和做出的动作，且，则Ut则与有关。

动作价值函数表明在当前状态s下作出动作a的ut期望，意义为在状态s下做动作a的价值。由于动作价值函数与policy函数π有关，故我们可以求最大化的动作价值函数求得最好的policy函数。

状态价值函数把动作a积掉，故与动作a无关，能用来评估状态s的好坏。

用状态价值函数的平均值来评估policy函数π的好坏。

有俩种方法控制ai玩游戏，一种是有优秀的policy函数，执行函数随机生成的动作；另一种是执行使动作价值函数最大化的动作。

深度强化学习 基本概念