
state:状态;Action:动作;Agent:主体;
在状态s下主体可以选择自己的动作a。

policy函数π:给出在状态s下作出动作a的概率,策略作出的动作是随机的。

状态转移:在旧状态s1下作出动作a转移到新状态。
转态转移也是随机的,随机性依环境而变。
在状态s下作出动作a转移到s‘的概率。

主体与环境的交互图:主体在状态s下作出动作a,环境依据主体的状态s和动作a决定状态转移即决定下一个状态s‘,并给出主体奖励。

在深度强化学习中有俩个随机抽样的应用,一个是动作具有随机性,一个是转态转移具有随机性。

主体在AI的辅助下计算当前状态作出的动作的概率,然后随机抽样决定动作,作出动作得到新的状态以及奖励,重复这个步骤得到轨迹(state,action,reward)。

Ut定义为t时刻及t以后直到游戏结束时得到的奖励。考虑到当前的奖励和以后的奖励并不等价(例如现在就给你100块和一年后给你100块,肯定是现在的价值要高一点),于是定义出折扣奖励,使越远的奖励价值越低。

由于当前的奖励取决于当前的状态和做出的动作,且
,则Ut则与
有关。

动作价值函数表明在当前状态s下作出动作a的ut期望,意义为在状态s下做动作a的价值。由于动作价值函数与policy函数π有关,故我们可以求最大化的动作价值函数求得最好的policy函数。

状态价值函数把动作a积掉,故与动作a无关,能用来评估状态s的好坏。

用状态价值函数的平均值来评估policy函数π的好坏。

有俩种方法控制ai玩游戏,一种是有优秀的policy函数,执行函数随机生成的动作;另一种是执行使动作价值函数最大化的动作。




