基于策略的深度强化学习

发布时间 2023-07-04 12:48:57作者: 胡子鑫666

 策略函数,输入为状态,输出动作a对应的概率。

 

 

 利用神经网络去近似一个概率函数

 softmax函数使概率加和等于1且都为正数。

 Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。

 状态价值函数V,只与当前状态s有关

  将策略函数π替换为神经网络

 用梯度上升使策略函数提升

 策略梯度算法的推导

 俩种策略函数的等价形式

 

 

 

 分开求每个动作的f,然后加和。

 

利用蒙特卡洛来近似策略梯度。

 策略梯度上升算法步骤

 用观测法,玩完整局游戏,用观测到的ut代替价值函数Q。

 用神经网络来近似价值函数Q