JZTXT

基于策略的深度强化学习

发布时间 2023-07-04 12:48:57作者: 胡子鑫666

策略函数，输入为状态，输出动作a对应的概率。

利用神经网络去近似一个概率函数

softmax函数使概率加和等于1且都为正数。

Qπ用来评价在状态s下作出动作a的好坏程度，与策略函数π有关。

状态价值函数V，只与当前状态s有关

将策略函数π替换为神经网络

用梯度上升使策略函数提升

策略梯度算法的推导

俩种策略函数的等价形式

分开求每个动作的f,然后加和。

利用蒙特卡洛来近似策略梯度。

策略梯度上升算法步骤

用观测法，玩完整局游戏，用观测到的ut代替价值函数Q。

用神经网络来近似价值函数Q