
策略函数,输入为状态,输出动作a对应的概率。

利用神经网络去近似一个概率函数

softmax函数使概率加和等于1且都为正数。

Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。

状态价值函数V,只与当前状态s有关

将策略函数π替换为神经网络

用梯度上升使策略函数提升

策略梯度算法的推导

俩种策略函数的等价形式

分开求每个动作的f,然后加和。

利用蒙特卡洛来近似策略梯度。

策略梯度上升算法步骤

用观测法,玩完整局游戏,用观测到的ut代替价值函数Q。

用神经网络来近似价值函数Q










策略函数,输入为状态,输出动作a对应的概率。

利用神经网络去近似一个概率函数

softmax函数使概率加和等于1且都为正数。

Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。

状态价值函数V,只与当前状态s有关

将策略函数π替换为神经网络

用梯度上升使策略函数提升

策略梯度算法的推导

俩种策略函数的等价形式

分开求每个动作的f,然后加和。

利用蒙特卡洛来近似策略梯度。

策略梯度上升算法步骤

用观测法,玩完整局游戏,用观测到的ut代替价值函数Q。

用神经网络来近似价值函数Q








