强化学习算法中的梯度和更新公式在代码的哪里体现?

发布时间 2024-01-04 22:09:32作者: 芋圆院长

这些一般在算法的更新函数中体现,即训练--优化中体现。
一般以损失的形式表现,然后调用loss.backward()函数进行优化。

  1. 计算损失
  2. 反向传播
  3. 梯度下降 调用优化器的step函数实现。

如果公式中有期望那么就需要mean函数