强化学习:AC算法中为什么不使用Q函数来表示优势函数

发布时间 2023-11-29 11:42:01作者: Angry_Panda

 

 

《High-Dimensional Continuous Control Using Generalized Advantage Estimation》

 

 

 

 

 

 

======================

 

原论文: