OOD
offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value
critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 ......
OOA OOD OOP
一般我们我们接到产品经理的需求后,开发阶段分如何几个步骤 可行性预研阶段,此阶段评估需求是否合理,能否实现。OOA阶段,此阶段分析用例,定义领域模型。OOD阶段,此阶段定义类图,类之间的交互图(时序图等等)。OOP阶段,根据OOD设计的类图,类之间的交互图输出代码。 可行性预研阶段,我们不做说明了, ......