吴恩达机器学习笔记(四) bellman方程 \(s\):当下所处的状态 \(a\):在s状态下要采取的行动 \(Q(s,a)\):在s状态下采用a行动后,所能获取的最大奖励 \(R(s)\):在当前状态下所能获得的奖励 \(\gamma\):折扣因子,在0到1之间 本栏目推荐文章2024/1/13 算法笔记Python学习笔记HDP 笔记学习进度笔记2微软企业库Unity学习笔记(一)微软企业库Unity学习笔记(二)kepware关于U-CON的使用笔记 (串口_非主动问答式)Anaconda使用笔记SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记【做题笔记】数论做题笔记