吴恩达机器学习笔记（四）

bellman方程

\(s\):当下所处的状态

\(a\):在s状态下要采取的行动

\(Q(s,a)\):在s状态下采用a行动后，所能获取的最大奖励

\(R(s)\):在当前状态下所能获得的奖励

\(\gamma\):折扣因子，在0到1之间