• 发布了文章 2022-12-25 20:49:02

    11.7 梯度TD方法

    这一节考察利用SGD随机梯度下降来最小化投影贝尔曼误差PBE。作为真正的SGD方法,梯度TD方法即使在离策略和非线性近似的条件下也具有优良的收敛特性。 在线性近似下,我们总是会得到一个精确解,即TD不动点(...

    11.7 梯度TD方法

没有更多内容

返回顶部 暗黑模式