这一节考察利用SGD随机梯度下降来最小化投影贝尔曼误差PBE。作为真正的SGD方法,梯度TD方法即使在离策略和非线性近似的条件下也具有优良的收敛特性。 在线性近似下,我们总是会得到一个精确解,即TD不动点(...
没有更多内容