题目
时序差分学习(TD)与蒙特卡洛方法的主要区别是()A. 蒙特卡洛方差更低B. TD需要环境模型C. TD使用自举法更新D. TD仅适用于离散状态
时序差分学习(TD)与蒙特卡洛方法的主要区别是()
A. 蒙特卡洛方差更低
B. TD需要环境模型
C. TD使用自举法更新
D. TD仅适用于离散状态
题目解答
答案
C. TD使用自举法更新
解析
本题考查时序差分学习(TD)与蒙特卡洛方法的区别,解题思路是分别分析每个选项,判断其是否为两者的主要区别。
- 选项A:
- 蒙特卡洛方法是在一个完整的episode结束后,根据实际得到的回报(return)来更新价值函数。由于回报的随机性较大,蒙特卡洛方法的方差通常较高。
- 而时序差分(TD)方法在每个时间步都进行更新,利用当前的估计值和下一个状态的估计值来更新当前状态的价值,这种方式在一定程度上平滑了更新过程,方差相对较低。所以选项A错误。
- 选项B:
- 蒙特卡洛方法不需要环境模型,它只需要根据实际的交互经验(即完整的episode)来学习价值函数。
- 时序差分(TD)方法同样不需要环境模型,它是基于实际的环境交互数据进行学习的。所以选项B错误。
- 选项C:
- 蒙特卡洛方法是在一个episode结束后,使用实际的回报(即从当前状态到episode结束所获得的总奖励)来更新价值函数,它是基于完整的实际结果进行更新的。
- 时序差分(TD)方法使用自举法(bootstrapping),即在每个时间步 $t$,使用当前状态 $S_t$ 的估计价值 $V(S_t)$、下一个状态 $S_{t + 1}$ 的估计价值 $V(S_{t+1})$ 以及当前获得的奖励 $R_{t + 1}$ 来更新 $V(S_t)$,更新公式为 $V(S_t) \leftarrow V(S_t)+\alpha[R_{t + 1}+\gamma V(S_{t+1})-V(S_t)]$,其中 $\alpha$ 是学习率,$\gamma$ 是折扣因子。这是TD方法与蒙特卡洛方法的主要区别。所以选项C正确。
- 选项D:
- 蒙特卡洛方法和时序差分(TD)方法都既适用于离散状态,也可以通过一些扩展方法应用于连续状态。所以选项D错误。