题目

时序差分学习（TD）与蒙特卡洛方法的主要区别是（）A. 蒙特卡洛方差更低B. TD需要环境模型C. TD使用自举法更新D. TD仅适用于离散状态

时序差分学习（TD）与蒙特卡洛方法的主要区别是（）

A. 蒙特卡洛方差更低

B. TD需要环境模型

C. TD使用自举法更新

D. TD仅适用于离散状态

题目解答

答案

C. TD使用自举法更新

解析

本题考查时序差分学习（TD）与蒙特卡洛方法的区别，解题思路是分别分析每个选项，判断其是否为两者的主要区别。

选项A：
- 蒙特卡洛方法是在一个完整的episode结束后，根据实际得到的回报（return）来更新价值函数。由于回报的随机性较大，蒙特卡洛方法的方差通常较高。
- 而时序差分（TD）方法在每个时间步都进行更新，利用当前的估计值和下一个状态的估计值来更新当前状态的价值，这种方式在一定程度上平滑了更新过程，方差相对较低。所以选项A错误。
选项B：
- 蒙特卡洛方法不需要环境模型，它只需要根据实际的交互经验（即完整的episode）来学习价值函数。
- 时序差分（TD）方法同样不需要环境模型，它是基于实际的环境交互数据进行学习的。所以选项B错误。
选项C：
- 蒙特卡洛方法是在一个episode结束后，使用实际的回报（即从当前状态到episode结束所获得的总奖励）来更新价值函数，它是基于完整的实际结果进行更新的。
- 时序差分（TD）方法使用自举法（bootstrapping），即在每个时间步 $t$，使用当前状态 $S_t$ 的估计价值 $V(S_t)$、下一个状态 $S_{t + 1}$ 的估计价值 $V(S_{t+1})$ 以及当前获得的奖励 $R_{t + 1}$ 来更新 $V(S_t)$，更新公式为 $V(S_t) \leftarrow V(S_t)+\alpha[R_{t + 1}+\gamma V(S_{t+1})-V(S_t)]$，其中 $\alpha$ 是学习率，$\gamma$ 是折扣因子。这是TD方法与蒙特卡洛方法的主要区别。所以选项C正确。
选项D：
- 蒙特卡洛方法和时序差分（TD）方法都既适用于离散状态，也可以通过一些扩展方法应用于连续状态。所以选项D错误。