题目
下列关于蒙特卡洛树搜索算法的说法中,不正确的是()。A. 模拟步骤采取的策略与选择步骤不一定要相同。B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。C. 反向传播只需要更新当前路径上已被扩展的节点。D. 选择过程体现了探索与利用的平衡。
下列关于蒙特卡洛树搜索算法的说法中,不正确的是()。
A. 模拟步骤采取的策略与选择步骤不一定要相同。
B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。
C. 反向传播只需要更新当前路径上已被扩展的节点。
D. 选择过程体现了探索与利用的平衡。
题目解答
答案
B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。
解析
本题考查蒙特卡洛树搜索(MCTS)算法的核心步骤与原理,需逐一分析选项正确性:
选项A:正确
MCTS的模拟步骤通常采用随机策略(如ε-贪心或均匀随机),目的是快速评估叶节点价值;而选择步骤需结合Upper Confidence Bound(UCB)公式,平衡探索与利用。两者策略不同,例如选择步骤依赖先验信息,模拟步骤仅需快速采样,因此策略不必相同。
选项B:错误
MCTS的扩展步骤是在当前节点(未被完全扩展的节点)中选择一个未被访问的子节点进行扩展,而非要求“所有子节点均未被扩展”。只有当节点的所有子节点都已被访问/扩展时,该节点才被视为“完全扩展”,此时才会停止扩展。因此,进入扩展步骤时,当前节点必然存在未被扩展的子节点,但并非所有子节点都未被扩展。
选项C:正确
反向传播的目标是将模拟结果(如胜负、得分)从叶节点传递回根节点,仅需更新当前路径上已被扩展的节点(即从叶节点到根节点的路径中的节点),未被访问的节点无需更新,这是MCTS的高效性体现。
选项D:正确
选择步骤的核心是UCB公式:$UCB(s,a) = Q(s,a) + c\sqrt{\frac{\ln N(s)}{N(s,a)}}$,其中$Q(s,a)$是动作价值(利用),$\sqrt{\frac{\ln N(s)}{N(s,a)}}$是探索项。该公式平衡了“利用已知高价值动作”和“探索未尝试动作”,因此选择过程体现了探索与利用的平衡。