题目

下列关于蒙特卡洛树搜索算法的说法中,不正确的是()。A. 模拟步骤采取的策略与选择步骤不一定要相同。B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。C. 反向传播只需要更新当前路径上已被扩展的节点。D. 选择过程体现了探索与利用的平衡。

下列关于蒙特卡洛树搜索算法的说法中,不正确的是()。

A. 模拟步骤采取的策略与选择步骤不一定要相同。

B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。

C. 反向传播只需要更新当前路径上已被扩展的节点。

D. 选择过程体现了探索与利用的平衡。

题目解答

答案

B. 算法进入扩展步骤时,当前节点的所有子节点必然都未被扩展。

解析

本题考查蒙特卡洛树搜索（MCTS）算法的核心步骤与原理，需逐一分析选项正确性：

选项A：正确

MCTS的模拟步骤通常采用随机策略（如ε-贪心或均匀随机），目的是快速评估叶节点价值；而选择步骤需结合Upper Confidence Bound（UCB）公式，平衡探索与利用。两者策略不同，例如选择步骤依赖先验信息，模拟步骤仅需快速采样，因此策略不必相同。

选项B：错误

MCTS的扩展步骤是在当前节点（未被完全扩展的节点）中选择一个未被访问的子节点进行扩展，而非要求“所有子节点均未被扩展”。只有当节点的所有子节点都已被访问/扩展时，该节点才被视为“完全扩展”，此时才会停止扩展。因此，进入扩展步骤时，当前节点必然存在未被扩展的子节点，但并非所有子节点都未被扩展。

选项C：正确

反向传播的目标是将模拟结果（如胜负、得分）从叶节点传递回根节点，仅需更新当前路径上已被扩展的节点（即从叶节点到根节点的路径中的节点），未被访问的节点无需更新，这是MCTS的高效性体现。

选项D：正确

选择步骤的核心是UCB公式：$UCB(s,a) = Q(s,a) + c\sqrt{\frac{\ln N(s)}{N(s,a)}}$，其中$Q(s,a)$是动作价值（利用），$\sqrt{\frac{\ln N(s)}{N(s,a)}}$是探索项。该公式平衡了“利用已知高价值动作”和“探索未尝试动作”，因此选择过程体现了探索与利用的平衡。