题目

在本课程内容范围内，“在状态s，按照某个策略采取动作a后在未来所获得反馈值的期望”，这句话描述了状态s的（ )A. 策略优化B. 价值函数C. 动作-价值函数D. 采样函数

在本课程内容范围内，“在状态s，按照某个策略采取动作a后在未来所获得反馈值的期望”，这句话描述了状态s的（ )

A. 策略优化

B. 价值函数

C. 动作-价值函数

D. 采样函数

题目解答

C. 动作-价值函数

在强化学习中，动作-价值函数（也称为Q函数）表示在给定状态下采取某个动作后，未来所获得反馈值的期望。它综合考虑了当前状态和动作对未来奖励的影响，是强化学习中一个重要的概念。