题目
在本课程内容范围内,“在状态s,按照某个策略采取动作a后在未来所获得反馈值的期望”,这句话描述了状态s的( )A. 策略优化B. 价值函数C. 动作-价值函数D. 采样函数
在本课程内容范围内,“在状态s,按照某个策略采取动作a后在未来所获得反馈值的期望”,这句话描述了状态s的( )
A. 策略优化
B. 价值函数
C. 动作-价值函数
D. 采样函数
题目解答
答案
C. 动作-价值函数
解析
在强化学习中,动作-价值函数(也称为Q函数)表示在给定状态下采取某个动作后,未来所获得反馈值的期望。它综合考虑了当前状态和动作对未来奖励的影响,是强化学习中一个重要的概念。