Value Function
定义(Definition)
“Value function”(价值函数):在数学、经济学与强化学习中,指一个把状态、行动或选择映射到“价值”的函数;这个“价值”通常表示期望回报/收益的大小(例如未来累积奖励的期望值)。在强化学习里,常见的有状态价值函数 (V(s)) 和动作价值函数 (Q(s,a))。
发音(Pronunciation, IPA)
/ˈvæljuː ˈfʌŋkʃən/
例句(Examples)
In reinforcement learning, the value function estimates future reward.
在强化学习中,价值函数用于估计未来的回报。
By solving the Bellman equation, we can compute the optimal value function for each state under a given policy.
通过求解贝尔曼方程,我们可以在给定策略下计算每个状态的最优价值函数。
词源(Etymology)
“value”源自拉丁语 valēre(意为“强健、有价值”),后来引申为“价值、重要性”;“function”来自拉丁语 functiō(意为“履行、执行”,后发展为“功能、函数”)。合在一起,“value function”直观表达为“用函数形式表示的价值”。
相关词(Related Words)
文学与经典著作中的用例(Literary Works)
- Reinforcement Learning: An Introduction(Richard S. Sutton & Andrew G. Barto)——系统讲解 (V(s))、(Q(s,a)) 等价值函数概念,是强化学习领域最常引用的教材之一。
- Dynamic Programming / “Bellman 方程”相关著作(Richard Bellman)——价值函数与动态规划紧密相关,许多表述以最优性原理与递推形式出现。
- Markov Decision Processes: Discrete Stochastic Dynamic Programming(Martin L. Puterman)——在马尔可夫决策过程框架下,价值函数是描述策略优劣与求解最优策略的核心对象。
- Recursive Methods in Economic Dynamics(Nancy L. Stokey & Robert E. Lucas Jr., with Edward C. Prescott)——在宏观经济动态优化中,价值函数常用于刻画最优决策与跨期效用。