“Prioritized Experience Replay(优先级经验回放)”是强化学习中的一种经验回放策略:在从回放缓冲区(replay buffer)采样训练数据时,不是均匀随机抽取,而是更频繁地抽取“更重要”的经验(通常以时间差分误差 TD error 的大小衡量),以提高学习效率与收敛速度。(该术语也常与“重要性采样修正”一起出现,用于减小抽样偏差。)
We used prioritized experience replay to sample more informative transitions during training.
我们使用优先级经验回放,在训练时采样信息量更大的状态转移。
By combining prioritized experience replay with importance sampling, the agent learned faster while reducing bias from non-uniform sampling.
通过将优先级经验回放与重要性采样结合,智能体在减少非均匀采样带来偏差的同时学得更快。
/praɪˈɔːrɪtaɪzd ɪkˈspɪəriəns rɪˈpleɪ/
该短语由三部分组成:prioritized(赋予优先级的)、experience(经验;在强化学习中通常指交互得到的转移样本)、replay(回放;指把过去存储的经验再次用于训练)。作为术语,它流行于深度强化学习文献中,用来区别于更早期的“uniform experience replay(均匀经验回放)”。