当前位置:首页 > 科技文档 > 自动化 > 正文

基于不确定性权重的保守Q学习离线强化学习算法

计算机科学 页数: 8 2023-12-02
摘要: 离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避... (共8页)

开通会员,享受整站包年服务立即开通 >