基于自适应不确定性度量的离线强化学习算法
南京邮电大学学报(自然科学版)
页数: 7 2024-07-02
摘要: 离线强化学习可以从历史经验数据中直接学习出可执行的策略,由此来避免与在线环境的高代价交互,可应用于机器人控制、无人驾驶、智能营销等多种真实场景。有模型的离线强化学习首先通过监督学习构造环境模型,并通过与该环境模型交互来优化学习策略,具有样本效率高的特点,是最常用的离线强化学习算法。然而,由于离线数据集存在分布偏移问题,现有的方法往往通过静态的方法来评估此种不确定性,无法动态自适... (共7页)