基于自适应不确定性度量的离线强化学习算法

南京邮电大学学报(自然科学版) 页数： 7 2024-07-02

摘要：离线强化学习可以从历史经验数据中直接学习出可执行的策略，由此来避免与在线环境的高代价交互，可应用于机器人控制、无人驾驶、智能营销等多种真实场景。有模型的离线强化学习首先通过监督学习构造环境模型，并通过与该环境模型交互来优化学习策略，具有样本效率高的特点，是最常用的离线强化学习算法。然而，由于离线数据集存在分布偏移问题，现有的方法往往通过静态的方法来评估此种不确定性，无法动态自适... （共7页）

开通会员，享受整站包年服务

科技文档

数学力学化学金融证券保险投资会计审计园艺林业旅游体育物理学生物学天文学气象学海洋学地质学新能源金属学农艺学农作物管理学领导学自然科学系统科学资源科学无机化工有机化工燃料化工化学工业材料科学矿业工程冶金工业安全科学环境科学工业通用机械工业无线电子电信技术铁路运输汽车工业船舶工业动力工程电力工业农业科学农业工程植物保护动物医学教育理论学前教育初等教育中等教育高等教育职业教育成人教育自然地理地球物理经济统计农业经济工业经济交通经济企业经济文化经济信息经济贸易经济财政税收市场研究科学研究互联网自动化轻工业核科学服务业石油然气服务业野生动物水产渔业硬件仪器仪表航空航天武器军事公路运输水利水电建筑科学软件