当前位置:首页 > 科技文档 > 数学 > 正文

融合强化学习的三支治略选择及其有效性分析

计算机科学与探索 页数: 9 2023-04-11
摘要: 三支决策的“分、治、效”(TAO)模型包括构建三分、施加策略、结果评估三个部分。目前,关于结果评估的研究旨在衡量策略施加后结果的前后变化,还无法预测施加哪个策略能达到最大效果。为了解决这一问题,对TAO模型的“治”和“效”进行了研究,提出一种基于强化学习的三支改变模型的策略选择与有效性预测的方法。首先将改变三支决策TAO模型中的改变三分状态和策略分别作为强化学习中的状态和动作,...

开通会员,享受整站包年服务立即开通 >