您现的位置:首页 > 数据库检索 > 中文期刊 

基于自回归预测模型的深度注意力强化学习方法*

加收藏
  • 【题名】:基于自回归预测模型的深度注意力强化学习方法*
  • 【年份】:2020
  • 【作者】:梁星星,冯旸赫,黄金才,王琦,马扬,刘忠
  • 【关键词】:注意力机制  深度强化学习  actor-critic算法  变分自动编码  混合密度网络-循环神经网络
  • 【摘要】:近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如Alpha Go、Open AI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.
  • 【期刊名】:软件学报
  • 【分类号】:TP18
  • 【期号】:第4期
  • 【资金项目】:国家自然科学基金(71701205)
  • 【作者简介】:梁星星 (1992-),男,山西永济人,硕士,主要研究领域为多agent 智能规划,多agent深度强化学习. 冯旸赫 (1985-),男,博士,副教授,主要研究领域为因果发现与推理,主动学习,强化学习. 黄金才 (1973-),男,博士,教授,博士生导师,主要研究领域为智能调度与控制. 王琦 (1992-),男,硕士,主要研究领域为不确定性可控的强化学习,贝叶斯统计学习. 马扬 (1993-),男,硕士,主要研究领域为网络嵌入,链路预测,图神经网络. 刘忠 (1968-),男,博士,教授,博士生导师,主要研究领域为多智能体系统.
  • 【作者单位】:国防科技大学系统工程学院
  • 【页码】:948-966
相关文献
基于标签语义注意多标签文本分类<sup>*sup>
基于相似度驱动线性哈希模型参数再优化方法<sup>*sup>
非经典条件下机器学习方法专题前言<sup>*sup>
基于在线性能测试概念漂移检测方法<sup>*sup>
基于动静态表征众筹协同预测方法<sup>*sup>
基于深度学习语义分割桥梁病害图像像素级识别方法
基于深度学习车辆零件缺陷检测方法
基于PEST模型军队档案知识服务体系构建研究<sup>*sup>
模型强化学习研究综述<sup>*sup>
获取此文方式
CNKI期刊
下载请求:
   

说明:点击”存到网盘“按钮即收取费用,重复点击不收费,如果下载失败,我们会自动转为文献传递方式处理,稍侯请关注您网盘上该文献的信息,从网盘上下载该文献不用重新付费。