您现的位置:首页 > 数据库检索 > 中文期刊 

模型化强化学习研究综述*

加收藏
  • 【题名】:模型化强化学习研究综述*
  • 【年份】:2020
  • 【作者】:赵婷婷,孔乐,韩雅杰,任德华,陈亚瑞
  • 【关键词】:深度强化学习(DRL)  模型化强化学习  状态转移模型  样本利用率
  • 【摘要】:深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练过程需要大量样本,当采样预算不足,无法收集大量样本时,很难达到预期效果。然而,模型化强化学习可以充分利用环境模型,降低真实样本需求量,在一定程度上提高样本效率。将以模型化强化学习为核心,介绍该领域的研究现状,分析其经典算法,并探讨未来的发展趋势和应用前景。
  • 【期刊名】:计算机科学与探索
  • 【分类号】:TP181
  • 【期号】:第6期
  • 【资金项目】:国家自然科学基金Nos.61976156,11803022,61702367;天津市教委科研计划项目No.2017KJ034
  • 【作者简介】:ZHAO Tingting was born in 1986.She received the Ph.D.degree in computer science from Tokyo Institute of Technology,Japan in 2014.Now she is an associate professor and M.S.supervisor at Tianjin University of Science and Technology,and the member of CCF.Her research interests include machine learning and intelligent information processing. 赵婷婷(1986—),女,内蒙古赤峰人,2014 年于日本东京工业大学获得博士学位,现为天津科技大学副教授、硕士生导师,CCF 会员,主要研究领域为机器学习算法,智能信息处理。在机器学习领域国内外期刊及会议上发表学术论文20 余篇。主持国家自然科学基金面上项目1 项及天津市教委科研计划项目1 项,已完成国家自然科学基金项目1 项及教育部留学回国人员科研启动基金1 项。 KONG Le was born in 1994.She is an M.S.candidate at Tianjin University of Science and Technology.Her research interests include reinforcement learning and intelligent information processing. 孔乐(1994—),女,山东曲阜人,天津科技大学硕士研究生,主要研究领域为强化学习,智能信息处理。 HAN Yajie was born in 1995.She is an M.S.candidate at Tianjin University of Science and Technology.Her research interest is intelligent information processing. 韩雅杰(1995—),女,河北石家庄人,天津科技大学硕士研究生,主要研究领域为智能信息处理。 REN Dehua was born in 1976.He received the Ph.D.degree from Nankai University in 2005.Now he is a lecturer at Tianjin University of Science and Technology.His research interests include machine learning,computer vision,etc. 任德华(1976—),男,四川眉山人,2005 年于南开大学获得博士学位,现为天津科技大学讲师,主要研究领域为机器学习,计算机视觉等。 CHEN Yarui was born in 1982.She is an associate professor and M.S.supervisor at Tianjin University of Science and Technology,and the member of CCF.Her research interests include probabilistic graphical models,machine learning algorithms,approximate inference algorithms,etc. 陈亚瑞(1982—),女,博士,天津科技大学副教授、硕士生导师,CCF 会员,主要研究领域为概率图模型,机器学习算法,近似推理算法等。
  • 【作者单位】:天津科技大学人工智能学院
  • 【页码】:918-927
相关文献
空心胶合木梁柱式结构抗侧力性能研究<sup>*sup>
新型酶解木质素酚醛泡沫的制备及性能研究<sup>*sup>
“一带一路”倡议下浙江省医药制造业发展与提升措施研究<sup>*sup>
芩连翘皮方佐治糖尿病周围神经病变临床研究<sup>*sup>
卡铂及5-氟尿嘧啶用于Ⅲ~Ⅳ期卵巢癌腹腔热灌注化学治疗临床研究<sup>*sup>
中国共产党对马克思主义中国的五大历史性贡献<sup>*①sup>
近年来总体国家安全观研究述评<sup>*①sup>
玉树、九寨沟地震前长波辐射变化研究<sup>*sup>
昆明盆地泥炭质土动力学参数统计研究<sup>*sup>
利用非稳态泊松模型对云南地区地震危险性进行概率预测<sup>*sup>
获取此文方式
CNKI期刊
下载请求:
   

说明:点击”存到网盘“按钮即收取费用,重复点击不收费,如果下载失败,我们会自动转为文献传递方式处理,稍侯请关注您网盘上该文献的信息,从网盘上下载该文献不用重新付费。