来源:Frontiers of Computer Science 发布时间:2024/6/7 18:59:48
选择字号:
FCS  文章精要:南京大学俞扬教授团队——模型梯度:统一策略和模型学习目标的基于模型的强化学习方法

论文标题:Model gradient: unified model and policy learning in model-based reinforcement learning

期刊:Frontiers of Computer Science

作者:Chengxing JIA, Fuxiang ZHANG, Tian XU, Jing-Cheng PANG, Zongzhang ZHANG, Yang YU

发表时间:22 Sep 2023

DOI: 10.1007/s11704-023-3150-5

微信链接:点击此处阅读微信文章

针对基于模型的强化学习中,监督学习的转移模型学习目标偏离了策略优化的问题,南京大学俞扬教授团队撰写了研究论文:模型梯度:统一策略和模型学习目标的基于模型的强化学习方法。

文章信息

标 题:

Model gradient: unified model and policy learning in model-based reinforcement learning

引用格式:

Chengxing JIA, Fuxiang ZHANG, Tian XU, Jing-Cheng PANG, Zongzhang ZHANG, Yang YU. Model gradient: unified model and policy learning in model-based reinforcement learning. Front. Comput. Sci., 2024, 18(4): 184339

阅读原文:

文章概述

文章旨在提出一种与策略优化目标一致的转移模型学习方法,从直接最大化策略在真实环境中积累奖励出发,得到动力学模型的优化算法。

技术步骤

从直接利用策略在真实环境的积累奖励,对参数化的环境模型计算梯度出发,获得了模型梯度的形式:最大化真实的策略梯度与环境中的策略梯度的相似度。从而基于该形式进行环境模型的学习。

实验结果

文本同多种基于模型的算法如SLBO、METRPO以及无模型的算法如PPO进行比较,多个控制任务上的实验结果表明,基于本文提出的模型梯度学习下的策略优化算法可以取得更好的样本效率以及渐进性能。另外与短轨迹模型的方法如MBPO在稀疏奖励上的比较也体现出了本文方法的优势。

相关内容推荐:

文章精要|北京邮电大学傅湘玲教授团队等:用CB-Transformer学习从非对齐多模态序列中学习模态融合表征用于多模态情感识别 2024 18(4):184314

文章精要 | 苏州大学李培峰教授团队:结合上下文证据改进汉语隐式篇章关系识别 2024 18(3):183312

文章精要 | 中山大学刘玉葆教授团队:基于自适应特定映射的无监督社交网络嵌入 2024 18(3):183310

文章精要 | 重庆邮电大学张清华教授团队:一种基于多关系和多路径的不确定性知识图谱嵌入方法 2024 18(3):183311

文章精要 | 哈尔滨工程大学於志文教授团队等:EvolveKG: 一种演化知识图谱通用学习框架 2024 18(3):183309

文章精要 | 北京师范大学段福庆教授团队:基于小波散射变换的混合域人脸属性估计研究 2024 18(3):183313

文章精要 | 国防科技大学侯臣平教授团队:弱标签先验约束聚类 2024 18(3):183338

文章精要 | 广州大学刘文斌教授团队:FedDAA:一种鲁棒联邦学习框架用于保护隐私和防御对抗攻击 2024 18(2):182307

文章精要 | 广东技术师范大学张越副教授团队:基于张量显著共峰搜索的弱监督实例共分割 2024 18(2):182305

文章精要 | 武汉大学肖春霞教授团队:CRD-CGAN: 基于类型一致性和相对性约束的多样性文本生成图象 2024 18(1):181304

文章精要 | 用于常识问答的基于知识图谱的元路径推理 2024 18(1):181303

文章精要 | 双曲数据分类器的核化研究 2024 18(1):181301

文章精要 | 联邦学习综述:多方计算的视角 2024 18(1):181336


Frontiers of Computer Science


Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。


《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、 、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。

中国学术前沿期刊网

http://journal.hep.com.cn

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
《自然》(20241121出版)一周论文导读 清华这位院士搭建了一座室外地质博物园
科学家完整构建火星空间太阳高能粒子能谱 “糖刹车”基因破除番茄产量与品质悖论
>>更多
 
一周新闻排行
 
编辑部推荐博文
 
Baidu
map