新文件:“Delegative强化学习”

||文件

Delegative强化学习MIRI研亚博体育官网究员瓦内萨科索伊写了一纸“Delegative强化学习:学习以避免陷阱与一些帮助“。科索伊将在ICLR 2019年提交的文件SafeML车间在两周内。摘要如下:

为强化学习最知名的遗憾界或者是偶发或承担不陷阱的环境。我们得出未做任何假设束缚了遗憾,通过允许算法偶尔会委托一个动作一个外部顾问。我们便得出了一个积极的一次性基于模型的强化学习,我们称之为DRL的设置(delegative强化学习。)

我们以证明绑定的遗憾构建算法是决定哪些行为应被授予子程序补充后路采样强化学习的变体。该算法是不是任何时间,因为参数必须根据目标的时间折扣进行调整。目前,我们的分析仅限于马尔可夫决策过程与假设,状态和动作有限的数字。

科索伊对DRL工作的目标是把我们的道路上趋向于具有学习与人合的环和正式的履约担保,包括安全保障系统的深刻理解。亚博体育苹果app官方下载DRL试图通过提供在这样的性能保证,可以推导模型来推动我们在这个方向。

虽然这些车型仍然让许多不切实际的简化假设,科索伊意见DRL为已经拍摄了一些最本质的特征问题,她有如何这个框架可能会进一步制定了雄心勃勃的愿景。

科索伊以前在贴中描述DRLDelegative强化学习与仅仅萨顾问。这里描述的DRL科索伊的一个功能,但是从纸省略(空间原因)是DRL的应用腐败。鉴于某些假设,DRL确保了正式的代理将永远不会有(损坏)的奖励或建议道篡改。作为一个特殊的情况下,代理自己的顾问不能导致代理进入腐败状态。同样,在“Delegative强化学习”中描述的陷阱一般保护也保护从有害的自我修改的代理。

另一组DRL的结果是没能进纸灾难缓解使用DRL。在这种变体中,DRL剂可以减轻灾难,该顾问将不能减轻对自有的东西,不被有关标准DRL顾问更严格的假设条件支持。

注册以获取更新的新技术MIRI结果

得到通知的每一个新的技术论文发表的时间。