新论文:“授权加固学习”

||文件

授权加强学习Miri 亚博体育官网Research Associatiat Vanessa Kosoy已经写了一篇新的论文,“授权加固学习:学习避免陷阱有点帮助。“Kosoy将在ICLR 2019提出论文SAFEML车间在两周内。摘要读:

最知名的强化学习的遗憾界限是eoisodic或假设没有陷阱的环境。通过允许算法偶尔将动作委托给外部顾问,我们派生了遗憾而不会做出任何假设的遗憾,而不会制作任何假设。因此,我们致电了我们呼叫DRL的积极一拍的基于模型的强化学习,(授权加强学习。)

我们构建的算法为了展示遗憾的遗迹是由辅导应该委派哪个动作的子程序补充的后部采样增强学习的变体。算法不是随时的,因为必须根据目标时间折扣调整参数。目前,我们的分析仅限于Markov决策过程,其中有限数量的假设,状态和行动。

KOSOY在DRL上的工作的目标是让我们深入了解具有人类循环和正式性能保证的学习系统,包括安全保障。亚博体育苹果app官方下载DRL试图通过提供可以派生这种性能保证的模型来移动我们。

虽然这些模型仍然具有许多不切实际的简化假设,但Kosoy观看DRL已经捕获了一些问题的一些最重要的特征 - 她有一个相当雄心勃勃的愿景,对这一框架如何进一步发展。

Kosoy先前描述了帖子中的DRL与一个仅仅是理智顾问的授权加强学习。这里描述的DRL KOSOY的一个特征,但从纸上省略(空间原因)是DRL的应用腐败。鉴于某些假设,DRL确保正式的代理商永远不会被篡改(损坏)的奖励或建议渠道。作为一个特殊情况,代理人自己的顾问不能导致代理进入腐败状态。同样,“额外增强学习”中描述的陷阱的一般保护也保护了药物免受有害自我修改。

另一组没有将其进入纸张的DRL结果使用DRL灾难缓解。在这个变体中,DRL代理可以减轻灾难,即顾问无法减轻其自己的东西 - 这是一个不受标准DRL顾问顾问的更严格的假设。

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。