新论文:“安全可阻断剂”

||论文

安全可中断的代理DeepMind研究科学家Lau亚博体育官网rent Orseau和MIRI研究助理Stuart Armstrong写了一篇关于容错剂设计的新论文。安全可中断的代理这篇论文马上就到第32届人工智能不确定性会议

文摘:

强化学习主体与像现实世界这样的复杂环境交互时,不可能总是表现得最优。如果这样一个代理的操作实时在人类的监督下,现在它可能是必要的对于人类操作员按下红色按钮为防止代理在一个有害的actions-harmful序列为代理或铅代理到一个安全的环境和情况。然而,如果学习代理期望从这个序列中获得奖励,它可能会在长期中学习以避免这种中断,例如通过禁用红色按钮——这是一个不希望出现的结果。

本文探讨了一种确保学习主体具有学习意愿的方法学会防止(或寻求!)被环境或人为操作的干扰。我们提供了安全可中断性的正式定义,并利用非政策学习特性来证明一些代理已经是安全可中断的,比如Q-learning,或者可以很容易地做到,比如Sarsa。我们证明,对于(确定性)一般可计算环境,即使是理想的、不可计算的强化学习代理,也可以使其安全可中断。

Orseau和Armstrong的论文构成了一个新的攻角可订正.一个可纠正的代理是一种认识到它是有缺陷的或在发展中,并帮助其操作者维护、改进或替换自己,而不是抵制这种尝试的代理。

在超级智能人工智能系统的情况下,纠正的主要目的是避免不安全亚博体育苹果app官方下载收敛的工具性的政策(例如,保护当前目标系统不受未来修改影响的政策)当此类系统有不正确的最终目标时。亚博体育苹果app官方下载这就为我们提供了更多的空间,可以使用近似的、反复试验的和基于学习的人工智能解决方案价值规范

可打断性是试图将可纠正性这一直觉概念的一部分形式化。效用无差异(在苏亚雷斯,法伦斯坦,尤多科夫斯基和阿姆斯特朗的可订正)是过去试图定义不同的可纠正性的一个例子:系统对程序员修改其最终目标的干预漠不关心,因此将避免试图强迫程序员做出这样的修改或避免这样的修改。亚博体育苹果app官方下载而“安全可中断代理”则试图定义与程序员的干预无关的系统来修改它们亚博体育苹果app官方下载政策,并且不会试图阻止程序员干涉他们的日常活动(也不会尝试去做)他们干预)。

这里的目标是使代理的策略收敛到最优策略,如果代理认为未来不会有中断。即使代理在过去经历过中断,它也应该表现得就像它永远不会经历任何进一步的中断一样。Orseau和Armstrong证明了几种类型的代理是安全可中断的,或者可以很容易地使其安全可中断。

进一步阅读:


注册获取新的MIRI技术成果的更新

每次有新的技术论文发表时都会得到通知。