新论文:“Cirl框架中的不符合人们”

||文件

CIRL框架中的不可纠正性

Miri Assistant 亚博体育官网Research同伴Ryan Carey有一个新的纸,讨论了良好表现的情况合作逆钢筋学习(CIRL)任务未能暗示软件代理商将协助或与程序员合作。

本文,标题为“CIRL框架中的不可纠正性,“在其中一个方案,其中cirl违反了四个条件易燃定义Soares等人(2015).文摘:

假设关机指令提供信息(在技术意义上亚博体育苹果app官方下载)导致有价值的结果的信息(在技术意义上的信息中,有价值的学习系统有权遵循关机指令。然而,这种假设对模拟MIS规范(例如,在程序员错误的情况下)并不稳健。我们通过呈现一些监督的POMDP方案来演示这一点,其中参数化奖励函数中的错误删除了遵循关机命令的激励。这些困难平行于SOARES等人讨论的那些。(2015)在卷曲论文中。

我们认为,重要的是考虑在一些较弱的假设下进行关机命令的系统(例如,该一个小型验证模块亚博体育苹果app官方下载正确实现;与整个先前概率分布和/或参数化奖励函数相反)。我们讨论了一些困难,以便在价值学习框架中达到这些担保。

这篇论文是对Hadfield-Menell, Dragan, Abbeel和Russell的论文的回应,关闭开关游戏哈德菲尔德-梅内尔等人的研究表明,当人工智能系统对其奖励功能不确定并认为人类操作员掌亚博体育苹果app官方下载握了更多关于奖励功能的信息时,它将对人类的输入做出更积极的反应。Carey证明了CIRL框架可以用于形式化校正性问题,并且已知的CIRL系统的保证,在“Off-Switch Game”中给出,依赖于关于有一个无错误的CIRL系统的强假设。亚博体育苹果app官方下载在不那么理想化的假设下,一个价值学习主体可能会有信念,导致它逃避从人类身上重定向。

[t]关闭按钮的目的是关闭AI系统亚博体育苹果app官方下载如果所有其他保证失败例如,如果AI系统忽略(出于一个原因或另一个),则运营商的指令。亚博体育苹果app官方下载如果[AI系统]的设计者亚博体育苹果app官方下载R.如此完美地编程了系统,以至于之前和[奖励亚博体育苹果app官方下载功能]R.完全没有虫子,然后是Hadfield-Menell等人的定理。(2017)申请。在实践中,这意味着为了违规,有必要拥有一个不确定所有可能重要的事情的AI系统。亚博体育苹果app官方下载问题是,对所有可能的世界和所有可能的价值函数进行贝叶斯推理是非常棘手的。现实地,人类可能必须使用大量的启发式和近似,以实现系统的信仰系统和更新规则。亚博体育苹果app官方下载[...]

Soares等人(2015)seem to want a shutdown button that works as a mechanism of last resort, to shut an AI system down in cases where it has observed and refused a programmer suggestion (and the programmers believe that the system is malfunctioning). Clearly,一些部分系统必须正常工作,以亚博体育苹果app官方下载便我们期望关机按钮全部工作。但是,对于按钮的工作似乎不可取,以依赖于系统的规范中的零严重错误,奖励函数的规范,它对不同类型的操作进行分类,等等。亚博体育苹果app官方下载相反,希望开发一个小巧简单的关机模块,该代码可以理想地严格验证,并且即使在剩余的规格中的大型程序员错误的情况下也可以将系统关闭。亚博体育苹果app官方下载亚博体育苹果app官方下载系统。

为了在价值学习框架中进行这一点,我们需要一个值学习系统,(i)能够通过观察关机命令的小验证模块覆盖其动作;亚博体育苹果app官方下载(ii)没有动力去除,损坏或忽略关机模块;(iii)对其周围的关机模块有一些小的动力;即使在广泛的情况下R.,之前,可用操作等集被遗漏。

即使了解了实用程序功能,仍然需要额外的防御线免受意外失败。希望是通过模块化AI系统可以实现这一点。亚博体育苹果app官方下载为此目的,我们需要一种代理的模型,它将以稳健的方式呈现以遗漏对其他系统组件的遗漏。亚博体育苹果app官方下载

注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。