新论文:“先进机器学习系统的对齐”亚博体育苹果app官方下载

||论文

高级机器学习系统对齐亚博体育苹果app官方下载MIRI的研究亚博体育官网迄今为止集中在我们在我们的2014年末研究日程亚博体育官网的最优推理的形式化有界的反光决策理论代理嵌入他们的环境中.自那以后亚博体育官网,我们的研究团队发展迅速,我们在这个议程上取得了实质性进展,包括在逻辑不确定性方面的重大突破,我们将在未来几周宣布。

今天我们宣布了一个新的研究议程,”亚博体育官网对齐先进的机器学习系统亚博体育苹果app官方下载“今后,我们大约一半的时间将花在这个新议程上,另一半时间将花在以前的议程上。抽象的写着:

我们围绕一个问题调查了八个研究领亚博体育官网域:随着学习系统变得越来越智能和自主,什么设计原则可以最好地确保它们的行为符合操作者的利益?亚博体育苹果app官方下载我们关注两个主要技术障碍AI对齐:挑战的指定合适的目标函数,设计人工智能系统的挑战,甚至避免意想不到的后果和不良行为的情况下目标函数不完全与设计者的意图。亚博体育苹果app官方下载

在这项研究提案中调查的未解决的问题包括:我们如何训练强化学习者亚博体育官网采取更容易接受智能监督者有意义的评估的行动?什么样的目标功能可以激励一个系统“不产生过大的影响”或“不产生太多的副作用”?亚博体育苹果app官方下载我们将讨论这些问题、相关工作和未来研究的潜在方向,以突出机器学习中目前看来易于处理的相关研究主题。亚博体育官网

由Jessica Taylor, Eliezer Yudkowsky, Patrick LaVictoire和Andrew Critch共同撰写,我们的新报告讨论了8条新的研究线(亚博体育官网以前在这里总结).下面,我将解释这些问题背后的基本原理,以及它们如何与我们的旧的研究议程和新的”亚博体育官网人工智能安全的具体问题谷歌Brain的达里奥·阿莫代(Dario Amodei)和克里斯·奥拉(Chris Olah)率先提出的议程。

通过减少自主性来提高安全性

前三个研究领域集中于相关问题亚博体育官网行为由代理,基于用户短期工具偏好亚博体育苹果app官方下载的行为的概念系统:

1.归纳模糊识别我们如何训练ML系统来检测和通知我们测试数据亚博体育苹果app官方下载的分类从训练数据高度欠确定的情况?

2.强健人类模仿:我们如何设计和训练ML系统来有效地模仿从事复杂和困难任务的人类?亚博体育苹果app官方下载

3.通知监督我们如何训练强化学习系统,使其采取行动,帮助智能监督者(如人类)准确评估系统的性能?亚博体育苹果app官方下载

这三个问题涉及我们在能力/自主性和安全性之间进行权衡的不同方式。在一个极端情况下,一个完全自主、具有超人能力的系统将使建立任何强有力的安全保障变得异常困难。亚博体育苹果app官方下载我们可以通过构建仍然相当智能和自动的系统来降低风险,但在操作人员的行为特别高风险的情亚博体育苹果app官方下载况下,我们会暂停咨询操作人员。模糊识别是一种充实哪些场景是“高风险”的方法:即系统到目前为止的经验对于它试图学习的某些事实或人类价值没有提供任何信息。亚博体育苹果app官方下载

在另一个极端,我们可以考虑不如用户聪明的ML系统亚博体育苹果app官方下载没有以外的行动他们的用户会怎么做,或用户会告诉他们怎么做.如果我们能正确地设计一个系统,让它做它认为一个可信的、知情亚博体育苹果app官方下载的人类会做的事,我们就可以用一些先进的ML系统的潜在好处来换取更温和的故障模式。

人类模仿和(主要是)自主目标追求这两个极端是有用的研究对象,因为它们有助于简化和分解问题的关键部分。然而,在实践中,模糊识别本身可能是一个过于温和的限制,而且严格的人类模仿可能无法有效地实现。知情监督考虑了更温和的方法来保持人类在循环:设计更透明的ML系统,帮助操作者理解选择行动背后的原因。亚博体育苹果app官方下载

在不降低自主性的前提下增加安全性

无论我们通过让人类参与人工智能系统的决策来获得何种保证,我们也将希望在无法实施监督的情况下提高系统的可靠性亚博体育苹果app官方下载。我们的其他五个问题集中于提高系统的可靠性和容错能力,自动追求现实世界的目标,从以稳健和可靠的方式指定这些目标开始:亚博体育苹果app官方下载

4.可概括的环境目标:我们如何创建一个系统,以严格追求根据环亚博体育苹果app官方下载境状态定义的目标,而不是直接根据感官数据定义的目标?

5.保守的观念如何训练分类器来发展有用的概念,以排除高度非典型的例子和边缘情况?

6.影响措施:什么样的正规化机制可以激励一个系统在副作用最小的情况下追求它的目标?亚博体育苹果app官方下载

7.轻微的优化我们该如何设计能够“不付出太多努力”地追亚博体育苹果app官方下载求目标的系统——即当目标已经很好地实现时就停止,而不是花费更多资源去寻找获得绝对最佳预期分数的方法?

8.避免工具性动机我们怎样才能设计和培训这样的系统,使其完全缺乏操纵和欺骗经营亚博体育苹果app官方下载者、争夺稀缺资源等的默认动机?

歧义识别学习者被设计用来预测它们可能遇到边缘情况的潜在方式,并在这些情况下遵从人工操作,而保守学习者被设计用来在边缘情况下在安全方向上犯错。如果一个烹饪机器人发现冰箱里的食物不足,它是否应该尝试去烹饪猫呢?歧义识别方法要求注意“猫是食物吗?”,并停下来咨询人类操作员;保守的概念方法认为,在不确定的情况下假设猫不是食物,因为对烹饪机器人来说,低估多少东西是食物比高估它更安全。然而,目前还不清楚如何将这种推理形式化。

影响措施为限制AI灾难的潜在范围提供了另一种途径。如果我们能够定义一些“影响”的衡量标准,我们便能够设计出能够直观区分高影响行动与低影响行动的系统,并选择低影响选项。亚博体育苹果app官方下载

或者,我们可以设计“温和”的系统,即不需要努力去做任何事情,而不是尽可能亚博体育苹果app官方下载地去设计具有较低影响的系统。限制系统将投入到决策中的资源(通过轻微优化)与限制亚博体育苹果app官方下载系统将决定导致的改变(通过影响措施)是截然不同的;这两种降低风险的方法都有待探索。

最后,我们将探讨各种不同的方法,以防止违约制度激励在“避免工具激励”保护伞类别下对运营商进行敌对对待。亚博体育苹果app官方下载我们同时追求所有这些研究方向的希望是,结合这些特性的系统将比实现它们亚博体育官网中的任何一个的系统具有更高的可信度。亚博体育苹果app官方下载这种方法还可以作为一种对冲,以防某些问题在实践中无法解决,并允许在一个问题上运行良好的想法被重新应用到其他问题上。

与其他研究议程的联系亚博体育官网

我们的新技术议程,我们2014年的议程,以及”人工智能安全的具体问题尽管他们提出的研究方向有相当多的重叠之处,但在如何使人工智能系统与人类利益相一致的问题上,他们采取了不同的方法。亚博体育官网亚博体育苹果app官方下载

我们将2014年的日程改为将机器智能与人类利益相结合的代理基础(摘自“将超级智能与人类利益结合起来”),以帮助强调它与我们的新议程的相似之处和不同之处。原因我们在提前声明我们的新议程旨在帮助更多的情况下,先进的人工智能相对接近和相对直接从当代机器学习技术,而亚博体育苹果app官方下载我们的代理基金会议程是不可知的,何时和如何开发先进的人工智能。

当我们最近写,我们认为开发一个高度可靠的推理和决策的基本形式理论”可以得到很强的保证先进的人工智能系统的行为——比许多目前认为是可能的,在当时最成功的机器学习技术往往知之甚少。”亚博体育苹果app官方下载如果没有这样的理论,人工智能对齐将是一项更加困难的任务。

《人工智能安全的具体问题》(Concrete problems in AI safety)一书的作者写道,他们自己的重点是“对现代机器学习系统中实际安全问题的实证研究,我们认为,这可能对应对各种各样的短期和长期潜在风险非常有用。”亚博体育苹果app官方下载他们的论文讨论了许多与ML议程(或密切相关的问题)相同的问题,但更多的是基于现有的工作和在现代系统中寻找应用。亚博体育苹果app官方下载

代理基金会的议程可以说遵循这样的原则:“从人们最不了解的长期人工智能安全问题开始,因为这些似乎需要最多的工作,而且最有可能严重改变我们对整体问题空间的理解,“具体问题议程遵循原则”,从目前最适用于系统的长期人工智能安全问题开始,亚博体育苹果app官方下载因为这些问题最容易与人工智能研究领域的现有工作联系起来。”亚博体育官网

Taylor等人的新议程更多地关注于“人工智能安全的具体问题”,而不是当前和近期的系统,但与代理基金会议程相比,更侧重于ml。亚博体育苹果app官方下载这个图表帮助映射代理基金会议程(纯文本)和具体问题议程(斜体),以及对齐ML议程(大胆的)讨论:

高可靠性相关工作

  • 现实世界模型~可概括的环境目标避免奖励黑客
    • 归化感应
    • 本体标识
  • 决策理论
  • 逻辑的不确定性
  • Vingean反射

与容错相关的工作

  • 归纳模糊识别=歧义识别~对分布变化的健壮性
  • 强健人类模仿
  • 通知监督可伸缩的监督
  • 保守的观念
  • 影响措施=家庭生活~避免负面副作用
  • 轻微的优化
  • 避免工具性动机
  • 安全的探索

“~”表示相似性和对应关系(有时非常粗略),而“=”表示同一概念的不同名称。

例如,“现实世界模型”和“可概括的环境目标”都是为了让像AIXI这样的强化学习形式的环境和目标表现更加健壮,并且它们都可以被视为避免奖励黑客行为的特殊策略。我们在代理基金会议程下的工作主要集中在没有明确代理/环境边界(归化归纳)的环境下的AI系统的正式模型,亚博体育苹果app官方下载而我们在新议程下的工作将更多地关注世界模型的构建,这些模型承认环境目标的规范,而不是简单的感知目标(本体识别)。

有关这些研究主题之间关系的更全面讨论,请参见亚博体育官网Taylor等人的论文


注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。