新文件:“对准了先进的机器学习系统”亚博体育苹果app官方下载

||文件

对齐方式先进的机器学习系统亚博体育苹果app官方下载MIRI的研究亚博体育官网至今一直专注于问题,我们奠定了我们后期2014研究议程亚博体育官网,特别是在正式确定最佳推理反光决策理论代理嵌入在他们的环境。我们的研亚博体育官网究团队现已发展很大,而且我们已经对这个议程实质性进展,其中包括逻辑不确定性的重大突破,我们将在未来几周内宣布。

今天,我们宣布了新的研究议程,“亚博体育官网对齐先进的机器学习系统亚博体育苹果app官方下载“。展望未来,对我们的时间的一半将在这个新的议程中度过,而另一半则用在我们以前的议程。摘要如下:

我们调查的八个研究领域围绕一个问亚博体育官网题组织:作为学习系统变得越来越智能和自主性,什么样的设计原则最能确保他们的行为与经营者的利益一致?亚博体育苹果app官方下载我们专注于两大技术障碍AI对齐:当目标函数不与完美排队指定正确的目标函数的挑战,并设计出避免意想不到的后果,甚至在情况下,不良行为的AI系统的挑战亚博体育苹果app官方下载设计师的意图。

在这个研究计划调查开放式问题包括:怎样才能培养学习者加固采取通亚博体育官网过智能监督者更适合有意义的评估措施?什么样的目标函数的激励制度,以“没有过大的影响”或“不是有很多副作用”?亚博体育苹果app官方下载我们讨论这些问题,相关的工作,并为未来的研究方向的潜力,具有突出的今天出现听话机器学习的相关研究课题的目标。亚博体育官网

通过杰西卡泰勒,埃利泽·尤多科斯基,帕特里克LaVictoire和安德鲁玛琳合着,我们的新报告讨论了研究八个新线(亚博体育官网以前这里总结)。下面,我将解释这些问题背后的基本原理,以及它们如何关联到我们的老研究议程,并为新的“亚博体育官网在AI安全的具体问题”议程,达里奥Amodei和谷歌脑克里斯·奥拉带头。

通过降低自主提高安全性

前三个研究领域集中在有关问题亚博体育官网基于行为的代理,该基地在其用户的短期亚博体育苹果app官方下载工具的偏好自己的行为名义系统:

1。感性歧义识别:我们怎样才能培养ML系统来检测并通知我们的亚博体育苹果app官方下载情况下,其中的测试数据的分类是高度下确定的从训练数据?

2。强大的人模仿:我们如何能够设计和培训ML系统有效地模仿谁从事复杂和困难的任务人亚博体育苹果app官方下载类?

3。知情监督:我们怎样才能培养出强化学习系统采取行动,援助的智能监工,如人,在准确评估系统的性能?亚博体育苹果app官方下载

这三个问题上不同的方式触及我们可以做能力/自主性和安全性之间进行权衡。在一个极端,一个完全自主的,能够超人地系统将使唯一难以建立任何强大的安全保障。亚博体育苹果app官方下载我们可以通过建立仍然相当聪明,自治系统一定程度上降低风险,但会暂停在他们的行动尤其是亚博体育苹果app官方下载高风险的情况下,咨询运营商。模糊识别是一种方法来充实其方案是“高风险”:那些在一种制度的经验,至今无信息是对一些事实或人的价值它努力学习。亚博体育苹果app官方下载

在另一个极端,我们可以认为是不聪明比他们的用户ML系统,走亚博体育苹果app官方下载没有比其他行动什么他们的用户会做, 要么什么他们的用户会告诉他们做。如果我们能正确地设计系统时做其认为可信的,知情的人会做,我亚博体育苹果app官方下载们就可以交易掉一些,以换取较轻的故障模式先进ML系统的潜在好处。

这两个极端,人类的模仿和(大部分)自主追求目标,是学习的有用的对象,因为它们有助于简化和因式分解出了问题的关键部分。然而在实践中,歧义识别可能是对自己太温和的限制,以及严格的人的模仿可能是不能有效地实现的。知情监督认为比较温和的方法来保持在循环人类:设计更透明ML系统,帮助运营商了解所选动作背后的原因。亚博体育苹果app官方下载

提高安全性,而不会降低自主权

无论保证我们购买通过循环进入人体的AI系统的决定,我们也想提高系统的情况下的可靠性监督地方是不可行的。亚博体育苹果app官方下载我们的其他五个方面的问题着眼于提高可靠性和系统容错自主追求真实世界的目标,并可以指定在一个强大的和可靠的方式这些目标的问题开始:亚博体育苹果app官方下载

4。普及环保目标:我们怎样才能创建一个稳健的追求在环境状亚博体育苹果app官方下载况方面确定的目标,而不是直接在他们的感知数据来定义的系统?

5。保守观念:如何分类进行培训,以开发出高度排除非典型的例子和边缘的情况下有用的概念?

6。影响的措施:什么样regularizers的激励制度,以推行其以最小的副作用目标是什么?亚博体育苹果app官方下载

7。轻度优化:我们怎样才能设计出追求自己的目标系统“亚博体育苹果app官方下载但不尝试太硬”的时候,目标已经很好实现-stopping,而不是花费更多的资源寻找途径,以实现绝对最佳的预期成绩?

8。避免激励工具:我们如何能够设计和传动系统,使得他们缺乏有力的激励默认操纵亚博体育苹果app官方下载和欺骗他们的运营商,对稀缺资源的竞争,等等?

而歧义识别学习者设计来预测他们可能在这种情况下运行到边缘的情况下,延缓人体运营商潜在的方法,保守的学习者,旨在犯错在边缘的情况下安全的方向。如果烹饪机器人注意到了冰箱内understocked,所以应尽量煮猫吗?歧义识别方法说来通知时,回答“是猫的食物?”目前还不清楚,并停下来咨询的人操作;保守的概念为基础,以说只是假设猫不是在不确定的情况下的食物,因为它是烹饪机器人低估多少东西是食品,而不是高估它更安全。目前还不清楚,但是,一个如何可能正式这种推理。

影响的措施提供了另一种途径限制AI事故的潜在范围。如果我们可以定义的一些措施“的影响,”我们可以设计,可以从低影响的人直观地辨别高影响力的行动,一般选择低冲击选项系统。亚博体育苹果app官方下载

或者,而不是设计系统,尽可能努力尽可能地具有低的影响,我们可以设计出“温亚博体育苹果app官方下载和”系统根本就不是非常努力地做任何事情。限制的资源系统将投入其决定(通过温和的优化)是截然亚博体育苹果app官方下载不同的限制系统将如何太大的变化决定引起(通过影响的措施);两者都是充分开发降低风险的方法。

最后,我们将探讨各种不同的方法来防止adversarially下的“避峰器乐奖励”保护伞类别默认系统奖励的享受运营商。亚博体育苹果app官方下载我们在追求所有这些研究方向的希望同时是系统结合这些功能将允许比实现其亚博体育官网中任何一个系统高得多的信心。亚博体育苹果app官方下载这种方法也可作为对冲的情况下,其中的一些问题变成是在实践中不可解,并允许运行良好的一个问题是重施于他人的想法。

连接到其他的研究议程亚博体育官网

我们的新的技术议程,我们的2014议程,而“在AI安全的具体问题”采取不同的方法来对准人类利益AI系统的问题,虽然有他们提出的研究方向之间的重叠公平一点。亚博体育官网亚博体育苹果app官方下载

我们已经改变了我们的议程2014的名称为“代理基础,为对准机器智能与人类利益”(引自‘对齐超级智能与人类利益’),以帮助突出它,而不是类似于我们的新议程的方式。对于讨论的原因我们提前公布“校正先进的机器学习系统,”我们的新的议程旨在更在场景中先进的AI比较近,比较直接从当代亚博体育苹果app官方下载ML技术的后裔帮助,而我们代理的基础议程是更不可知有关何时以及如何先进的AI会开发。

正如我们最近写我们认为,发展高可靠的推理和决策“可以使人们有可能获取有关高级人工智能系统的行为非常有力保障的基本形式理论 - 比许多强目前认为是可能的,而当时最成功的亚博体育苹果app官方下载机器学习技术往往知之甚少“。如果没有这样的理论,人工智能定位将是一个更加艰巨的任务。

写的是自己的重点“是在现代机器学习系统的实际安全问题,我们认为这很可能是在广泛的各种潜在风险,稳健有效的实证研究中,短期“在AI安全的具体问题”的作者亚博体育苹果app官方下载- 和长期的“。他们的论文中讨论了许多相同的问题,作为ML议程(或密切相关的)的调整,而是更倾向于建立在现有的工作,并找到在现今的系统应用为方向。亚博体育苹果app官方下载

当代理基础议程可以说遵循的原则“先从最不好理解的长期AI的安全问题,因为这些似乎有可能需要最多的工作,是最有可能严重改变我们对整个问题空间的理解”的具体问题议程遵循这样的原则‘今天是最适用的系统长期AI安全问题入手,因为这些问题是最容易由AI研究界连接到现有的工作’。亚博体育官网亚博体育苹果app官方下载

泰勒等人的新的议程较少集中在现今和近未来的系统不是“人工智能安全的具体问题,”但更ML-面向比代理基础议程。亚博体育苹果app官方下载这个图表可以帮助映射一些主题代理基础议程(明文),具体问题议程之间的对应关系(斜体),以及用于ML议程对准(胆大) 讨论:

有关的工作可靠性高

  • 现实世界的模型〜普及环保目标避免黑客奖励
    • 归感应
    • 本体鉴定
  • 决策理论
  • 合乎逻辑的不确定性
  • Vingean反思

有关的工作容错

  • 感性识别歧义=歧义识别〜稳健性分布变化
  • 强大的人模仿
  • 知情监督可扩展的监督
  • 保守观念
  • 影响的措施=家庭生活〜避免不良副作用
  • 轻度优化
  • 避峰器乐奖励
  • 安全探索

“〜”笔记(有时非常粗糙)的相似性和对应,而“=”笔记不同的名称相同的概念。

作为一个例子,“现实世界的模型”和“普及环保目标”都旨在使强化学习形式化的环境和目标表示像艾希更健壮,都可以被看作是为了避免黑客奖励特别的策略。我们代理的基础议程下的工作主要集中在AI系统的正式模型中没有明确的代理/环境边界(归感应)设置,而我们的新议程下的工作将更加注重世界模型是承认的建设亚博体育苹果app官方下载的那些环境,而不是简单地感知(本体识别)的目标规格。

对于这些研究课题之间的关系的更详细的讨论,请参阅亚博体育官网泰勒等人的论文


注册以获取更新的新技术MIRI结果

得到通知的每一个新的技术论文发表的时间。