对人的思考模式

||yabo app

这是一个联合后通过MIRI副研究员和DeepMind研究员亚博体育官网拉玛纳Kumar和MIRI研究员斯科特Garrabrant,从交叉贴AI对齐论坛LessWrong


人类的价值观和偏好很难明确,尤其是在复杂的领域。因此,许多AGI安全研究都集中在涉及人类价值观和偏好的AG亚博体育官网I设计方法上间接,通过学习一个基于人类价值观表达的模型(通过陈述的偏好、观察的行为、认可等)和/或产生这些价值观表达的现实世界过程。还有其他一些方法,目的是建模或模仿人类认知或行为的其他方面,但没有明确的目标来捕捉人类偏好(但通常是为了最终满足它们)。让我们把所有这些模型称为人体模型

在这篇文章中,我们将讨论几个原因需要谨慎AGI公司设计使用人体模特。我们建议AGI安全研究团体投入更多精力开发接近于工作以及在没有亚博体育官网人的模型,旁边依靠人体模型的方法。这将是一个显著除了目前的安全性研究的景观,特别是如果我们专注于工作了,并试图接近的混凝土,而不是发展理论。亚博体育官网我们也承认各种原因,避免人体模特似乎很难。

与人体模型的问题

需要明确的是关于人的模型,我们得出我们的实际偏好(这可能不是我们完全访问)和程序之间的粗略判别评估我们的喜好。首先,实际的喜好,是什么人居然要经过深思熟虑。满足我们的实际喜好是一个双赢。第二件事,评估喜好程序,是指各种代理我们的实际偏好,例如我们的批准,或者什么看起来不错,我们(有一定局限于信息或时间思考)。人体模特是第二类;考虑,作为一个例子,人类是高度准确的ML模型所设定的结果的描述的/没有批准。我们首先关注的,下面所描述的,是关于过度拟合人批准,从而打破了我们的实际喜好连接。(这是古德哈特定律的情况。)

更少的独立审计

试想一下,我们已经建立了一个AGI系统,我们希望用它来设计亚博体育苹果app官方下载的公共交通系统,一个新的城市。与此类项目有关的安全问题是公认的;假设我们尚不能完全确定,我们已经解决了他们,但有足够的信心去尝试呢。我们在对一些假城市输入亚博体育苹果app官方下载数据的沙箱中运行的系统,并检查其输出。然后,我们对一些稀奇古怪的假城市的数据运行,以评估鲁棒性分配转变。该AGI的输出看起来合理的交通运输系统的设计和考虑,包括参数,指标和其他有关证据,他们是很好的亚博体育苹果app官方下载。我们应该感到满意,并准备运行在真正的城市的数据系统,并实施所产生的建议设计?亚博体育苹果app官方下载

我们认为,回答这个问题的一个重要因素是AGI系统是否使用了人体建模。亚博体育苹果app官方下载如果它能在不进行人体建模的情况下,为交通设计问题(人们认可的)提出解决方案,那么我们将更容易相信它的成果。如果它产生了一个我们认可的解决方案与人类造型,那么尽管我们期望输出对好的交通系统设计在许多方面(我们的实际偏好)和在许多方面适合被人类认可,在一定程度上,这两个目标分开我们必须担心有overfit亚博体育苹果app官方下载人类模型的良好设计。(为什么不能反过来呢?因为我们对沙盒结果的评估使用的是人的判断,而不是一个独立的衡量我们实际偏好的满足程度的指标。)

人类有没有听错设计的质量,更别说被愚弄它的偏好。多少钱,我们要依靠已经正确地捕捉在我们的系统中的这些偏好?亚博体育苹果app官方下载如果系统建模人亚博体育苹果app官方下载类,我们强烈地依赖系统学习和满足这些喜好,否则我们期望被愚弄的是好看,但实际上糟糕的交通系统的设计更容易比实际好设计组成的程度。在另一方面,如果系统没有建模人类,那么实际上它的输出亚博体育苹果app官方下载看起来像一个良好的设计是更好的证据表明,它实际上是一个很好的设计。Intuitively, if we consider sampling possible outputs and condition on the output looking good (via knowledge of humans), the probability of it being good (via knowledge of the domain) is higher when the system’s knowledge is more about what is good than what looks good.

下面是此问题的处理:对于一个渴望独立审计系统的输出。亚博体育苹果app官方下载当一个系统使用亚博体育苹果app官方下载人体模型时相互信息其输出端之间的审核过程(人为判断)较高。因此,使用人体模型降低了我们做独立审计能力。

避免人体模型并不完全避免这个问题。还有问题的一个“外循环优化”的版本。如果系统产生的亚博体育苹果app官方下载沙箱中的怪异或者有缺陷的设计,我们在审核过程中确定这一点,我们可能会拒绝该解决方案,并尝试调试产生它的系统。这里主要介绍的整个过程(包括系统的多个版本在审核和调试阶段)对这种欺骗我们的审计程序输出偏差。亚博体育苹果app官方下载

然而,环外优化压力较弱,因此比环内优化压力更少令人担忧。我们会说,问题要严重得多,也就是说,当一个人使用人体模型时,对欺骗的偏见更强。这是因为相关的优化是循环的,遇到的次数更多。

作为一个更比喻来说明这一点,考虑应试教育的经典古德哈特定律的例子。如果你研究的材料,然后去考试,你的测试成绩表明你对教材的知识相当好。如果你不是研究过去的测试,测试成绩表明您通过考试的能力,这可能与你的材料的知识相关,但越来越不太可能使你的分数上升有关。这里人的造型类似于过去的测试和实际偏好类似的材料。以测试类似于审计,这是我们希望独立于研究方案。

从错误的风险

在一般意义上,我们可能不正确地实现了我们的第一个AGI系统。亚博体育苹果app官方下载具体地说,即使我们完全开发了安全或对齐AGI的理论,我们也可能由于实现技术中的bug或问题而无法实现该理论。在这种情况下,如果AGI的知识和人类偏好之间的相互信息较低,我们的情况会相对较好。我们期望系统的行为在某种程度亚博体育苹果app官方下载上依赖于它的知识,我们期望实现错误改变这种依赖的性质,使之远离我们的意图和期望。依赖于人类偏好的错误行为似乎比不依赖于人类偏好的错误行为更危险。

考虑AGI系统实现的空间,下一个度量信息,如相似的预亚博体育苹果app官方下载期设计(等同:从设计由于错误偏差的严重性)。我们希望我们建立是安全的,因为我们可以用一个稍微不同的设计比预期等原因而被混淆关于我亚博体育苹果app官方下载们正在做什么或作出的执行错误结束第一AGI系统附近的所有点。

bug带来的风险至少有三种表现方式。

不正确编码值:假设我们打算在第一次使用AGI的是解决一些束缚和良好的特定的任务,但我们误解或错误执行它,以至于我们用实际无粘结部分优化目标函数结束。然后,它似乎更好,如果这一目标是抽象的东西就像解谜,而不是更多的东西直接连接到人的偏好考虑,作为玩具例如,如果符号(正/负)周围的目标是错误的。

操纵先前关于独立审计的争论不仅适用于我们计划审计的特定任务,而且也适用于AGI系统可能执行的任何人类可能不赞成的活动。亚博体育苹果app官方下载例如,设法侵入我们本应安全的系统,对我们隐藏其意图和活动,或者直接操纵我们。亚博体育苹果app官方下载有了一个良好的人类心理模型,这些任务就容易得多了,它可以用来推断我们可能会犯什么错误,或者我们可能会忽略什么漏洞,或者我们如何应对系统中的不同行为。亚博体育苹果app官方下载

人体模型是非常接近的设计空间人为操纵。与人亚博体育苹果app官方下载类的精确模型的系统接近成功地使用这些模型来操纵人类的系统。

威胁:另一个来自bug的风险不是来自于AGI系统对我们的价值观的错误认识,而是来自于安全性的不足。亚博体育苹果app官方下载如果我们的值被精确地编码在一个关心满足它们的AGI系统中,它们就会成为其他参与者的威胁目标,这亚博体育苹果app官方下载些参与者可以从操纵第一个系统中获益。关于这个问题的更多例子和观点已经被描述在这里

从人体建模的bug的风险增加可以总结如下:即AGI系统产生灾难性的后果,由于错误的任何风险,最坏的结果似乎更有可能,如果系统是使用人体模型的培训,因为这些最坏的结果取决于信息亚博体育苹果app官方下载在人体模型。

更少的独立审计,并从错误的风险既可以通过保留从人体模型信息系统的独立性得到缓解,因此系统不能过度拟合该信息或刚愎使用它。亚博体育苹果app官方下载我们认为剩下的两个问题,头脑犯罪和意想不到的代理商,在很大程度上依赖的说法,模拟人类的偏好会增加模拟一些类似人类的机会。

心灵犯罪

许多计算可能产生与道德相关的实体,因为,例如,他们构成了体验痛苦或快乐的有情生物。博斯特罗姆称对这些实体的不当处理是“精神犯罪”。对某种形式的人类建模似乎比不建模更有可能导致这样的计算,因为人类在道德上是相关的,而系统对人类的模型最终可能会共享使人类在道德上相关的任何属性。亚博体育苹果app官方下载

意想不到的代理

与上面提到的“思维犯罪”点类似,我们认为使用人类模型的AGI设计产生类似于代理的子系统的风险更大,因为人类是类似于代理的。亚博体育苹果app官方下载例如,我们注意到,试图预测结果主义推理者的输出结果,可能会在包含结果主义推理者的空间中简化为最优化问题。严格亚博体育苹果app官方下载地说,一个设计来很好地预测人类偏好的系统似乎更有可能遇到与子代理错位相关的问题。(尽管如此,我们认为它更有可能发生的几率很小。)

安全AGI无需人工模式被忽略

考虑到对独立审计的关注,再加上上面提到的其他几点,我们希望看到更多关于开发安全的AGI系统的实际方法的工作,而不依赖于人的建模。亚博体育苹果app官方下载目前,这是AGI安全研究领域中一个被忽视的领域。亚博体育官网具体来说,“这是一个提议的方法,这是尝试它或进一步研究的下一步步骤”的工作,我们可能称之为工程研究亚博体育官网,几乎完全是在人体建模的环境中完成的。我们确实看到了一些避开人体模型的安全工作,它往往是这样的理论为重点的研究亚博体育官网例如,MIRI在代理基金会的工作。这并不能填补缺乏人体模型的以工程为重点的安全研究的空白。

为了使差距的主张更加充实,考虑以下每一个在安全研究中努力的通常公式:迭代蒸馏和放大,辩论,递归奖励模型,合作逆强化学习,和价值学习。亚博体育官网在每种情况下,该方法的基本设置中都内置了人体建模。然而,我们注意到,在某些情况下,这些领域的技术结果可以在没有人工建模的情况下传输到一个设置中,如果人工反馈的来源(等等)被一个纯算法的、独立的系统所取代。亚博体育苹果app官方下载

一些现有的工作,不依赖于人体模型,包括制定安全代理中断的公式影响措施(或副作用),包括使用明确的正式规范(例如,工具AIs的一些版本)构建AI系统的方亚博体育苹果app官方下载法,oracle AIs的一些版本,以及装箱/包含。虽然他们不依赖人类的造型,不过这些方法最有意义的上下文,人类造型正在发生:例如,影响措施似乎最有意义的代理将在现实世界中,直接操作等代理可能需要人工造型。然而,我们希望看到更多这类工作,以及构建不依赖于人体建模的安全AGI的新技术。

在避免人为模型困难

为什么我们还没有看到很多关于如何在没有人体模型的情况下建立安全的AGI的研究,一个看似合理的亚博体育官网原因是它是困难的。在本节中,我们将描述一些不同的困难方法。

有用性

这不是明显的如何把一个系统,没有做人体模型很好地利用。亚博体育苹果app官方下载至少,它不是那么明显,作为该做的人体模型,因为它们直接借鉴的关于有用行为的信息来源(亚博体育苹果app官方下载例如,人的偏好)的系统。换句话说,现在还不清楚如何解决复杂的结构域,而无需人的造型说明书问题如何正确地指定期望的(并且只有所希望的)行为。在“对人体建模”的立场呼吁一个解决问题的规范,其中有用的任务是由人类转变成定义良好的,人性化的独立的任务或单独或通过不模型人类系统。亚博体育苹果app官方下载

为了说明这一点,假设我们已经解决了一些特定的、复杂的但独立于人类的任务,比如定理证明或原子精确制造。那么我们如何利用这个解决方案来创造一个好的(或更好的)未来呢?让每个人,甚至是少数人,都有机会进入一个不以某种方式直接编码他们价值观的超级智能系统,显然不能创造一个实现这些价值观的未来。亚博体育苹果app官方下载(这似乎和魏岱的有关人类安全问题。)

隐性人力模型

即使是看似“独立”的任务,也至少会泄露一些关于它们在人类动机中的起源的信息。再考虑公共交通系统设计问题。亚博体育苹果app官方下载由于问题本身涉及到为人类使用的系统的设计,在指定任务时,似乎很难避免对人类进行建模。亚博体育苹果app官方下载更微妙的是,即使是高度抽象或通用的任务,如解谜,也包含关于谜题的来源/设计者的信息,特别是当它们被调整为编码更明显以人为中心的问题时。(工作Shah等。看看如何利用隐藏在世界中的人类偏好信息。)

规范竞争力/按我的意思去做

在,比方说,一个优化目标(其中的强化学习问题将是一个特定的情况下)的形式任务的明确说明被称为是脆弱的:通常有我们关心的是被甩明确规范的东西出来。这是动机之一寻求越来越多的高层次和间接的规格,留出更多的搞清楚到底是什么做的机器的工作。然而,目前很难看到如何打开任务的过程(定义模糊的),而人类模拟自动为正确的规格。

绩效竞争力的人体模型

这可能是人类建模是实现各种任务,高性能的最佳方式,我们希望AGI系统应用于其原因不是简单地做与理解问题以及规范。亚博体育苹果app官方下载例如,有可能是人类的认知方面,我们要在AGI系统更多或重复更少,竞争力在自动化的认知功能,而这些方面可能携带了很多关于他们的人偏好的信息了难以分离亚博体育苹果app官方下载方式。

没有人类模型怎么办?

我们已经看到了赞成和反对使用抱负人体建模解决AGI安全。在看这些争论背后,我们注意到,该人体模型是一个好主意的程度,这是做的非常好重要;对,这是一个坏主意的范围内,最好是在所有没有这样做。因此,无论是否在所有做的人体模型是应该的做法的设想建立安全AGI时,可能会被年初成立一个配置位。

应当指出的是,上面的参数都并非是决定性的,并且有可能会抵消这意味着我们应该提倡尽管在这篇文章中列出的风险,利用人体模型的考虑。然而,在某种程度上,与人体模特AGI系统比那些没有更危险,也有干亚博体育苹果app官方下载预的两大线,我们可能会尝试。首先,它可能是值得尝试的是先进的AI开发人体模特“默认”,通过促进研究一些线路在别人下降的概率。亚博体育官网例如,在AI程序上生成的虚拟环境中的培训似乎显著不太可能比人工智能对人体产生的文本和视频数据的培训开发人力车型。

其次,我们可以专注于不需要人类模型的安全研究,这样,如果我们最终构亚博体育官网建的AGI系统不需要使用人类模型,就可以让它们更安全,而不需要教它们建模。亚博体育苹果app官方下载这类研究的例子,其中一些我们前面提亚博体育官网到过,包括开发独立于人类的方法来测量负面影响,防止规范博弈,建立安全的方法来控制,以及扩展以任务为中心的系统的有用性。亚博体育苹果app官方下载

致谢:感谢Daniel Kokotajlo, Rob Bensinger, Richard Ngo, Jan Leike和Tim Genewein对本文草稿的帮助评论。