对人类模型的思考

||yabo app

这是Miri研究助理和深度研究科学家Ramana Kuma亚博体育官网r和Miri Research Courcel Scott Garrabrant的联合职位,从AI对齐论坛LessWrong


人的价值和偏好很难指定,特别是在复杂的领域。因此,很多AGI安全性研究都集中在涉及人类价值和偏好的AG亚博体育官网I设计方法上间接通过学习一种基于人类价值观表达(通过陈述的偏好、观察到的行为、认可等)和/或产生这些价值观表达的现实世界过程的模型。还有一些方法旨在模拟或模仿人类认知或行为的其他方面,但没有明确的目标来捕捉人类的偏好(但通常是为了最终满足它们)。让我们将所有这些模型称为人体模型

在这篇文章中,我们讨论了几个理由对使用人类模型的AGI设计谨慎。我们建议,AGI安全研究界将更多努力进入在缺乏人类模型的情况下亚博体育官网运作良好的发展方法,以及依赖于人类模型的方法。这将是目前安全研究景观的重要补充,特别是如果我们专注于锻炼和尝试与发展理论相反的具体方法。亚博体育官网我们还承认避免人类模型的各种原因似乎很困难。

人类模型问题

为了清楚的是人类模型,我们在我们的实际偏好(可能无法完全可以访问我们)和评估我们偏好的程序之间的粗略区别。第一件事,实际偏好是人类实际上想要的反思。满足我们的实际偏好是胜利。评估偏好的第二件事,是指我们的实际偏好的各种代理,例如我们的批准,或者对我们看起来很好(有必要有限的信息或思考时间)。人类模型在第二类;考虑,作为一个例子,对该组的描述描述的高度准确的ML型号/毫无批准。我们首次关注的是,下面描述的是对人类批准的过度装备,从而打破了与我们的实际偏好的联系。(这是一个古老的法律的情况。)

更少的独立审计

想象一下,我们建立了一个AGI系统,我们希望将其用来设计新亚博体育苹果app官方下载城市的批量交通系统。与此类项目相关的安全问题得到了很好的认可;假设我们并不完全确定我们已经解决了它们,但无论如何都有足够的自信。我们在某些假城输入数据亚博体育苹果app官方下载的沙箱中运行系统,并检查其输出。然后我们在一些古怪的假城数据上运行它,以评估分配转移的稳健性。AGI的产出看起来像合理的过境系统设计和考虑,包括争论,指标和其他支持证据,以至于它们是好的。亚博体育苹果app官方下载我们应该满意并准备好在真实城市的数据上运行系统,并实现所产生的建议设计吗?亚博体育苹果app官方下载

我们认为,回答这个问题的一个重要因素是AGI系统是否使用人体模型构建。亚博体育苹果app官方下载如果它能在不进行人体建模的情况下解决交通设计问题(得到人们的认可),那么我们更容易相信它的输出。如果它产生了一个我们认可的解决方案与人类造型,那么尽管我们期望输出对好的交通系统设计在许多方面(我们的实际偏好)和在许多方面适合被人类认可,在一定程度上,这两个目标分开我们必须担心有overfit亚博体育苹果app官方下载人类模型的良好设计。(为什么不是反过来呢?因为我们对沙盒结果的评估使用的是人类判断,而不是我们实际偏好的满意度的独立度量。)

人类对设计的质量没有错,更不用说愚弄它。我们希望依赖于在我们的系统中正确捕获这些偏好的多少?亚博体育苹果app官方下载如果系统正在建亚博体育苹果app官方下载模人类,我们强烈地依赖于系统学习和满足这些偏好,否则我们希望愚弄良好但实际上的过境系统设计更容易撰写实际良好的设计.另一方面,如果系统未建模人类,那么它的输出看起来很好亚博体育苹果app官方下载的设计就是更好的证据表明它实际上是一个很好的设计。Intuitively, if we consider sampling possible outputs and condition on the output looking good (via knowledge of humans), the probability of it being good (via knowledge of the domain) is higher when the system’s knowledge is more about what is good than what looks good.

这是这个问题的句柄:对一个欲望独立审计系统输出的。亚博体育苹果app官方下载当系统使用人体亚博体育苹果app官方下载模型时相互信息在其产出和审计过程(人为判断)之间更高。因此,使用人类模型可以减少我们进行独立审计的能力。

避免人类模型并不能完全避免这个问题。问题仍然存在“外环优化”的问题。如果系统在沙箱亚博体育苹果app官方下载中产生奇怪或有缺陷的设计,我们会在审计期间识别出来,我们可能会拒绝解决方案并尝试调试制作它的系统。这引入了整体过程的偏见(涉及审计和调试阶段的多个版本)向欺骗我们审计程序的输出。亚博体育苹果app官方下载

然而,与环内优化压力相比,环外优化压力更弱,因此也不那么令人担忧。我们认为,当一个人使用人体模型时,这个问题更糟糕,也就是说,欺骗的倾向更强。这是因为相关的优化是在循环中进行的,而且经常会遇到。

更类比以说明这一点,考虑一个经典的古德哈特教学的例子。如果您研究了这些材料,那么进行测试,您的测试分数揭示了您对材料的了解得很好。如果您反而研究过去的测试,您的测试分数揭示了您通过测试的能力,这可能与您对材料的知识相关,但随着您的分数上升,越来越不太可能如此相关。这里人类建模类似于过去的测试,并且实际偏好类似于材料。考试类似于审计,我们希望独立于研究方案。

错误的风险

一般来说,我们可能不正确地实现了我们的第一个AGI系统。亚博体育苹果app官方下载具体地说,即使我们完全开发了安全或一致的AGI理论,我们也可能由于实现技术上的bug或问题而无法实现该理论。在这种情况下,如果AGI的知识和人类偏好之间的相互信息很低,我们会相对更好。我们期望系统的行为在某种程度亚博体育苹果app官方下载上依赖于它的知识,我们期望实现错误能够改变这种依赖的本质,使之偏离我们的意图和期望。依赖于人类偏好的不正确行为似乎比不依赖于人类偏好的不正确行为更危险。

考虑AGI系统实现的空间,在与预期设计相似的度量下(亚博体育苹果app官方下载等效:由于错误导致的设计偏差严重程度)。我们希望我们构建的第一个AGI系统附近的所有要点是安全的,因为我们最终可能与略有不同亚博体育苹果app官方下载的设计,比诸如困惑我们正在做的事情或制定实施错误的原因。

bug带来的风险至少有三种表现方式。

编码错误的值不正确:假设我们打算首次使用AGI来解决一些有界和特定的任务,但我们误解或严重实施它,我们最终的目标实际上是不合适的优化一些客观函数。那么如果这种目标是抽象的东西,似乎是拼图解决而不是更直接与人类偏好的东西:考虑,作为玩具的例子,如果目标周围的标志(正/负面)是错误的。

操纵:早期对于独立审计的争论不仅适用于我们计划审计的特定任务,而且也适用于任何AGI系统可能执行的人类可能不赞成的活动。亚博体育苹果app官方下载例如,设法侵入我们本应安全的系统,对我们隐藏其意图和活动,或直接操纵我们。亚博体育苹果app官方下载这些任务更容易获得良好的人类心理模型,它可以用来推断我们可能犯的错误,或我们可能忽视的漏洞,或我们可能对系统的不同行为作出的反应。亚博体育苹果app官方下载

人类建模非常接近设计空间的人类操纵。具有亚博体育苹果app官方下载精确的人类模型的系统接近一个系统,该系统成功地使用这些模型来操纵人类。

威胁bug带来的另一个风险不是来自于AGI系统不正确地关心我们的价值观,而是来自于安全性不足。亚博体育苹果app官方下载如果我们的值在关心满足它们的AGI系统中被精确编码,那么它们就会成为其他参与者的威胁目标,这些亚博体育苹果app官方下载参与者可以通过操纵第一个系统获益。本文还描述了关于这个问题的更多示例和观点在这里

人类建模虫的风险增加可以概括如下:无论AGI系统因虫子产生灾难性结果的风险如何,如果系统使用人类建模训练,那么最糟糕的结果似乎更有可能是因为这些最糟糕的结果取决于信息亚博体育苹果app官方下载在人类模型中。

通过保护系统的独立性免受人机模型信息的独立性可以减轻独立的审计和错误的风险,因此系统无法过度措施,或者易于使用它。亚博体育苹果app官方下载我们认为,思想犯罪和意外代理人的剩余两个问题更加依赖于建模人类偏好增加了模拟人类样子的机会。

思想犯罪

许多计算可能产生与道德相关的实体,因为,例如,它们构成了体验痛苦或快乐的有情生物。博斯特罗姆称对这些实体的不当对待是“精神犯罪”。以某种形式对人类进行建模,似乎比不进行建模更有可能产生这样的计算结果,因为人类在道德上是相关的,而系统的人类模型最终可能会共享使人类在道德上相关的任何属性。亚博体育苹果app官方下载

意想不到的代理

类似于上面提到的心理犯罪,我们认为使用人类建模的AGI设计在生产类似于agent的子系统时风险更大,因为人类也是类似于agent的。亚博体育苹果app官方下载例如,我们注意到,试图预测结果主义推理者的输出,可能会在包含结果主义推理者的事物空间中减少为一个优化问题。严格亚博体育苹果app官方下载说来,一个被设计用来预测人类偏好的系统似乎更有可能遇到与错位子代理相关的问题。(尽管如此,我们认为它更有可能的数量是很小的。)

没有人类模型的安全AGI被忽视了

考虑到独立审计的问题,加上上面提到的其他要点,我们希望看到更多的工作在开发不依赖于人体建模的安全AGI系统的实际方法上进行。亚博体育苹果app官方下载目前,这是AGI安全研究领域中一个被忽视的领域。亚博体育官网具体来说,“这是一个建议的方法,这是进一步尝试或研究的下一步步骤”的形式,我们可以称之为工程研究亚博体育官网,几乎完全是在人体建模的环境下完成的。我们确实看到一些安全工作避开了人体模型,它趋向于理论为重点研究亚博体育官网例如,MIRI在代理基础方面的工作。这并不能填补没有人体模型的安全工程的空白。

为了充实这一缺口的说法,请考虑以下安全研究中每一项工作的通常公式:迭代蒸馏和放大、辩论、递归奖励建模、合作反强化学习和价值学习。亚博体育官网在每一种情况下,都有人体模型内置到这种方法的基本设置中。然而,我们注意到,在某些情况下,这些领域的技术结果可能可以在没有人体建模的情况下转移到一个设置,如果人类反馈(等)的来源被一个纯粹的算法,独立的系统取代。亚博体育苹果app官方下载

一些现有的工作,不依赖于人体模型包括制定安全中断的药剂,的公式影响措施(或副作用),包括构建具有明确正式规范的AI系统(例如,工具AI的一些版本),or亚博体育苹果app官方下载acle AI的一些版本,以及装箱/包容。虽然他们不依赖人类的造型,不过这些方法最有意义的上下文,人类造型正在发生:例如,影响措施似乎最有意义的代理将在现实世界中,直接操作等代理可能需要人工造型。然而,我们希望看到所有这些类型的更多工作,以及构建不依赖于人体建模的安全AGI的新技术。

避免人类模型的困难

为什么我们还没有看到太多关于如何在不建立人体模型的情况下构建安全AGI的研究,一个看似合理的亚博体育官网原因是,这很困难。在本节中,我们将描述一些不同的困难之处。

有用性

如何放置一个没有人类建模以良好使用的系统并不明显。亚博体育苹果app官方下载至少,它不像人类建模的系统那么明显,因为它们直接在有关有用行为的信息的来源(例如,人亚博体育苹果app官方下载类偏好)。换句话说,目前尚不清楚如何解决规范问题 - 如何在复杂域中正确指定所需的(并且只需要的)行为 - 而没有人为建模。“反对人类建模”立场要求对规范问题的解决方案,其中有用的任务是仅由人类的或由不模型人类的系统转换为特定的人的独立任务。亚博体育苹果app官方下载

举例来说,假设我们已经解决了一些特定的、复杂的但与人类无关的任务,比如定理证明或原子级精确制造。那么我们如何利用这个解决方案来创造一个好的(或更好的)未来呢?赋予每个人,甚至是少数人进入一个超级智能系统的权利,而这个系统并没有以某种方式直接编码他们的价值观,显然不会产生一个实现这些价值观的未来。亚博体育苹果app官方下载(这似乎与魏代的故事有关人类安全问题。)

隐含人类模型

即使是看似“独立”的任务,也至少会泄露一些关于人类动机起源的信息。再来考虑一下公共交通系统的设计问题。亚博体育苹果app官方下载由于问题本身涉及到为人类使用的系统的设计,在指定任务时似乎很难避免建模人类。亚博体育苹果app官方下载更微妙的是,甚至是高度抽象或通用的任务,如谜题解决,包含关于谜题来源/设计师的信息,特别是当它们被调整为编码更明显的以人为中心的问题时。(工作Shah等人。研究如何利用人类潜在的偏好信息。)

规格竞争力/做我想做的

以优化目标(强化学习问题就是一个具体的例子)的形式来明确说明一项任务,众所周知是脆弱的:通常有一些我们关心的事情被排除在明确的说明之外。这是寻求越来越多的高级和间接规范的动机之一,将更多的工作留给确定到底要对机器做什么。然而,目前很难看到如何在不建模人类的情况下,将任务(模糊定义)自动转换为正确的规范。

人体模型的性能竞争力

它可能是建模人类是在我们想要应用AGI系统的各种任务中实现良好表现的最佳方式,因为不仅仅是与解问题规范。亚博体育苹果app官方下载例如,可能存在人类认知的方面,我们希望在AGI系统中进行更多或更少复制,以实现自动化这些认知功能的竞争力,并且这些方面可能与他们难以分开的人类偏好的大量信息亚博体育苹果app官方下载大大地。

没有人体模型怎么办?

我们已经看到了使用人类建模解决AGI安全性的论据。回顾这些论点,我们注意到,在人类建模是一个好主意的范围内,重要的是做得很好;在这是一个坏主意的程度上,最好不是做到这一点。因此,无论是否做人类建模根本都是在构建建立安全AGI的方法时可能会提前设置的配置位。

应该指出的是,上述论点并非旨在决定性,并且可能存在反补贴考虑,这意味着尽管这篇文章中概述的风险,我们应该促进人类模型的使用。然而,在人类模型的AGI系统比没有人的危险程度上,我们可能会尝试亚博体育苹果app官方下载两种广泛的干预措施。首先,尝试减少高级AI的概率可能是值得的,通过促进对他人的一些研究线来说,先进的AI“默认”。亚博体育官网例如,在程序生成的虚拟环境中训练的AI似乎显着不太可能开发人类模型的可能性,而不是在人类生成的文本和视频数据上培训的AI。

其次,我们可以专注于不需要人体模型的安全研究,因此,如果我们最终构亚博体育官网建的AGI系统在不使用人体模型的情况下具有高度的能力,我们可以使它们更安全,而不需要教它们如何为人类建模。亚博体育苹果app官方下载这类研究的一些例子,我们在前面提到亚博体育官网过,包括开发独立于人的方法来衡量负面副作用,防止规范博弈,构建安全的遏制方法,以及扩展以任务为中心的系统的有用性。亚博体育苹果app官方下载

致谢:感谢Daniel Kokotajlo, Rob Bensinger, Richard Ngo, Jan Leike和Tim Genewein对本文草稿的有益评论。