子系统亚博体育苹果app官方下载对齐

||yabo app


嵌入式代理埃米

你想弄清楚一些事情,但你还不知道如何去做。

您必须以某种方式将任务分解为子计算。没有“思考”的原子行为;智能必须由非智能部分构成。

由部分组成的agent也就是由部分组成的agent反事实硬,由于该代理可以得原因有关这些部件的不可能配置。

是由部分组成的自推理和自我修正甚至成为可能。

然而,在本节中我们主要要讨论的是另一个问题:当代理由部分组成时,可能存在对手不仅在外部环境中,在代理内部也是如此。

这一系列的问题是子系统亚博体育苹果app官方下载对齐:确保子系统不会在相互冲突的情况下工作亚博体育苹果app官方下载;避免为非预期目标而优化子流程。

  • 良性诱导
  • 良性的优化
  • 透明度
  • 台面,优化


这是一个吸管设计:

一个具有认知子系统和工具子系统的稻草人亚博体育苹果app官方下载

尝新子系统只是想准确的信念。亚博体育苹果app官方下载器乐子系统使用这些信念来跟踪它做得如何。亚博体育苹果app官方下载如果仪器子系统相对于认知子系统太能干,它可能会亚博体育苹果app官方下载决定当傻子尝新的子系统,如所示。

如果认知子系统变得太强大,也可能会产生坏亚博体育苹果app官方下载的结果。

该代理设计治疗系统的认识和仪器子系统与自己,这是不是特别现亚博体育苹果app官方下载实的目标离散剂。然而,我们在上一节看到的wireheading子系统相互作用的问题是难以避免的。亚博体育苹果app官方下载如果我们没有故意建造相关的子系统,这个问题就会更难。亚博体育苹果app官方下载


其中一个原因,以避免开机谁想要不同的东西剂子是我们希望稳健性相对尺度

一种方法是强大的规模如果它仍然有效,或者在扩展功能时优雅地失败。有三种类型:鲁棒性扩大;向下伸缩的健壮性;和稳健性相对尺度

  • 稳健性扩大意味着如果你的系统在优化方面做得亚博体育苹果app官方下载更好,它不会停止正常运行。检验这个的一种方法是考虑如果人工智能优化的函数实际上是最大化。认为古德哈特定律

  • 向下伸缩的健壮性也就是说,如果做你的系统仍然工作亚博体育苹果app官方下载更少的强大。当然,它可能不再有用了;但它应该安全,避免不必要的成本会失败。

    如果你的系亚博体育苹果app官方下载统能精确地最大化某个函数,那么它是可行的,但是如果你近似的话,它安全吗?例如,如果一个系统能够非常精确地学习人类的亚博体育苹果app官方下载价值观,那么它可能是安全的,但近似值会让它越来越偏离方向。

  • 稳健性相对尺度意味着您的设计不依赖于代理的子系统同样强大。亚博体育苹果app官方下载例如,氮化镓(生成对抗性网络)如果一个子网络变得太强大,训练就会失败,因为不再有任何训练信号。

氮化镓培训

缺乏规模的稳健性并不一定会扼杀一个提案,但这是需要注意的;由于缺乏规模的稳健性,您需要强有力的理由来认为您处于正确的规模。

相对规模的鲁棒性对于子系统的一致性尤为重要。亚博体育苹果app官方下载一个有智能子部分的代理不应该依靠能够智胜他们,除非我们有一个强有力的解释为什么这总是可能的。


大画面寓意:目标是有一个统一的系统,在交叉的目的不工作本身。亚博体育苹果app官方下载

为什么有人会做出与部分反对彼此战斗的代理?有三个明显的原因:子目标指针,搜索

把一项任务分成子目标可以有效地找到解决方案的唯一途径。然而,一个子目标计算不应该完全忘记了大图!

设计建造房屋的代理不应该启动一个子代理谁只关心建筑物楼梯。

一个直观的迫切要求是,尽管子系统需要有自己的目标,以分解问题分成几部分,子目标需要亚博体育苹果app官方下载“点”坚定地达到主要目标。

房屋建造代理可能向上旋转一个只关心楼梯的子系统,但是只关心上下文中的楼梯亚博体育苹果app官方下载房屋

然而,你需要做到这一点的方式,并不仅仅等同于具有其头内的第二家建设系统你的房子建设系统。亚博体育苹果app官方下载这使我的下一个项目:


指针:子系统携带可能会比较困难亚博体育苹果app官方下载全系统亚博体育苹果app官方下载和他们一起努力,因为他们需要这样做减少这个问题。然而,这种间接性似乎鼓励了不同子系统的激励不一致的情况。亚博体育苹果app官方下载

正如我们在认识和器乐子系统的例子是很快就看到了,我们开始优化某种亚博体育苹果app官方下载期望我们可能会产生反常的激励——这就是古德哈特定律(Goodhart 's Law)。

我们如何让一个子系统“做X”,而不是“亚博体育苹果app官方下载说服更广泛的系统我在做X”,而不传递整个总体目标系统?

这与我们想要的方式相似继任代理要坚定地指出价值,因为很难把价值写下来。然而,在这种情况下,学习更大的代理的价值也没有任何意义;子系统亚博体育苹果app官方下载和子目标需要


对于人类完全设计的子系统或人工智能显式旋转的子目标来说,解决子系统对齐问题可能不是那么亚博体育苹果app官方下载困难。如果你知道如何避免设计上的偏差和稳健委托自己的目标,这两个问题似乎解决的。

然而,似乎不可能如此明确地设计所有的子系统。亚博体育苹果app官方下载在某种程度上,在解决一个问题时,您已经尽可能多地将其分解,并且必须依靠一些试验和错误。

这就引出了第三个原因子系统可能会优化不同的东西,亚博体育苹果app官方下载搜索:通过的可能性的丰富空间,这本身可能含有未对齐子系统的空间寻找解决问题。亚博体育苹果app官方下载

足够强大的搜索可能会导致子系统不对齐亚博体育苹果app官方下载

ML研亚博体育官网究人员非常熟悉的现象:它更容易编写一个程序,找到一个高性能的机器翻译系统为你而不是你自己直接写一个。亚博体育苹果app官方下载

从长远来看,这个过程可以更进一步。对于一个足够丰富的问题和一个足够令人印象深刻的搜索过程,通过搜索找到的解决方案本身可能就是智能优化一些东西。

这可能是偶然发生的,或有目的地改造作为解决难题的策略。无论哪种方式,它代表加剧古德哈特型的问题,你现在有效对不对,你以前有一个两次机会的一个好机会。

这个问题在Hubinger等人的"在先进的机器学习系统举一反三优化风险亚博体育苹果app官方下载”。

让我们把原来的搜索过程称为基地优化,以及通过搜索a找到的搜索过程mesa-optimizer

“Mesa”是“meta”的对立面。“元优化器”是设计来产生新优化器的优化器,而“中间优化器”是由原始优化器生成的任何优化器——无论程序员是否通缉他们的基地优化是寻找新的优化。

“优化”和“搜索”是两个模棱两可的术语。我将把它们看作是任何可以被自然地解释为做重要的计算工作来“找到”在某些目标函数上得分很高的对象的算法。

目标函数基座优化的不一定相同于台面的优化器。如果基础优化要制作比萨,新的优化可以享受揉面,切碎的成分,等等。

全新优化的目标函数必须是有帮助用于基本目的,至少在实施例中基体优化器检查。否则,台面的优化也不会被选中。

然而,mesa优化器必须以某种方式减少问题;让它再来一次同样的搜索是没有意义的。所以它的目标似乎是很好的启发法;更容易优化,但不同于一般的基本目标。

为什么可能在基地目标和mesa目标之间的差异是值得关注的,如果新的优化器是在基地目标上得分高无论如何?这是关于什么是真正想要的相互作用。即使我们得到价值规范完全正确的,总是会有一些分配转变训练集和部署之间。(见Amodei,等人的“人工智能安全的具体问题”。)

分布式的变化这将是小的在普通情况下可以有很大的不同,以一个能够台面的优化,可以观察到细微的差别,并找出如何在利用它为自己的目标。

事实上,即使使用术语“分配转移”似乎是错误的背景下嵌入式代理。世界上没有独立同分布与“无分配转移”类似的是有一个整个未来相关的精确模型要优化什么的能力反复播放在培训。因此,我们需要应对大规模的“分配转移”。

我们可能还想优化那些不是我们真正想要的东西。要避免以牺牲总体目标为代价追求子目标的代理,最明显的方法是让子系统不是动态的。亚博体育苹果app官方下载只需要搜索一堆制作楼梯的方法,不要做那些与楼梯有关的东西。

问题是那么强大台面,优化器被优化的东西基本系统并不关心,而台面优化将有一个收敛的动机是动因性。亚博体育苹果app官方下载

此外,还有这样一种可能性,即mesa-optimizer变得意识到基础优化器,在这种情况下,它可能会开始明确要做目标函数基础上纯粹为了保持周围,在寻找任何迹象表明它已经离开培训和可以停止假装。这创造了尼克·博斯特罗姆的版本"奸诈转”。

这和我们之前看到的故事是一样的敌对的古德哈特:有搜索空间,这是为了响应我们选择代理的方式,也使我们代理一个坏的东西动因性。

你可能会尝试通过在训练中反复模拟“训练结束,时间进行部署”,以一种嵌套的梦想设置,以避免奸诈圈。我们的目标是测试模拟的足够层,你可以得出结论不会有在实际部署情况下,奸诈的转折。

模拟部署

不幸的是,收敛这种学习将是穷人。通常在机器学习,良好的性能意味着良好的平均情况下的性能。但奸诈又是一个“错误”,这可以小心地放在做最伤害。我们要确保这种情况不会发生。

在某种程度上,问题在于有些产出比其他产出重要得多。部署比培训更重要,部署过程中的某些关键或脆弱时刻尤其重要。我们尤其希望把重要的事情做好,而不是只得到低的平均损失。

但是,我们不能告诉系统什么是重要的解决这个问题。亚博体育苹果app官方下载事实上,看来我们希望它不能明白这一点,我们对能够从不太重要的情况下,更重要的情况下,性能一概而论银行。这就是为什么研究ML亚博体育官网技术这避免罕见的灾难(或“陷阱”)是有关确保台面,优化的问题,基础优化对齐。

很难相信任意的代码——来自富模型类的模型只基于经验测试。考虑一个高度简化的问题:我们希望找到一个只输出\(1\)的程序。\(0\)是灾难性失败。

如果我们可以检查代码自己,这个问题很容易。但是,机器学习的输出往往是难以分析;让我们假设,我们可以一点都看不懂的代码。

现在,在某种意义上,我们可以相信更简单的函数。一小段代码不太可能包含硬编码的异常。我们量化。

考虑长度为\(L\)的所有程序的集合。有些程序\(p\)会打印\(1\)很长一段时间,但随后打印\(0\)。我们正试图避免这种情况。

调用时间到第一零\(W_ {P} \)。(\(W_ {P} = \ infty \)如果程序\(P \)是值得信赖的,即,如果它从未输出\(0 \)。)

最高有限\(W_ {P} \)的所有长度的 - \(L \)程序是忙海狸函数的形式,所以我将称其为\(BB(L)\)。如果我们想完全确定长度的随机程序\(L \)是值得信赖的,我们需要观察\(BB(L)\)的人从该计划中。

现在,关于Busy Beaver函数的一个事实是\(BB(n)\)增长速度比任何可计算函数都要快。因此,在最坏的情况下,这种经验主义的信任建立需要难以计算的时间才能找到真相。

怎么样的平均情况?

如果我们假设所有其他的长度 - \(L \)程序易于情况下,有成倍很多的长度 - \(L \)程序,所以一般是\(BB(L)\ / \ \ mathrm {EXP}(L)\)。但是指数是不可计算的。所以\(BB(L)\ / \ \ mathrm {} EXP(L)\)增长仍然比任何可计算函数更快。

因此,虽然使用短程序让我们在理论上有了一些信心,但作为长度的函数,对行为形成普遍结论的难度会迅速增加。

如果长度限制不是那么实际,也许限制计算复杂度可以帮助我们?直观地说,mesa优化器需要时间来思考,以便成功地执行一个危险的转弯。因此,一个能更快得出结论的程序可能更值得信赖。

然而,不幸的是,限制复杂性类并不能避开忙碌型行为。如果只需要稍微长一点的程序长度\(L\),那么在输出\(0\)之前等待很长时间的策略甚至可以进一步减慢。


如果所有这些问题看起来都过于假设,那么考虑一下地球上生命的进化。进化可以被认为是繁殖适应性的最大化。

(进化实际上可以被认为是许多事情的优化器,或者根本就不是优化器,但这并不重要。关键是,如果一个行为体想要最大化生殖适宜度,它可能会使用一个看起来像是进化的系统。)亚博体育苹果app官方下载

智能生物是进化的台面,优化。虽然智能生物的驱动器肯定与生殖健康相关,生物想各种各样的事情。还有谁已经认识到发展,甚至有时操纵它甚至台面,优化。强大而错位台面,优化似乎是一种现实的可能性,那么,至少有足够的处理能力。

当你试图解决一个你还不知道如何通过搜索a来解决的问题时,问题就会出现希望有人能解决这个问题。

如果问题的根源是通过大规模搜索来解决问题,也许我们应该寻找解决问题的不同方法。也许我们应该通过弄清楚事情来解决问题。但是,如果你不知道如何解决你不知道如何解决的问题,而不是通过尝试?


让我们退后一步。

嵌入式世界模型是如何想所有的,因为嵌入式代理;决策理论是关于如何行动。强大的代表团是打造值得信赖的接班人和帮手。子系统亚博体育苹果app官方下载对齐即将建设之一代理出值得信赖的部分

嵌入式代理

问题是:

  • 我们不知道如何思考的环境中,当我们
  • 在一定程度上,我们能够这样做,我们不知道该怎么想行动的后果在这些环境中。
  • 即使我们能够做到这一点,我们不知道如何思考我们
  • 即使我们有没有这些问题,我们不知道如何可靠地输出操作让我们得到我们想要的!

这是Scott Garrabrant和Abram Demski的倒数第二篇文章嵌入式代理序列。结论:嵌入式珍品。