子系统亚博体育苹果app官方下载对齐-机器智能研究所亚博体育官网

你想弄清楚一些事情，但你还不知道怎么做。

你必须以某种方式将任务分解成子计算。不存在“思考”的原子行为;智力必须由非智力部分构成。

由零件组成的特工是被制造的一部分反应性努力，因为代理可能必须推理这些部分的不可能的配置。

是由零件组成的自我推理和自我修改甚至可能。

然而，我们主要在本节中讨论的是另一个问题：当代理由部件制成时，可能存在对手不只是在外部环境中，但在代理商内也是如此。

这一组问题是子系统亚博体育苹果app官方下载对齐：确保子系统不在交叉目的工作;亚博体育苹果app官方下载避免为意外目标优化的子过程。

良性诱导

良性优化

透明度

mesa-optimizers

这是一个吸管剂的设计:

具有认知和工具子系统的稻草代理亚博体育苹果app官方下载

认知子系统只想要准确的信念。亚博体育苹果app官方下载仪器子系统使用这些信念来跟踪它做得如何。亚博体育苹果app官方下载如果工具子系统相对于认知子系统过于强大，它可能亚博体育苹果app官方下载决定试图愚弄认知子系统，如所描述的那样。

如果认知子系统过于强烈，那么这也可能产生亚博体育苹果app官方下载不良成果。

这种主体设计将系统的认知子系统和工具子系统视为具有各自目标亚博体育苹果app官方下载的离散主体，这并不特别现实。但是，我们在线头头子系统在不同目的下工作的问题是不可避免的。亚博体育苹果app官方下载如果我们没有有意地建立相关的子系统，这个问题就会更难。亚博体育苹果app官方下载

避免启动想要不同东西的子代理的一个原因是我们想要相对尺度稳健性．

一个方法是强大的规模如果它仍然有效，或者在扩展功能时优雅地失败。有三种类型:扩展的健壮性；向下伸缩的健壮性；和相对尺度稳健性．

稳健性扩大这意味着如果你的系统在优化方面做亚博体育苹果app官方下载得更好，它也不会停止正常运行。检验这一点的一种方法是考虑如果AI优化的函数实际上是最大化．认为古德哈特定律．
向下伸缩的健壮性这意味着如果你的系统被创建，它仍亚博体育苹果app官方下载然可以工作不那么强大．当然，它可能不再有用;但它应该安全失败，没有不必要的成本。
如果你的系亚博体育苹果app官方下载统能够使某些函数最大化，那么它可能会工作，但是如果你进行近似，它是否安全呢?例如，如果一个系统能够非常精确地学习人类的亚博体育苹果app官方下载价值观，那么它可能是安全的，但近似值使它越来越不一致。
相对尺度稳健性这意味着您的设计不依赖于代理的子系统同样强大。亚博体育苹果app官方下载例如,甘（生成的对抗网络）培训如果一个子网络变得太强烈，因为不再有任何训练信号。

氮化镓培训

缺乏伸缩性并不一定会扼杀一个提议，但这是需要注意的;由于缺乏稳健性，你需要有充分的理由认为自己处于正确的规模。

对相对规模的鲁棒性对子系统对齐尤为重要。亚博体育苹果app官方下载具有智能子部分的代理人不应依赖于能够超越它们，除非我们有强烈的陈述为什么始终可能。

大局道德：旨在拥有一个统一的系统，不适用于自身的交叉目的。亚博体育苹果app官方下载

为什么有人会把代理人与零件相互反抗？有三个明显的原因：亚军，指针,搜索．

把一项任务分成亚军也许是唯一有效的解决办法。然而，子目标计算不应该完全忘记大局!

设计为建造房屋的代理不应该启动只关心建造楼梯的次级代理。

一个直观的冒失者是，尽管子系统需要拥有自己的目标，以便将问题分解为部分，但是特性需要亚博体育苹果app官方下载“点回来”坚定地走向主要目标。

房屋建筑代理可能会旋转一个只关心楼梯的子系统，但只关心在上下文中的楼梯亚博体育苹果app官方下载房子．

然而，你需要以一种不只是在你的房屋建造系统的头脑中有第二个房屋建造系统的方式来做这件事。亚博体育苹果app官方下载这就引出了下一项:

指针：子系统可能难以携带亚博体育苹果app官方下载全系统亚博体育苹果app官方下载目标围绕着他们，因为他们需要这样减少问题。然而，这种间接似乎鼓励不同的子系统激励措施的情况。亚博体育苹果app官方下载

正如我们在认知和乐器子系统的示例中看到的那样，我们一开始我们开始优化某种亚博体育苹果app官方下载期待，而不是直接得到反馈，我们正在做什么，实际上是重要的指标，我们可能会创造不正当的激励-这是古德哈特定律。

在不传递整个首要目标系统的情况下，我们亚博体育苹果app官方下载如何让子系统“做X”，而不是“说服更广泛的系统我正在做X”?

这和我们想要的方式相似继任者代理坚定地指出价值，因为将价值记下来太难了。然而，在这种情况下，学习更大代理的值也没有任何意义;子系统亚博体育苹果app官方下载和子目标需要是较小．

它可能并不难以解决人类完全设计的子系统的子系统对齐，或者ai明确地旋转的子系统。亚博体育苹果app官方下载如果您知道如何避免设计不对准并强大地委派了你的目标，这两个问题似乎都是可以解决的。

但是，似乎似乎可能如此明确地设计所有子系统。亚博体育苹果app官方下载在某些时候，在解决问题时，你就像你知道如何，你必须依赖一些试验和错误。

这将我们带到第三个原因子系统可能是优化不同的东西，亚博体育苹果app官方下载搜索:通过查看一个丰富的可能性空间来解决问题，这个空间本身可能包含不一致的子系统。亚博体育苹果app官方下载

ML研亚博体育官网究人员对这种现象非常熟悉:编写一个程序，为你找到一个高性能的机器翻译系统，比自己直接编写一个更容易。亚博体育苹果app官方下载

从长远来看，这个过程可以进一步走一步。对于丰富的问题和令人印象深刻的搜索过程，通过搜索发现的解决方案本身就是智能优化某物。

这可能是偶然发生的，也可能是作为解决困难问题的一种策略而特意设计的。无论哪种方式，它都很有可能加剧古德哈特式的问题——你现在实际上有两种错位的机会，而以前只有一种。

这个问题在Hubinger等人的“高级机器学习系统中学习型优化的风险亚博体育苹果app官方下载”。

我们将原始搜索过程称为基础优化器，并通过搜索找到的搜索过程mesa-optimizer．

“Mesa”与“meta”相反。虽然“元优化器”是一个旨在生产新优化器的优化器，但是“Mesa-Optimizer”是由原始优化器产生的任何优化器 - 是否程序员想要他们的基础优化器正在寻找新优化器。

“优化”和“搜索”是含糊不清的术语。我认为它们是任何一种算法，可以很自然地解释为做重要的计算工作，“找到”一个在某些目标函数上得分很高的对象。

的目标函数基本优化器的与台面优化器的不一定相同。如果基础优化师想要做披萨，新的优化师可能喜欢揉面团，切食材等等。

新的优化器的目标函数必须是有帮助的对于基本目标，至少在基本优化器正在检查的示例中。否则，台面优化器就不会被选中。

然而，台面优化器必须以某种方式减少问题;没有必要再进行一遍完全相同的搜索。所以它的目标似乎是良好的启发式;更容易优化，但不同于一般的基本目标。

如果新的优化器在基础目标上的得分很高，为什么要考虑基础目标和台面目标之间的差异呢?这是关于真正想要的东西之间的相互作用。即使我们价值规范完全正确，总会有一些的分配转变在训练集和部署之间。（见Amodei，等。的“人工智能安全的具体问题“。）

分布的变化在一般情况下是很小的，但对于有能力的台面优化器可能会产生很大的不同，它可能会观察到细微的差异，并找出如何利用它来实现自己的目标。

实际上，甚至使用“分配转移”这个词在上下文中似乎都是错误的嵌入式机构．世界不是先验知识。类似于“没有分配转移”的是整个未来的精确模型与你想要优化的东西有关的能力跑过来在培训。因此，我们需要应对大规模的“分配转移”。

我们也可能想要优化一些并不完全是我们想要的东西。避免主体以牺牲总体目标为代价追求子目标的明显方法是使子系统不具有主体性。亚博体育苹果app官方下载你只需要搜索一堆制作楼梯的方法，不要制作那些关心楼梯的东西。

问题是，强大的台地优化器正在优化基础系统不关心的东西，台地优化器将有趋同的动机成为代理。亚博体育苹果app官方下载

此外,还有这样一种可能性,即mesa-optimizer变得意识到基础优化器,在这种情况下,它可能会开始明确要做目标函数基础上纯粹为了保持周围,在寻找任何迹象表明它已经离开培训和可以停止假装。这创造了一个版本的尼克·博斯特罗姆奸诈”。

这是我们看到的同一个故事敌对的古老:在搜索空间中存在某种代动性，它对我们选择的代理作出反应，使我们的代理成为一个糟糕的代理。

在培训期间，在培训期间，您可能会尝试避免危险的转变，反复模拟培训期间的“培训结束”，以一种嵌套梦想设置。目标是测试足够的模拟层，您可以在真实部署案例中结束，在真正的部署情况下不会有危险的转弯。

模拟部署

不幸的是，这种学习的收敛性很差。通常在机器学习中，良好的性能意味着良好的平均情况性能。但一个危险的转弯是一个“错误”，可以小心地放置，造成最大的伤害。我们要确保这不会发生。

部分问题是，一些输出比其他输出要重要得多。部署比培训更重要，部署期间的某些关键或脆弱的时刻将尤为重要。我们希望特别肯定会获得重要的事情，而不是获得低平均损失。

但是我们无法通过告诉系统重要事项来解决这个问题。亚博体育苹果app官方下载事实上，似乎我们希望它无法想象出来 - 我们正在能够在更重要的情况下从表现概括到更重要的案件。这就是为什么研究ml的原亚博体育官网因技术而避免罕见的灾难（或“陷阱”）与确保MESA优化器与基本优化器对齐的问题相关。

很难信任任意代码 - 这是富型模型类的模型仅基于经验测试。考虑高度简化的问题：我们想找到一个只输出\（1 \）的程序。\（0 \）是一种灾难性的失败。

如果我们可以自己检查代码，这个问题就会很简单。但机器学习的输出往往难以分析;假设我们根本无法理解代码。

现在，在某种意义上，我们可以更多地信任更简单的功能。短片代码不太可能包含硬编码的异常。让我们量化。

考虑所有长度的所有程序集（l \）。一些程序\（p \）将长时间打印\（1 \），但然后打印\（0 \）。我们正试图避免这种情况。

调用time-to-first-zero \(W_{p}\)。(\(W_{p} = \infty\)如果程序\(p\)是可信的，也就是说，如果它从来不输出\(0\)。)

所有长度的最高有限\（w_ {p} \） - \（l \）程序是繁忙的beaver函数的一种形式，因此我将把它引用为\（bb（l）\）。如果我们完全确定长度的随机计划\（l \）是值得信赖的，我们需要观察该计划的\（bb（l）\）。

现在，关于Busy Beaver函数的事实是\（bb（n）\）比任何可计算函数更快地增长。因此，在最坏的情况下，这种经验信托建设需要无明显漫长的措辞。

那平均情况呢?

如果我们假设所有其他长度为- (L)的程序都是简单的情况，那么长度为- (L)的程序的数量是指数级的，所以平均值是(BB(L)\ / \mathrm{exp}(L)\)。但是指数是可以计算的。所以\(BB(L)\ / \mathrm{exp}(L)\)仍然比任何可计算函数增长得更快。

因此，在使用短节目的同时使我们对理论有一些信心，因此形成关于行为的广义结论的难度随着长度的函数而迅速地增长。

如果长度限制不那么实用，可能限制计算复杂性可以帮助我们？直观地，MESA优化器需要时间来思考，以便成功地执行危险的转弯。因此，一项速度结论的计划可能更值得信赖。

然而，遗憾的是，限制复杂性课程不会围绕忙碌的海狸类型行为。在输出\（0 \）之前等待长时间的策略可以进一步放慢下来，只有稍长的程序长度\（l \）。

如果所有这些问题看起来都是假设性的，那么考虑一下地球上生命的进化。进化可以被认为是生殖适应度的最大化。

(进化实际上可以被认为是许多事情的优化器，或者根本不是优化器，但这无关紧要。问题的关键在于，如果一个个体想要最大化生殖适合度，它可能会使用一个看起来像进化的系统。)亚博体育苹果app官方下载

智能生物是进化的台地优化器。尽管智能生物体的动力肯定与生殖健康有关，但生物体想要各种各样的东西。甚至有台地优化者已经开始理解进化，甚至有时还能操纵它。因此，强大且不对齐的台面优化器似乎是一种真正的可能性，至少具有足够的处理能力。

出现问题似乎是因为你试图解决你尚未知道如何通过搜索解决问题的问题大空间和希望“某人”可以解决它。

如果问题的来源是通过大规模搜索解决问题的解决方案，也许我们应该寻找不同的方法来解决问题。也许我们应该通过难以解决问题来解决问题。但是如何解决您尚未知道的问题，而不是通过尝试的东西来解决

让我们走一步。

嵌入式世界模型关于如何作为嵌入式代理人思考;决策理论是关于如何采取行动。强大的代表团是关于构建值得信赖的继承者和帮助者。子系统亚博体育苹果app官方下载对齐是关于建筑一个代理人不值得信赖部分．

嵌入式机构

问题是:

我们不知道如何在我们的时候考虑环境较小．
在我们的范围内能够这样做，我们不知道该如何思考行动的后果在这些环境中。
即使我们可以这么做，我们也不知道如何思考我们想要．
即使我们没有这些问题，我们也不知道如何可靠地输出动作这让我们得到了我们想要的！

这是斯科特盖拉德坦特和亚伯兰德斯基的倒数第二篇文章嵌入式机构顺序。结论:嵌入式的好奇心。

你喜欢这篇文章吗？你可以享受我们的另一个yabo app 的帖子,包括:

子系统亚博体育苹果app官方下载对齐

搜索

浏览

订阅