子系统亚博体育苹果app官方下载对齐

你想弄清楚一些东西，但你不知道该怎么做。

您必须以某种方式将任务分解为子计算。没有“思维”的原子行为;智能必须由非智能部件建立。

由部分制成的代理是所做的一部分反应性努力，因为代理可能必须推理这些部分的不可能的配置。

由零件制成是什么自我推理和自我修改甚至成为可能。

然而，我们在本节中主要要讨论的是另一个问题:当代理由部分组成时，可能会有对手不仅在外部环境中，而且在代理内部也是如此。

这种问题是子系统亚博体育苹果app官方下载对齐:确保子系统不会以不同的目的工作;亚博体育苹果app官方下载避免针对非预期目标对子流程进行优化。

良性诱导

良性的优化

透明度

Mesa-Optimizers.

这是一种稻草代理设计：

具有认知和乐器子系统的吸管剂亚博体育苹果app官方下载

认知子系统只是希望准确的信仰。亚博体育苹果app官方下载乐器子系统使用这些信仰来追踪它在做的程度亚博体育苹果app官方下载。如果乐器子系统相对于认知子系统过于能力，它可能亚博体育苹果app官方下载决定尝试如所描绘的那样愚弄认知子系统。

如果认知子系统变得太强大，也可能产生不好亚博体育苹果app官方下载的结果。

该代理设计将系统的认知和工具子系统视为具有自己目标的离散代亚博体育苹果app官方下载理，这并不是特别逼真。但是，我们在本节中看到了线头头以交叉目的工作的子系统问题很难避免。亚博体育苹果app官方下载如果我们没有故意构建相关子系统，这是一个难的问题。亚博体育苹果app官方下载

避免启动想要不同事物的子代理的一个原因是我们想要的对相对规模的鲁棒性。

一种方法是强大的规模如果它仍然有效，或者优雅地失败，因为您的规模功能。有三种类型：稳健性扩大;缩小稳健性;和对相对规模的鲁棒性。

稳健性扩大意味着如果在优化时变得更好，您的亚博体育苹果app官方下载系统不会停止表现得很好。检查这一点的一种方法是考虑如果AI优化的功能实际上是什么最大化。思考耶和华的法律。
缩小稳健性意味着如果您的系统仍然有效亚博体育苹果app官方下载更少的强大。当然，它可能会停止有用;但它应该安全地失败，没有不必要的成本。
如果它可以亚博体育苹果app官方下载完全最大化某些功能，但您的系统可能会工作，但如果您近似是安全的？例如，如果它可以非常精确地学习人类价值，也亚博体育苹果app官方下载许系统是安全的，但近似使得它越来越错了。
对相对规模的鲁棒性意味着您的设计不依赖于代理的子系统类似强大的子系统。亚博体育苹果app官方下载例如，氮化镓(生成对抗网络)训练可能失败，如果一个子网络变得太强，因为不再有任何训练信号。

GaN训练

缺乏规模的稳健性不一定是杀死提案的东西，但是要意识到;缺乏规模的稳健性，你需要强烈的理由认为你是正确的规模。

相对规模的健壮性对于子系统对齐尤其重要。亚博体育苹果app官方下载一个具有智能分支的代理不应该依赖于能够智胜它们，除非我们有一个强有力的解释，为什么这总是可能的。

大局道德：旨在拥有一个统一的系统，不适用于自身的交叉目的。亚博体育苹果app官方下载

为什么有人会把代理人与零件相互反抗？有三个明显的原因：亚军那指针，和搜索。

分配一个任务亚军可能是有效地找到解决方案的唯一方法。但是，子群计算不应该完全忘记大局！

旨在构建房屋的代理商不应启动一个仅关心建筑楼梯的子代理。

一个直观的冒失者是，尽管子系统需要拥有自己的目标，以便将问题分解为部分，但是特性需要亚博体育苹果app官方下载“点”强大地达到主要目标。

房屋建筑代理人可能旋转一个仅关心楼梯的子系统，但只关心楼梯的背景亚博体育苹果app官方下载房屋。

但是，您需要以一种不仅仅是您的房屋建筑系统的方式执行此操作，其中有一个在其头部的第二个房屋建筑系统。亚博体育苹果app官方下载这让我带到下一个项目：

指针:子系统可能很难携带亚博体育苹果app官方下载全系统亚博体育苹果app官方下载与他们一起的目标，因为他们需要减少这个问题。然而，这种间接似乎鼓励了不同子系统的激励不一致的情况。亚博体育苹果app官方下载

正如我们在认知和乐器子系统的示例中看到的那样，我们一开始我们开始优化某种亚博体育苹果app官方下载期望，而不是直接反馈关于我们在实际重要的指标上做的事情，我们可能会产生歪曲激励 - 那是耶和华的法律。

我们如何要求子系统“do do x”而亚博体育苹果app官方下载不是“说服我正在执行x”的“说服我做x”，而不通过整个总体目标系统？

这类似于我们想要的方式继任者代理人以重量为值，因为它太难编写了值。但是，在这种情况下，学习较大代理的值也不会有任何意义;子系统亚博体育苹果app官方下载和子公司需要成为小。

解决人类完全设计的子系统或AI明确设定的子目标之间的协调可能并不困难。亚博体育苹果app官方下载如果你知道如何通过设计避免错位并强大地委派了你的目标，这两个问题似乎是可解脱的。

然而，似乎不可能如此明确地设计所有的子系统。亚博体育苹果app官方下载在解决问题的某个时候，你已经尽可能地将其分解，并且必须依靠一些试验和错误。

这就引出了第三个原因子系统可能会优化不同的东西，亚博体育苹果app官方下载搜索：通过透过丰富的可能性来解决问题，这本身可能包含错位的子系统。亚博体育苹果app官方下载

ML研亚博体育官网究人员非常熟悉这一现象：编写一个节目更容易为您找到高性能机器翻译系统，而不是直接写一个。亚博体育苹果app官方下载

从长远来看，这个过程可以更进一步。对于一个足够丰富的问题和一个足够令人印象深刻的搜索过程，通过搜索找到的解决方案本身可能是智能优化一些东西。

这可能是偶然发生的，或被故意设计成作为解决困难问题的策略。无论哪种方式，它都有一个很好的机会，加剧了Goodhart型问题 - 你现在有效地有两个可能的错位机会，你以前有一个。

这个问题在亨格林格等人中描述了“高级机器学习系统中学到的学习优化风险亚博体育苹果app官方下载“。

让我们调用原始搜索过程基础优化器，以及通过搜索a找到的搜索过程Mesa优化器。

“Mesa”是“meta”的反义词。“元优化器”是设计用来产生新的优化器的优化器，而“台面优化器”是由最初的优化器生成的任何优化器——不管是不是程序员通缉他们的基础优化器正在寻找新优化器。

“优化”和“搜索”是含糊不清的条件。我会将它们视为任何可以自然地解释为执行重要的计算工作的任何算法，以“查找”对某些客观函数高度评分的对象。

这目标函数基本优化器不一定与MESA优化器的结果相同。如果基础优化器想要制作披萨，新优化器可以享受揉面团，切碎的成分等等。

新的优化器的目标函数必须是乐于助人对于基础目标，至少在示例中，基本优化器正在检查。否则，不选择MESA优化器。

但是，MESA优化器必须以某种方式减少问题;无法再次运行完全相同的搜索点。所以它似乎它的目标往往会像好的启发式;更容易优化，但与基础目标不同。

如果新的优化器在基本目标上得分高度评分，为什么基地目标和台面目标之间可能会有所差异？这是关于与真正想要的相互作用。即使我们得到价值规范完全正确，总会有一些分布转移在训练集和部署之间。（见Amodei，等。的“AI安全的具体问题”。)

在普通情况下，在普通情况下的分布换档可能会对有能力的MESA优化器产生很大的差异，这可能会观察到轻微的差异并弄清楚如何为自己的目标进行资本化。

实际上，甚至使用“分布转移”一词似乎是错误的嵌入式代理。世界不是I.I.D.“没有分布转移”的模拟将是有一个与您想要优化的内容相关的整个未来的确切模型以及能力一遍又一遍地跑在训练中。所以我们需要处理大规模的“分布转移”。

我们可能还希望优化不完全是我们想要的东西。避免代理商在整体目标成本上追求子公司的显而易见的方法是让子系统不是代理人。亚博体育苹果app官方下载只需搜索一堆方式来制作楼梯，不要让某些人关心楼梯。

问题是，强大的台面优化器正在优化基础系统不关心的东西，并且台面优化器将具有常规激励为代理商。亚博体育苹果app官方下载

Additionally, there’s the possibility that the mesa-optimizer becomes aware of the base optimizer, in which case it might start explicitly trying to do well on the base objective function purely in order to be kept around, while looking for any signs that it has left training and can stop pretending. This creates a version of Nick Bostrom’s “奸诈“。

这和我们之前看到的故事是一样的对抗古德哈特：搜索空间中有一些代理人，这响应我们选择代理的代理，这使我们的代理是一个坏人。

在培训期间，在培训期间，您可能会尝试避免危险的转变，反复模拟培训期间的“培训结束”，以一种嵌套梦想设置。目标是测试足够的模拟层，您可以在真实部署案例中结束，在真正的部署情况下不会有危险的转弯。

模拟部署

不幸的是，这种学习的融合将是穷人。通常在机器学习中，良好的性能意味着良好的平均例子。但是危险的回合是一个“错误”，可以仔细地放置到做最多的伤害。我们希望确保这不会发生。

在某种程度上，问题在于某些产出要比其他产出重要得多。部署比训练更重要，部署过程中的某些关键或脆弱时刻尤其重要。我们想要特别确定重要的事情是正确的，而不是平均损失很低。

但是我们无法通过告诉系统重要事项来解决这个问题。亚博体育苹果app官方下载事实上，似乎我们希望它无法想象出来 - 我们正在能够在更重要的情况下从表现概括到更重要的案件。这就是为什么研究ml的原亚博体育官网因技术这避免了罕见的灾难（或“陷阱”）与确保MESA优化器与基本优化器对齐的问题相关。

很难信任任意代码——来自富模型类的模型仅仅基于经验测试。考虑一个高度简化的问题:我们想找到一个只输出\(1\)的程序。\(0\)是灾难性的故障。

如果我们可以自己检查代码，这个问题很容易。但是机器学习的产量往往难以分析;所以让我们假设我们根本无法理解代码。

现在，在某种意义上，我们可以相信更简单的函数。短代码段不太可能包含硬编码的异常。我们量化。

考虑所有长度为\(L\)的程序集。有些程序会长时间打印\(p\)，然后打印\(0\)。我们正在努力避免这种情况。

调用Time-to-Fizo \（w_ {p}）。（\（w_ {p} = \ infty \）如果程序\（p \）是值得信赖的，即，如果它永远不会输出\（0 \）。）

所有长度的最高有限\（w_ {p} \） - \（l \）程序是繁忙的beaver函数的一种形式，因此我将把它引用为\（bb（l）\）。如果我们完全确定长度的随机计划\（l \）是值得信赖的，我们需要观察该计划的\（bb（l）\）。

现在，关于Busy Beaver函数的一个事实是\(BB(n)\)比任何可计算函数增长得都快。所以在最坏的情况下，这种基于经验的信任建立需要不可计算的时间来找到真相。

平均案例怎么样？

如果我们假设所有其他长度 - \（l \）程序轻松案例，则存在呈指数级的长度 - \（l \）程序，因此平均值是\（bb（l）\ / \ \ mathrm {exp}（l）\）。但是指数是可计算的。所以\（bb（l）\ / \ \ mathrm {exp}（l）\）仍然比任何可计算函数更快。

因此，虽然使用短程序在理论上给了我们一些信心，但形成关于行为的广义结论的难度随着长度的增加而迅速增加。

如果长度限制不是那么实际，也许限制计算复杂度可以帮助我们?从直觉上看，台面优化器需要时间去思考才能成功地执行一个危险的回合。因此，一个能更快得出结论的程序可能更值得信赖。

然而，遗憾的是，限制复杂性类并不能避免busy - beaver类型的行为。在输出\(0\)之前等待很长时间的策略可以进一步降低，只需要稍微长一点的程序长度就可以了。

如果所有这些问题似乎太假设了，请考虑地球上生命的演变。进化可以被认为是生殖健身最大化器。

(Evolution can actually be thought of as an optimizer for many things, or as no optimizer at all, but that doesn’t matter. The point is that if an agent wanted to maximize reproductive fitness, it might use a system that looked like evolution.)

智能生物是迈马优化器的进化。虽然智能生物的驱动肯定与生殖健身有关，但生物想要各种各样的东西。甚至有Mesa-Optimizers甚至要了解进化，甚至有时操纵它。强大且未对齐的MESA优化器似乎是一个真正的可能性，那么，至少有足够的处理能力。

问题似乎出现了，因为你试图解决一个你还不知道如何解决的问题，通过搜索大空间并希望“有人”可以解决它。

如果问题的根源是通过大规模搜索来解决问题，也许我们应该寻找不同的方法来解决问题。也许我们应该把事情搞清楚来解决问题。但是，如果你还不知道如何解决问题，除了尝试之外，你如何解决问题呢?

让我们走一步。

嵌入式世界型号关于如何作为嵌入式代理人思考;决策理论是关于如何行动。强大的代表团是建立值得信赖的继任者和助手。子系统亚博体育苹果app官方下载对齐是关于建设一代理商不受标准部分。

嵌入式机构

问题是：

我们不知道如何在我们的时候考虑环境小。
在我们的范围内能够这样做，我们不知道如何思考行动的后果在这些环境中。
即使我们能做到这一点，我们也不知道如何思考我们是什么想。
即使我们没有这些问题，我们也不知道如何可靠地输出动作让我们得到我们想要的!

这是Scott Garrabrant和Abram Demski的倒数第二篇文章嵌入式代理序列。结论：嵌入式好奇心。

你喜欢这个帖子吗?你可以享受我们的其他yabo app 帖子，包括：

搜索

浏览

订阅