安全工程、目标选择和对准理论-机器智能研究所亚博体育官网

人工智能能力研究旨在使计算机系统更智能——能够更有效地解决更广泛的问题。亚博体育官网亚博体育苹果app官方下载我们可以将其与专门旨在使不同能力水平的人工智能系统更安全或亚博体育官网更安全的研究区分开来。”亚博体育苹果app官方下载健壮的和有益的。” In this post, I distinguish three kinds of direct research that might be thought of as “AI safety” work:安全工程,目标选择，和对准理论。

想象一下，在制定对微积分或天体力学的坚定了解之前，人类以某种方式开发出较重的飞行。在一个这样的世界里，将需要什么工作，以便将人类安全到月球？

在这种情况下，我们可以说，手头的主要任务是工程火箭和精炼燃料之一，使火箭在发射时加速，并不爆炸。可以将空间的边界与狭义智能和通常智能AI之间的边界进行比较。两个边界都是模糊的，但具有工程重要性：航天器和飞机有不同的用途和面对不同的限制。

与开发火箭能力的这项任务配对是一个安全工程任务。安全工程是确保工程系统提供可接受的安全水平的艺术。亚博体育苹果app官方下载在达到月球上的柔软着陆时，安全工程有许多不同的作用。一组工程师可能会确保用于构造火箭的材料能够承受火箭发射的应力，具有误差的显着边距。另一个可能会设计逃避系统亚博体育苹果app官方下载即使在发生故障时，确保火箭中的人类可以存活。另一个人可以设计能够在危险环境中支持船员的生活支持系统。亚博体育苹果app官方下载

另一个重要的任务是目标选择，即，挑选月球到陆地。在月亮使命的情况下，瞄准研究可能需要像设计和构建望远镜一样的东西（如果它们不存在）亚博体育官网并识别月球上的着陆区。当然，只能提前完成如此多的目标，并且可能需要设计月球着陆车辆，以便它可以随着新数据进来的，在最后一分钟改变着陆目标;这再次需要工程壮举。

除了（安全）的任务之外达到逃避速度并弄清楚你想去的地方，在月球上着陆还有一个至关重要的先决条件。这是火箭结盟亚博体育官网研究，到达正确的最终目的地所需的技术工作。我们将用它作为一个类比来说明Miri的研究重点，问题亚博体育官网人工智能对齐。

对齐挑战

在月球上击中某个目标不如简单小心地将火箭的鼻尖指向相关的月球坐标并击中“发射”——即使你相信你的飞行员会在必要时做出航向修正。还有一个重要的任务就是绘制天体间的轨迹。

这项火箭校准任务可能需要一套独特的理论知识，而这不仅仅是将有效载荷从地球上发射所需要的。如果没有微积分，设计一个实用的火箭将是非常困难的。尽管如此，只要有足够的毅力和足够的资源，我们可以想象一个文明在经过多年的尝试和错误后到达太空——在这一点上，他们将面临的问题是，到达太空不足以引导到一个特定的位置。¹

研究人员可能会问，“在不担心风、爆炸或燃料效率的情况下亚博体育官网，我们的火箭会走什么样的轨道?”如果这个问题超出了他们目前的能力范围，他们可能会进一步简化问题，问:“我们会以什么角度和速度发射。炮弹这样它在地球周围进入稳定的轨道，假设地球是完全球形的并且没有气氛？“

对于早期的火箭工程师来说，即使是建造任何车辆的问题，才能关闭发射垫仍然是一个令人沮丧的任务，对齐理论家的问题可能会看起来不一致。工程师可能会问“你不知道火箭不会被解雇吗？”或者“地球周围的圈子会与月球有什么关系？”然而，在实现月球上的柔和着陆时，却理解火箭对齐非常重要。如果您尚未知道在炮弹的角度和速度下，那就是它将最终在一个完美的球形上的一个稳定的轨道上，没有大气，那么你可能需要在尝试月亮使命之前更好地了解天体力学。

三种形式的AI安全研究亚博体育官网

这种情况与AI研究类似。亚博体育官网AI功能工作是与相关的安全工程任务的分配和包裹。今天工作，AI安全工程师可能会专注于使大型软件类的内部更加透明和可被人类解释。他们可能会确保系统在面对亚博体育苹果app官方下载敌对的观察。他们可能会设计安全协议和早期预警系统，帮助操作员防止或处理系统故障。亚博体育苹果app官方下载²

AI安全工程是不可或缺的工作，并且可以将安全工程与能力工程分开，这是不可行的。航空航天工程中的日常安全工作并不依赖于守护者们的伦理主义者肩膀。一些工程师将暂时在系统的组件上花时间，因为安全性 - 如失败机制或后退寿命支持 - 但安全工程是安全关键系统的整体部分，而不是单独的亚博体育苹果app官方下载纪律。

在AI的域名，目标选择解决了这样一个问题:如果我们可以构建一个强大的AI系统，我们应该用它来做什么?亚博体育苹果app官方下载潜在的发展超明在理论和应用道德中提出了一些棘手的问题。其中一些问题可以在不久的将来通过道德哲学家和心理学家以及AI研究界的不久。亚博体育官网其他人无疑将需要留给未来。斯图尔特罗素迄今为止预测“在未来，道德哲学将是关键产业部门。”我们同意这是一个重要的学习领域，但它不是机器智能研究所的主要重点。亚博体育官网

亚博体育官网Miri的研究人员专注于AI的问题结盟：研究原则原则是指向特定目标的强大AI系统。亚博体育苹果app官方下载目标选择是关于“火箭”的目的地（“我们希望AI系统对我们的文明有什么影响？”）和AI能力工程是关于让火箭逃脱速度（“我们如何使AI系统强大亚博体育苹果app官方下载足以帮助我们实现目标？“），对齐是了解如何将火箭瞄准特定的天体（”假设我们能够建立高度有能力的AI系统，我们将如何在我们的目标中引导他们？“）。亚博体育苹果app官方下载自我们对AI对齐的理解还在“什么是微积分?””阶段，我们提出类似于“如果地球是完美的球形，没有大气层，我们将以什么样的角度和速度发射一颗炮弹，使其进入稳定的轨道?”

选择有希望的AI对齐研究路径不是一个简单的任务。亚博体育官网随着后景的好处，很容易说早期火箭对齐研究人员应该首先发明光顾并研究着勇。亚博体育官网对于尚未明确了解“微积分”或“Gravitation”的人来说，选择研究主题可能会更加困难。亚博体育官网富有成效的研究方向需要与果亚博体育官网实的竞争，例如学习亚里亚特或亚里士罗的物理;哪些研究计划毫不犹豫亚博体育官网地提前显而易见。

朝向可调整行为体理论

在ai领域的“微积分”或“Gravitation”的作用是什么是一些合理的候选人？

在MIRI，我们目前专注于诸如在演绎限制下的良好推理(逻辑不确定性)，决策理论甚至对嵌入在大型环境中的代理也能很好地工作，以及支持他们推理方式的推理程序。这种研究通亚博体育官网常涉及建立玩具模型，并在极度简化的情况下研究问题，类似于假设一个没有大气的完美球形地球。

发展逻辑不确定性的理论不是大多数人在想到“AI安全研究”时都有多么思想。亚博体育官网这里的自然思想是为了询问，如果我们不发展这些理论，就会具体出错。如果AI系统无法在亚博体育苹果app官方下载数学或逻辑的域中执行有界推理，那么听起来尤其是“不安全” - 一个在数学上需要理性的系统，但不能相当无用，但很难看到它变得危险。

在我们看来，了解逻辑不确定性对于帮助我们理解我们建立的系统非常重要，以便在最终的位置对齐。亚博体育苹果app官方下载在火箭对齐的情况下，一个类似的问题可能会运行：“如果你不开发微积分，你的火箭会发生什么坏事？你认为飞行员会努力做出课程修正，并发现他们根本无法快速加起来的小型矢量吗？“然而，答案不是飞行员可能会努力纠正他们的课程，而是认为你认为导致月球的轨迹越野偏离轨道。发展的积分点不是允许飞行员快速地进行课程校正;这一点是可以在世界上讨论弯曲的火箭轨迹，其中最佳工具假设火箭在直线上移动。

这种情况与逻辑不确定性类似。问题不是我们可视化遇到灾难性失败的特定AI系统，因为它误解了逻辑不确定性。亚博体育苹果app官方下载问题是，我们最好的现有工具用于分析理性机构假设这些代理商在逻辑上无能为用，使我们最好的理论与我们最好的实用AI设计不堪一体。^3.

此时，对准研究的目标不是特定的工程问题。亚博体育官网早期火箭对齐研究的目标是开发共享语言和工具，用于产生和评估火箭轨迹，如亚博体育官网果它们尚不存在，则需要开发微积分和天体力学。同样，AI对准研究的目标是开发共享语言和工具，用于产生强大的AI系统可以亚博体育官网设计为按预期作用的方法。亚博体育苹果app官方下载

人们可能担心难以确定成功的基准对对齐研究。亚博体育官网是一种牛顿对足以尝试月亮着陆的引力的理解，或者必须在相信一个人在月球上轻轻地降落之前，或者必须一个人发展完整的一般相对论理论？⁴

在AI对准的情况下，至少有一个明显的基准测试能够专注于最初。想象一下，我们拥有一个令人难以置信的强大电脑，可以访问互联网，自动化工厂和大笔资金。如果我们可以编制该计算机可靠地实现一些简单的目标（如尽可能多的钻石），那么大量的AI对准研究将完成。亚博体育官网这是因为在理解稳定，耐堵塞和易于对齐的自治系统中，这是一个很大的问题。亚博体育苹果app官方下载一些的目标。开发控制火箭的能力一些有信心的方向比开发将火箭转向特定的月球位置的额外能力更难。

追求这样一个目标或多或少是有意义的Miri的方法到人工智能对齐研究。亚博体育官网我们认为这个问题是我们的版本，“如果燃料和风都无关，你能用火箭击中月球吗?”回答这个问题本身并不能确保比人类更聪明的人工智能系统与我们的目标一致;亚博体育苹果app官方下载但这将代表着我们现有知识的重大进步，而且它看起来不像那种我们可以安全地跳过的基本洞察力。

下一个什么?

在过去的一年里，我们已经看到了一个大量的增加以确保未来的人工智能系统是亚博体育苹果app官方下载健壮的和有益的。人工智能的安全工作正受到非常严肃的对待，人工智能工程师也在加快步伐并承认这一点安全工程不可分于工程工程。很明显，随着人工智能领域的成熟，安全工程将越来越牢固地嵌入人工智能文化的一部分。同时，对目标选择和其他安全问题的新研究也将在一个AI和伦理研讨会AAAI-16年会是该领域规模较大的年度会议之一。

第四种安全工作也得到了更多的支持:策略亚博体育官网研究。如果您的国家目前正在参与冷战并锁在太空竞赛中，您可能希望咨询游戏理论家和战略家，以确保您的尝试将一个人放在月球上并没有扰乱细微的政治平衡导致核战争。⁵如果需要国际联盟来建立关于使用空间的条约然后外交也可能成为安全工作的相关方面。与AI达到同样的原则，在联盟建设和全球协调可能在该技术的开发和使用中发挥重要作用。

战略研究是今年的上亚博体育官网涨。ai影响正在制作与该潜在世界不断变化技术的设计师相关的战略分析，并很快将被纳入其中战略人工智能研究中心亚博体育官网。新Leverhulme中心为未来的情报将在许多不同学科中拉在一起，以研究AI的社会影响，锻造新的合作。这全球优先项目与此同时，该公司正在分析哪种干预措施可能最有效地确保强大人工智能系统的开发带来积极结果。亚博体育苹果app官方下载

该领域正在快速发展，这些发展非常令人兴奋。然而，在这一切中，特别是AI对准研究仍然很大程度上仍然很大程度上。亚博体育官网

MIRI并不是唯一致力于人工智能对齐的团队;一些来自其他组织和机构的研亚博体育官网究人员也开始提出类似的问题。MIRI在人工智能校准研究方面的独特方法绝不是唯一可行的方法——当第一次考虑如何把人类亚博体育官网送上月球时，人们可能会同时考虑火箭和太空电梯。无论谁做研究或他们在哪里做，重要的是对齐研究得到注意。亚博体育官网

智慧比人类的AI系统可能多十年来，他们可能不亚博体育苹果app官方下载会与任何现有的软件密切相关。这限制了我们识别生产性安全工程方法的能力。同时，指定我们的价值观的难度使得难以识别道德理论的生产性研究。亚博体育官网对准研究具有摘要的优亚博体育官网点，足以可能适用于各种未来的计算系统，同时可操作地承认明确的进步。亚博体育苹果app官方下载因此，我们认为，我们认为AI安全领域将能够在技术工作中地将本身接地，而不会在AI中忽视最相关的问题。

安全工程，道德理论，战略和一般合作建设是开发安全和有用的AI项目的重要部分。总的来说，这些领域看起来曾经茁壮成长，因为近期对长期结果的兴趣增长，而且我很高兴看到更多的努力和投资来实现这些重要任务。

问题是：我们需要投资什么？我最想要在AI社区发生的增长类型，接下来将在AI对准研究中增长，通过形成新的团体或组织，主要集中在AI对准和Miri，UC Berkeley的现有AI对准团队的扩展亚博体育官网，牛津人类研究所的未来等机构。

在试图在月球上落地火箭之前，我们知道我们如何将炮弹放入一个稳定的轨道。缺乏对火箭对齐的良好理论理解，文明可能是最终达到逃避速度的可能性;但是让某个有价值和令人兴奋和新的，并可靠地到达那里，这是一个完整的挑战。

感谢Eliezer Yudkowsky介绍这篇文章背后的想法，也感谢Lloyd Strohl III、Rob Bensinger和其他人帮助审阅内容。

同样，我们可以想象一种在其太阳系中唯一的星球上居住的文明，或者以永久的云覆盖遮挡除太阳和月亮外的所有物体的行星上。亚博体育苹果app官方下载这种文明可能对陆地力学进行充分了解，同时缺乏天体力学模型，缺乏相同动态法律持有地球和太空的知识。然后，在专家的理论上对火箭对齐的理论理解方面存在差距，不同于了解如何达到逃避速度的差距。↩
罗马yampolskiy使用了“AI安全工程”一词来参考AI系统的研究，可以提供其外部验证安全性的证据，包括我们将术语“对准研究”的一些理论研究。亚博体育官网亚博体育苹果app官方下载他的用法与这里的使用不同。↩
就像微积分对于建造能够达到逃逸速度的火箭和将火箭导向特定的月球坐标都很有价值一样，对逻辑不确定性的正式理解可能对提高人工智能能力和提高我们可以调整强大人工智能系统的程度都很有用。亚博体育苹果app官方下载研究逻辑不确定性的主要动机是，许多其他AI对齐问题在演绎有限推理器的模型上被阻塞，就像轨迹绘制可以在曲线路径的模型上被阻塞一样。↩
在任何一种情况下，当然，我们不想在等待量子力学和一般相对性的统一理论的同时在空间计划上暂停暂停。我们不需要一个完美的了解重力。↩
这是历史上由兰德公司。↩

你喜欢这个帖子吗?你可以享受我们的其他yabo app 帖子，包括：

安全工程，目标选择和对准理论

对齐挑战

三种形式的AI安全研究亚博体育官网

朝向可调整行为体理论

下一个什么?

搜索

浏览

订阅