MIRI的研究指南亚博体育官网

由Nate Soares.



2019年3月更新本研究指南自2亚博体育官网015年以来仅略有更新。我们的新推荐给那些想要在yabo 是:

  • 如果你有计算机科学或软件工程背景申请参加我们的新关于AI风险的讲习班作为Miri的工程师工作.为此,您不需要事先熟悉我们的研究。亚博体育官网

    • 如果你不确定自己是否适合参加人工智能风险研讨会或工程师职位,给我们发邮件我们可以谈谈是否有意义。

    • 您可以了解更多关于我们的工程计划的更多信息2018战略更新

  • 如果您想了解更多关于我们正在努力的问题(无论您的答案如何):请参阅“嵌入式机构”来了解我们的代理基金会研究,并查看我们的亚博体育官网对齐研究现场指南亚博体育官网关于如何开始人工智能安全的一般建议。

    • 在查看这两个资源后,您可以使用“嵌入式代理商”中的链接和引用以及此页面,以了解有关要钻取的主题的更多信息。如果您想要一个特定的问题设置为专注,我们建议斯科特盖拉巴德的“定点练习正如斯科特所言:

      有时人们会问我应该学习哪些数学以进入代理基础。我的第一个答案是我找到了每个子场中的介绍性课程,以帮助,但我发现后来的课程要更少有用。我的第二个答案是学习足够的数学来理解所有固定点定理。

      这两个答案实际上非常相似。不动点定理跨越了所有的数学领域,是(我的)思考agent基础的中心。

    • 如果您希望人们合作和讨论,我们建议开始或加入A.米西克集团,发布胜败,申请我们的计算机科学家的风险车间或让我们知道你在那里。

如果人类要培养具有积极影响的聪明的人工智能,我们必须满足三个强大的挑战。首先,我们必须设计更聪明的人类系统亚博体育苹果app官方下载高度可靠,这样我们就有理由相信系统会满足特定的目标或偏好。亚博体育苹果app官方下载第二,设计必须是宽容,使系统在面对不可避免的人为亚博体育苹果app官方下载错误时,能够在线修改和修正。第三,系统必须实际学习亚博体育苹果app官方下载有益的目标或偏好。

Miri目前的研究计划侧重于理亚博体育官网解如何原则上应对这些挑战.可靠推理的某些方面我们甚至在理论上都还不了解;即使在简化的环境中,我们也无法解决有限理性的问题。作为第一步,我们的研究重点是在简化的环境中寻找解决方案。因此,我们的现代研究看起来更像是纯数学,亚博体育官网而不是软件工程或实际的机器学习。

本指南简要概述了我们的研究重点,并提供资源,将帮助您获得每个学科领亚博体育官网域的前沿。本指南不打算证明这些研究主题;亚博体育官网关于我们的方法的进一步动机,请参阅文章“Miri的方法,还是要我们的技术议程支持文件

注(2016年9月):本研究指南是基于我们的亚博体育官网代理基金会议程.截至2016年,我们也有一个机器学习聚焦议程.关于我们认为有前途的、本指南没有涉及的研究方向的更多信息,请参阅该文件。亚博体育官网


如何使用本指南

本指南适用于有抱负在相关主题领域的研究人员。亚博体育官网如果您已经是AI专业人员或经验丰富的数学家,请考虑跳到我们的现有的出版物反而。(我们的技术议程是一个很好的起点。)本指南朝着想知道他们在未来成为Miri研究人员的学习者,以及在其他领域的专业人士在我们的工作中获得速度的专业人士。亚博体育官网

亚博体育官网研究人员一般最终通过两条路径之一加入我们的团队。首先是参加Miri研讨会并亲自与我们建立关系。您可以使用这种形式申请参加研究研讨会。亚博体育官网被警告说,工作坊之间经常有一点时间,其容量有限。

第二种方法是独立地在我们的研究议程上取得一些进展,并让我们知道你的结果。亚博体育官网您可以使用我们的在线表单在你的工作上申请帮助或投入,但是开始贡献的最快的方法是阅读智能代理基础论坛(IAFF),注意人们正在努力的公开问题,解决一个问题。然后,您可以将结果发布为关联在论坛上。

2019年3月更新:Lesswrong和AI对齐论坛现在是我们对AI对准问题的公开讨论,取代IAFF的公开讨论。查看此帖子的顶部,以获取其他更新本节中的建议。)

研究论坛的主要目的是让已经在同一页面上的研究人员讨论未亚博体育官网经修饰的部分结果。因此,论坛上的帖子可能相当不透明。本研究指南亚博体育官网可以帮助您快速了解IAFF上正在讨论的开放问题。它还可以帮助你发展必要的技能,使你有资格参加研讨会,或找到方法,在其他机构的人工智能校准中解决开放性问题。

本指南首先介绍了一些基础学科的建议,在尝试这种类型的研究之前,了解这些学科是很重要的,比如概率论。亚博体育官网在那之后,它会被分解成一系列的主题区域,并提供论文的链接,让你了解该领域的最新技术。

这不是一个线性指南:如果您想成为Miri研究员,我建议首先确保您了解基础知识,然后选择一个对您感兴趣的主题并在该区亚博体育官网域进行深度。一旦您了解一个主题,您就可以随时在IAFF上尝试在该主题领域进行贡献。

随着本指南中的所有材料,请不要为了磨损而磨损。如果你已经知道了这些材料,请跳过前方。如果其中一个活跃的研究区域未能捕捉您的兴趣亚博体育官网,请切换到不同的。如果您不喜欢其中一个推荐的教科书,请找到一个更好的或完全跳过它。本指南应作为一个工具,以弄清楚您可以贡献的地方,而不是那种目标的障碍。


最基本的

在直接进入我们的积极研究主题之前,有一些流利的数学概念非常重要。亚博体育官网我们所有的研究领域都是亚博体育官网通过对计算,逻辑和概率理论的基本理解提供良好的服务。以下是让您入门的一些资源。

你不需要按列出的顺序阅读这一部分的书。选择任何有趣的内容,在必要时不要犹豫,在研究领域和基础知识之间来回跳转。亚博体育官网

集理论

大多数现代数学是在集合理论中形式化的,这里列出的教科书和论文也不例外。这使得集合理论成为一个很好的起点。



第1-18章

可计算性和逻辑

可计算性理论(以及对角化带来的限制)是理解机器能做什么和不能做什么的基础。



1 - 4章

概率论

概率理论是对理性机构的理解的核心。在不确定性下,一些熟悉推理在我们所有活跃的研究领域都至关重要。亚博体育官网



1 - 5章

概率推断

这本书将帮助充实的理解如何推理可以完成使用概率世界模型。


统计数据

流利地使用统计模型将有助于为我们的“高级机器学习对齐“研亚博体育官网究议程。先熟悉一下概率推理是个好主意。


机器学习

强烈推荐,制定对机器学习的实用熟悉Andrew Ng的Coursera课程(演讲笔记这里)。对于ML的更为理论介绍,请尝试了解机器学习


人工智能

虽然我们的大部分工作都是理论上的性格,但了解人工智能现代领域的知识对于将这项工作置于背景下是重要的。

理解VNM理性的概念也很重要,我建议从中学习维基百科文章但也可以从原书籍.冯·诺依曼和摩根斯特恩表明,任何服从几个简单一致性公理的代理行为都具有效用函数所描述的偏好。虽然有些人认为,为了构建可靠的智能代理,我们可能最终需要放弃VNM的合理性,但VNM框架仍然是我们拥有的描述任意强大代理行为的最有表现力的框架。(例如,参见正交性的论文仪器收敛的论文来自Bostrom的“有超常智慧的意志。VNM合理性的概念贯穿于我们所有积极的研究领域。亚博体育官网



现实世界型号

如果您的智慧比人类系统不可靠,您可以正式化有益目标。亚博体育苹果app官方下载甚至原则上,我们还没有理解的良好推理。它可能通过建立使用算法的实用系统来获得洞察力,这些系统似乎工作的算法,即使他们工作的原因尚未理解:通常,在实际应用的次唤亚博体育苹果app官方下载醒之后,理论理解就遵循。然而,我们考虑这种方法在设计具有潜力的系统时,我们将在尝试创建实际的高层系统之前手头有一般情报理论,更安全。亚博体育苹果app官方下载

由于这个原因,我们的许多积极的研究主题集中在我们还不知道如何解决的一般智亚博体育官网力部分,甚至在原则上。例如,考虑以下问题:

我有一个计算机程序,被称为“宇宙”。宇宙中只有一个函数是未定义的。你的工作是给我提供一个适当类型的计算机程序来完成我的宇宙程序。然后,我会运行我的宇宙程序。我的目标是给你的代理打分根据它对原始宇宙程序的了解程度。

我怎么能这样做?Solomonoff的归纳推理理论在理论上的解决方案上阐明了一些光线:它描述了一种从观察结果中理想预测的方法,而是仅在预测因子在环境之外存在的情况。所罗门组织的诱导导致了许多用于思考归纳推理的有用工具(包括Kolmogorov复杂性,通用的先前和AIXI),但是在代理是由宇宙计算的宇宙的子处理的情况下,问题变得明显更困难.

在嵌入在环境内的代理人的情况下,感应问题会变得朦胧:什么是“学习宇宙计划”?如果代理商评分,则反对环境的分布?在“代理”和“环境”之间的边界变得模糊的情况下,是什么构成理想的诱导?这些是“归化归纳”的问题。

  1. 苏亚雷斯’”形式化现实世界的两个问题模型“进一步激励归化诱导的问题与一般情报理论的构建相关。

  2. “牵牛星”的“索罗门归纳法的直观解释“解释了Solomonoff的归纳推理理论,这是了解归化诱导的开放问题时的重要背景知识。

  3. Bensinger的“归化诱导(系列)更详细地探讨归化归纳法的问题。

解决归化诱导的问题需要更好地了解现实世界模型:什么是“可能的现实”?关于环境的哪种前沿是理想的代理商使用?这些问题的答案不仅必须允许良好的推理,他们必须在世界模型方面允许规范人体目标。

例如,在Solomonoff归纳中(以及在Hutter的AIXI中),图灵机被用来对环境建模。假设我们唯一看重的是钻石(碳原子与另外四个碳原子共价结合)。现在,假设我给你一台图灵机。你能告诉我里面有多少钻石吗?

为了设计一个追求其世界模型中特定目标的代理,代理必须有某种方法来识别其世界模型(图灵机)中我们的目标(碳原子)的本体。这个“本体识别”问题在“形式化现实世界模型的两个问题”(链接上)中讨论,由De Blanc首先介绍:

  1. 德布兰科的“人工代理价值系统中的本体论危机亚博体育苹果app官方下载“询问如何使代理商的目标变得更加强大,以便在本体的变化。如果代理从物理学的原子模型开始(其中碳原子在本体基础上),那么这可能并不难。但是,当代理商建立物理核模型时会发生什么(其中原子由中子和质子构成)?如果“碳识别器”是硬编码的,则该代理可能无法识别这个新的世界模型中的任何碳,并且可能奇怪地开始行动(寻找隐藏的“真正碳”)。该代理程序如何设计,以便在对本体论危机中成功地用“碳原子”识别“六个质子原子”?


莱格和哈特的"通用智能:机器智能的定义“描述了Agent与环境分开的设置中的一个普遍智能代理的AIXI,以及用于评估此设置中各种代理程序的智能的”评分度量标准“。Hutter的Aixi和Legg的评分指标在您正在寻求归化诱导和本体识别问题的问题中的精神非常相似。这两种差异是艾基生活在一个宇宙中,其中代理和环境被分离,而归化诱导需要嵌入在环境中的代理人的解决方案,并且艾西西最大化在观察方面规定的奖励,而我们希望优化中规定的奖励的解决方案外界的条款。

您可以在Hutter的书中了解有关AIXI的更多信息普遍的人工智能,尽管阅读莱格的论文(链接在上面)可能足以满足我们的目的。


决策理论

说我给你以下内容:(1)描述宇宙的计算机程序;(2)描述代理人的计算机程序;(3)代理商可用的一组行动;(4)宇宙已经进入的状态历史记录的一组偏好。我在识别这些偏好方面识别代理的最佳动作。例如,您的输入可能是:

def Universe(): outcomes = {Lo, Med, Hi} actions = {1,2,3} def Agent(): worldmodel = {Lo: One, Hi: Two, Med: Three} return worldmodel[Hi] territory = {One: Lo, Two: Med, Three: Hi} return territory[Agent()]
def代理():worldmodel = {lo:1,嗨:二,med:三个}返回worldmodel [hi]
操作= {一,两个,三个}
嗨> med> lo

(请注意代理是如何嵌入到环境中的。)这是另一个我们不知道如何回答的问题,即使是在原则上。这似乎很简单:只需迭代每个行动,找出如果代理采取该行动会得到什么结果,然后选择导致最佳结果的行动。但事实上,在这个思想实验,代理是一个确定的子流程确定的计算机程序:有一个行动,代理将输出,并要求“会”如果一个确定的确定性项目的一部分的东西它不做是不明确的。

为了评估“将发生”如果代理采取不同的行动,则必须构建一个“反事实环境”(代理商确实某些事情而非)。尚未存在令人满意的反事工程理论。我们尚未了解如何识别嵌入其环境中的代理商的最佳行动,即使在理论上,甚至能够充分了解宇宙和我们的偏好以及给予无限的计算能力。

解决这个问题需要更好地理解反事实推理;这是决策理论的领域。

决策理论

Peterson的教科书解释了广泛冲程中规范决策理论的领域。对于更快的调查,对Newcomblike问题的重视更大,请参阅Muehlhauser的“决策理论常见问题解答.”


博弈理论

决策理论中的许多打开问题涉及多代理设置。我听过Tadelis'教科书的好事,但还没有自己读过它。你也可能与斯科特亚历山大的运气“博弈论概论“LessWrong。



1 - 5章
(+ 6-9如果热情)

可证明逻辑

多智能体设置的玩具模型可以在这样的环境中进行研究,在这样的环境中,智能体的行动基于它们能够证明的关于同一环境中其他智能体的事情。我们目前的玩具模型大量使用可证明性逻辑。

现有的法令推理方法在短期内令人不满意(从某种意义上,他们在系统地实现了良好结果的一些问题的情况下,长期(在自我修改的代理商推理的意义上亚博体育苹果app官方下载根据那些破坏的反事实,糟糕的反事实将决定他们不应该解决所有的缺陷)。我的谈话“你为什么不富有?这两个问题都简要地谈了一下。为了了解更多,我建议使用以下资源:

  1. 苏亚雷斯和法伦斯坦的"走向理想化决策理论,并进一步激发与MIRI研究计划相关的决策理论问题。亚博体育官网本文讨论了两个现代决策理论的缺点,并讨论了决策理论中指向执行反事实推理的新方法的一些新见解。

如果“对理想化决策理论”移动太快,这一系列博客帖子可能是一个更好的开始:

  1. Yudkowsky的“真正的囚犯困境解释了为什么合作并不是自然而然的‘正确’或‘好的’选择。

  2. 苏亚雷斯’”因果决策理论并不令人满意“使用囚犯的困境来说明决策算法之间的非因果关系的重要性。

  3. Yudkowsky的“纽科姆的问题与理性的遗憾“专注于”获胜“的决策理论,不仅仅是似乎直观合理的决策理论。苏亚雷斯’”介绍类纽康姆问题“涵盖类似的地面。

  4. 苏亚雷斯’”纽康姆式的问题是常态“注意人类代理概率地根据常规基础逐步模范彼此的决策标准。

Miri的研究亚博体育官网导致了“更新决策理论”(UDT)的发展,这是一种解决上述许多缺点的新决策理论。

  1. 迈克的“预测困境中的问题类别优势总结了UDT对其他已知决策理论的主导地位,包括永恒决策理论(TDT),另一个主导CDT和EDT的理论。

  2. Fallenstein的“在逻辑陈述之前与混凝土的UDT模型“提供概率形式化。

但是,UDT绝不是解决方案,并且在以下地方讨论了自己的许多缺点:

  1. Slepnev的“UDT中自我实现伪证明的一个例子“解释了由于虚假证明,UDT如何实现次优效果。

  2. Benson-Tilsen的“已知搜索顺序的UDT是一个有点令人不满意的解决方案。它包含了一个具有已知证明搜索顺序的UDT的形式化,并演示了使用一种称为“与宇宙对抗”的技术以避免虚假证明的必要性。

为了研究多智能经纪人的设置,帕特里克·瓦特奥尔已经开发出了莫代尔代理商框架,这也使我们能够在决策理论领域进行一些新的进展,使我们在决策理论领域进行一些新的进展:

  1. Barasz等人的"囚徒困境中的稳健合作“允许我们考虑代理商,它们只根据自己的能力来决定是否相互合作证明关于彼此的行为。这可以防止无限的回归;实际上,两个代理的行为仅根据他们可以证明另一个的行为的代理商可以在二次时间中使用来自可证明逻辑的结果来确定的。


UI DAI和Vladimir Slepnev是由魏戴和弗拉基米尔的制定的。戴的“迈向新的决策理论"引入了这个概念,斯列普涅夫的"一个模型,用暂停甲骨文“提供了早期的第一次正式化。Slepnev还描述了UDT的奇怪问题,其中似乎是代理商奖励较少的智力,“代理模拟预测“。

这些博客帖子具有历史兴趣,但几乎所有的内容都在上面的“理想化决策理论”。


逻辑不确定性

想象一个黑匣子,有一个输入溜槽和两个输出溜槽。一个球可以放入输入滑槽,它将从两个输出滑槽之一出来。在黑盒子里面是一个Rube Goldberg机器,它把球从输入槽带到一个输出槽。

一个不知道盒子里是哪个Rube Goldberg机器的完美概率推理者也不知道盒子会如何运作,但如果他们能知道盒子里是哪个机器,那么他们就会知道哪个滑道会带走球。这个寻欢环境不确定

一个现实的推理可能知道盒子里有哪台机器,并且可能完全了解机器的工作原理,但可能缺乏弄清楚机器掉球的地方的演绎能力。这个寻欢逻辑上不确定。

概率论假定逻辑无所不知;它假定推理者知道他们所知道事物的所有结果。在现实中,有限理性者在逻辑上并不是无所不知的:我们可以精确地知道盒子里装的是哪台机器,机器是如何工作的,只是没有时间推断出球是从哪里出来的。我们在逻辑的不确定性下进行推理。

逻辑不确定性下的正式推理理论尚不存在。当涉及构建高度可靠的智能系统时,这种理解是非常重要的:每当代理人的原因有关复杂系统,计算机程序或其他代理的行为时,它必须在至少有一点逻辑不确定性下运行。亚博体育苹果app官方下载

要了解这门学科的现状,必须对概率论有扎实的了解;考虑扩充前几章jaynes.樵夫,第1、5、6、9章,然后研究以下论文:

  1. 苏亚雷斯和法伦斯坦的"在逻辑不确定性下推理的问题“提供一般介绍,解释了逻辑不确定性领域,激励其与Miri的研究计划的相关性。亚博体育官网

  2. Gaifman的“关于一阶Calculi的措施他在许多年前就研究过这个问题。Gaifman主要关注一个相关的子问题,即对一个正式系统的不同模型的概率分配(假设一旦模型已知,该模型的所有结果都已知)。亚博体育苹果app官方下载我们现在尝试这种方法扩大到一个更完整的概念逻辑的不确定性(推理程序可以知道模型是什么但不知道模型)的影响,但通过Gaifman仍是有用的历史背景和理解周围的困难逻辑的不确定性。

  3. Hutter等人。的“表达逻辑中句子上的概率“在很大程度上介绍了假设访问无限计算能力的逻辑不确定性(以及许多级别的停留oracelles)。了解Hutter的方法(并且可以用无限计算能力完成的方法)有助于肉体我们对难题所在的位置的理解。

  4. Demski的“逻辑事先概率“提供可计算地近似的逻辑。在Demski之后,我们的工作主要侧重于创建逻辑句子的可近似概率分布,因为精炼和近似逻辑事先的行为非常类似于在逻辑不确定性下的推理行为。

  5. Christiano的“非无所不知,概率推断和元化学“很大程度上遵循这种方法。本文提供了关于逻辑前锋的产生的一些早期实际考虑,并突出了一些公开问题。


有关这个问题的更多历史劳动,请参阅Gaifman的“丰富语言的可能性…“ 和 ”用有限资源进行推理,并为算术语句分配概率.”


视频反思

什么使AI问题独特的是,足够先进的系统能够做出高质量的科学和工程,而不是人的程序员。亚博体育苹果app官方下载先进系统的许多可能的危险和益处源于其潜力,使自行自动启动到更高水平的能力,可能导致一个亚博体育苹果app官方下载智力爆炸

如果代理通过递归自我提升实现过度智能化,则所得系统的影响完全取决于初始系统的能力可靠地达到比自身更智能的代理商。亚博体育苹果app官方下载系统使用哪种推理方法,以便对更聪明的系统的行为提供极高的信心?亚博体育苹果app官方下载我们将这种推理称为“VINGEAN反射”,在跳远之后(1993),他指出,一般来说,不可能精确预测比推理者更聪明的代理者的行为。

一个进行文根式反思的推理者必须进行推理抽象关于更智能的代理。这几乎肯定需要某种形式的高度自信的逻辑不确定推理,但是代替一个工作理论的逻辑不确定,证明推理(使用形式逻辑)是研究抽象推理的最好的形式主义。因此,对Vingean反思的现代研究需要以形式逻辑为背景:

一阶逻辑

MIRI现有的用于研究自修正agent的玩具模型很大程度上基于这一逻辑。理解一阶逻辑的细微差别对于使用我们开发的工具来研究能够在类似系统中接近自信的形式系统是至关重要的。亚博体育苹果app官方下载

我们通过构建能够在高度相似的系统中获得某种形式信任的代理的玩具模型来研究Vingean反射。亚博体育苹果app官方下载要了解这一领域的前沿,请阅读以下论文:

  1. 《Fallenstein & Soares》视频反思:自我改善代理商可靠推理“介绍了Vingean反思领域,并激励了与Miri的研究计划的联系。亚博体育官网

  2. Yudkowsky的“拖延悖论“更详细地了解令人满意的解决方案,以便在Löbian障碍物之间走出一条良好的线路(从太少的”自信任“)和来自太少”的问题“)和来自的肆无忌惮的很多自信。

  3. Christiano等人。的“概率逻辑中真理的可定义性“描述了一种提前尝试创建一个正式的系统,可以在避免自我引用的悖论时推理。亚博体育苹果app官方下载它成功了,但最终被证明是不健全的。我的预排本文可能有助于将其放入更多的背景中。

  4. 《Fallenstein & Soares》自我改善时空嵌入式智能自我引用问题“描述了我们的简单建议 - 验证者模型,用于研究产生略微改进的自己或”瓷砖“自己的代理商。本文演示了一种玩具场景,其中声音代理可以成功地铺设到(例如,高度信心)其他类似药剂。


Yudkowsky&Herreshoff的“用于自修正AI的贴片剂是一个更老的,更颠簸的介绍Vingean反射,这可能更容易通过使用我预排

如果您对这个研究主题感到兴奋,还有许多其他相关的技术报告。亚博体育官网不幸的是,他们中的大多数人并没有很好地解释自己的动机,也没有被放在更大的背景下。

Fallenstein的“概率逻辑中的拖延“说明了Christiano等人的概率原理系统是如何对拖延悖论的概述和脆弱的。亚博体育苹果app官方下载Yudkowsky的“分布允许瓷砖......“迈出一些早期步骤迈向概率的平铺设置。

Fallenstein的“减少数学强度…”描述了参数多态的一个不令人满意的特性,这是Löbian障碍的部分解决方案。苏亚雷斯’”Fallenstein的怪物描述了一种避免上述问题的黑客式正式系统。亚博体育苹果app官方下载它还展示了一种限制代理的目标谓词的机制,参数多态性也可以使用该机制创建一个比贴剂论文中探索的PP限制更少的版本。Fallenstein的“无限下降的声音理论序列......“描述了Löbian障碍的更优雅的部分解决方案,现在是我们有利的部分解决方案之一。

对递归顺序的理解提供了一种了解这些结果的有用背景,可以通过阅读Franzén的“超限级数:再看一下完整性。


可订正

作为人工智能系统的智能和能力,其一些可用的选项可能允许他亚博体育苹果app官方下载们抵制他们的程序员的干预。如果它与其创造者作为纠正干预亚博体育苹果app官方下载的内容合作,我们会致电AI系统“违规”,尽管Rational Terments抵制将其抵消或修改其偏好的默认激励,但违反了纠正干预。

这一研究领域基本上是全新的,亚博体育官网所以要想跟上进度,只需阅读一篇或两篇论文:

  1. 苏亚雷斯等人的"可订正“介绍了大的领域,以及一些公开问题。

  2. 阿姆斯特朗的“在冷漠中学习才是正确的价值“讨论一种在其最大化的实用功能之间漠不关心的一种潜在方法,这是朝向允许自我修改的代理的一小步。

我们目前在可纠正性方面的工作主要集中在一个称为“关机问题”的小子问题上:您如何构建一个在按下关机按钮时就关机的代理,并且该代理没有导致或阻止按下按钮的动机?在这个子问题中,我们目前关注的是效用无关的问题:你如何构建一个代理,它允许你切换它最大化的效用函数,而不给它激励来影响转换是否发生?即使我们对效用无关问题有一个满意的解决方案,这也不会对关闭问题产生一个满意的解决方案,因为似乎仍然很难以一种不受反常实例化影响的方式充分指定“关闭行为”。Stuart Armstrong写了几篇关于“减少影响”规范的博客文章AGIs:

  1. 驯化减少了ai的影响
  2. 减少影响AI:没有后台通道

这些最初的尝试还不是一个完整的解决方案,但它们应该能让您快速了解我们目前对这个问题的理解。


关于修正的早期工作可以在网络论坛上找到少错.大部分相关结果已在上述论文中得到。其中一个更有趣的是蛋糕或死亡“,”激励价值选择“问题的一个例子。在此示例中,具有不确定性的代理,其实用功能效益避免降低其不确定性的信息。

阿姆斯特朗的“减少影响的数学:需要帮助“列出了指定减少影响剂的初步想法,以及他的”减少实践中的影响:对未来进行随机抽样“草图评估未来是否受到影响的简单方法。

阿姆斯特朗的“实用性漠不关心概述了最初的功利无关的观点,由于历史原因,这在很大程度上是有趣的。它被包含在上文所连接的“通过无差异进行适当价值学习”一文中。


价值学习

由于我们对我们的价值观的理解是模糊和不完整的,可能是将值加载到强大的AI中最有希望的方法是指定代理的标准学习我们的价值观逐步。但这呈现了许多有趣的问题:

假设您构建一个培训集,其中包含许多充满幸福人类的成果(标有“好”)和充满悲伤人类的其他结果(标记为“坏”)。从这个数据来看,最简单的概括可能是人类真的就像人形微笑 - 事情:然后这个代理人可以试图建立许多微小的animatronic快乐的人。

价值学习必须是在线进程:系统必须能够识别歧义并向用户提出有关这些歧义的查询。亚博体育苹果app官方下载它不仅必须识别它不知道如何分类的情况(例如它不能判断脸是否看起来快乐或悲伤),但确定训练数据没有提供任何信息的维度(例如,当你的训练数据永远不会显示充满了看起来快乐、被贴上无用标签的人形机器人的结果时)。

当然,光有模糊性识别是不够的:你不希望一个系统,花前三周要求澄清亚博体育苹果app官方下载人类是否仍然值得在不同海拔高度时,或当风吹,最后(运营商停止后注意)问是否重要的是人形的东西是自己的意志。

为了让代理可靠地学习我们的意图,代理必须构造和细化其操作符的模型,并使用该模型通知其查询和更改其首选项。要了解有关这些问题和其他问题的更多信息,请参见以下内容:

  1. 苏亚雷斯’”价值学习问题“提供与价值学习相关的一些公开问题的一般概述。

  2. 杜威的“学习价值的东西“进一步讨论了价值学习的难度。

  3. 正交性的论文认为价值学习不会被默认解决。

  4. Macaskill的“规范的不确定性“提供讨论规范性不确定性的框架。被警告,全部工作,同时包含许多洞察力,很长。你可以逃脱掠夺零件和/或跳过一些,特别是如果你对其他积极研究的其他领域更兴奋。亚博体育官网


解决规范性不确定性的一种方法是Bostrom&Ord的“议会模型,这表明价值学习在某种程度上等同于选民聚集问题,并且许多价值学习系统可以被建模为议会投票系统(其中选民是可能的效用函数)。亚博体育苹果app官方下载

欧文Cotton-Barratt的“正常化的几何原因......“讨论公用事业功能的正常化;这与道德不确定性下的作用模型相关。

Fallenstein&Stiennon的“响度“讨论了赋予实用程序源的聚合实用程序函数的担忧,即在正仿射变换下保留了由公用事业函数编码的偏好(例如,当实用程序函数缩放或移位)。这意味着需要特殊的小心,以便归一化可能的功能。


其他工具

掌握在任何主题中都可以是一个非常强大的工具,尤其是在数学领域,看似不相交的主题实际上是深切的。许多数学领域都有这样的财产,如果你非常了解它们,那么无论你去哪里都很有用。考虑到这一点,虽然下面列出的主题是不需要理解Miri的主动研究,但对这些主题中的每一个的理解构成了数学工具箱中的额外工具,通常在进行新的研究时经常证明非常有用。亚博体育官网

离散数学

教科书可用在线的.大多数数学研究的不是连续结构就是离散结构。许多人发现离散数学更直观,对离散数学的扎实理解将帮助您快速掌握许多其他数学工具的离散版本,如群论、拓扑学和信息论。


线性代数

线性代数是数学中随处可见的工具之一。对线性代数的扎实理解将在许多领域有帮助。


类型理论

集合理论通常作为现代数学的基础,但它不是唯一可用的候选。类型理论也可以作为数学的基础,并且在许多情况下,类型理论更适合于手头上的问题。类型理论还弥补了计算机程序和数学证明之间的理论差距,因此通常与某些类型的人工智能研究有关。亚博体育官网


类别理论

类别理论研究许多数学结构在非常高的抽象中。这可以帮助您注意不同分支的数学分支模式,并使您的数学工具从一个域转移到另一个域。


拓扑

拓扑学是另一门在数学中随处可见的学科。对拓扑学的深刻理解在许多意想不到的地方都很有帮助。


可计算性和复杂性

Miri的数学研究正在努亚博体育官网力解决最终与计算机程序相关的解决方案。良好的电脑能够普遍必不可少的直觉。


节目验证

程序验证技术使程序员能够确信特定的程序将根据某些规范实际执行。(当然,仍然很难验证规范是否描述了预期的行为。)虽然MIRI的工作目前并不关心验证真实世界的程序,但了解现代程序验证技术能做什么和不能做什么是非常有用的。

了解任务

为什么首先要做这种研究?亚博体育官网

超智

本指南在很大程度上假设你已经参与了MIRI的任务,但如果你想知道为什么这么多人认为这是一个重要而紧迫的研究领域,亚博体育官网超智提供良好的概述。


合理性:从AI到僵尸

这本电子巨著汇编了六卷论文,解释了MIRI对人工智能观点背后的许多哲学和认知科学。


均衡不足

对微观经济学和认识论的讨论,他们承担了对社会误解和盲点的讨论,包括被忽视的研究机会。亚博体育官网试图回答基本问题,“雄心勃勃的项目何时可以实现不寻常的目标希望成功?”