Miri研究指南亚博体育官网

,内特苏亚雷斯



2019年3月更新本研究指南自2亚博体育官网015年以来仅略有更新。我们的新推荐给那些想要在yabo 是:

  • 如果您有计算机科学或软件工程背景申请参加我们的新人工智能风险讲习班在MIRI担任工程师。为此目的,您不需要任何先前熟悉我们的研究。亚博体育官网

    • 如果您不确定您是否适合AI风险研讨会,或者为工程师职位,给我们发邮件我们可以讨论它是否有意义。

    • 你可以在我们的2018战略更新

  • 如果你想了解更多关于我们正在处理的问题(不管你对上述问题的答案):参见“嵌入式代理“为了介绍我们的代理基础研究,看看我们的亚博体育官网校准研究领域指南亚博体育官网关于如何开始人工智能安全的一般建议。

    • 在查阅了这两个资源后,您可以使用“Embedded Agency”和本页面中的链接和参考资料来了解您想要深入研究的主题的更多信息。如果你想关注一个特定的问题集,我们建议Scott Garrabrant的定点练习。“斯科特注意:

      有时有人问我,要进入代理基金会,他们应该学什么数学。我的第一个答案是,我发现每个子领域的入门课程都很有用,但我发现后面的课程就没那么有用了。我的第二个答案是学习足够的数学来理解所有的不动点定理。

      这两个答案实际上非常相似。不动点定理跨越了所有的数学领域,是(我的)思考agent基础的中心。

    • 如果你想要人们合作和讨论,我们建议开始或加入一个MIRIx集团,发布LessWrong,申请我们的计算机科学家面临人工智能风险车间或让我们知道你在那里。

如果人类想要开发出比人类更聪明的具有积极影响的人工智能,我们必须迎接三个艰巨的挑战。首先,我们必须设计出比人类更聪明的系统亚博体育苹果app官方下载高度可靠,这样我们就有理由相信系统会满足特定的目标或偏好。亚博体育苹果app官方下载第二,设计必须是不变性,使系统在面对不可避免的人类亚博体育苹果app官方下载错误面前的在线修改和校正。第三,系统必须实际学习亚博体育苹果app官方下载有益的目标或偏好。

MIRI目前的研究项目集中在了亚博体育官网解如何原则上迎接这些挑战。有方面是我们甚至理论上尚未理解的可靠推理;有有界合理性的问题,即使在简化的设置中也无法解决。我们的研究重点是在简化设置中找到解决方案,作为第一步。因此,我们的现代研究看起来更像是纯数学,亚博体育官网而不是软件工程或实用机器学习。

本指南简要概述了我们的研究优先事项,并提供了有助于您在每个主题领域亚博体育官网的最前沿的资源。本指南并非旨在证明这些研究主题;亚博体育官网为了进一步推动我们的方法,请参阅文章“美里的方法,还是要我们的技术议程支持文件

注(2016年9月):本研究指南是基于我们的亚博体育官网代理基础议程。截至2016年,我们还有一个基于机器学习的议程。关于我们认为有前途的、本指南没有涉及的研究方向的更多信息,请参阅该文件。亚博体育官网


如何使用本指南

本指南是为有抱负的研究人员谁还不精通相关学科领域。亚博体育官网如果你已经是一个AI专业人士或经验丰富的数学家,考虑跳到我们的现有出版物代替。(我们的技术议程是一个很好的起点。)本指南适用于那些想要成为MIRI研究人员的学生,以及其他领域想要跟上我们工作的专业人士。亚博体育官网

亚博体育官网研究人员通常会通过两种途径中的一种加入我们的团队。首先是参加MIRI研讨会,并亲自与我们建立关系。您可以使用这种形式申请参加研究研讨会。亚博体育官网要注意的是,车间之间经常有相当长的时间,而且它们的能力有限。

第二种方法是独立地在我们的研究议程上取得一些进展,并让我们知道你的结果。亚博体育官网您可以使用我们的在线表单申请帮助或输入您的工作,但开始贡献的最快方式是阅读帖子智能代理基金会论坛(IAFF),注意人们正在处理的开放问题,并解决一个。然后你可以把你的结果作为链接在论坛上。

2019年3月更新错误和错误AI对准论坛现在是我们公开讨论人工智能校准问题的场所,取代了IAFF。查看这篇文章的顶部,以获得对这部分建议的其他更新。)

研究论坛的主要目的是让已经在同一页面上的研究人员讨论未亚博体育官网经修饰的部分结果。因此,论坛上的帖子可能相当不透明。本研究指南亚博体育官网可以帮助您快速了解IAFF上正在讨论的开放问题。它还可以帮助你发展必要的技能,使你有资格参加研讨会,或找到方法,在其他机构的人工智能校准中解决开放性问题。

本指南首先介绍了一些基础学科的建议,在尝试这种类型的研究之前,了解这些学科是很重要的,比如概率论。亚博体育官网在那之后,它会被分解成一系列的主题区域,并提供论文的链接,让你了解该领域的最新技术。

这不是一个线性指南:如果你想成为一个MIRI研究员,我建议首先确保你理解了基础,然后选择一个你感兴趣的主题,深入该亚博体育官网领域。一旦你很好地理解了一个主题,你就可以在IAFF上尝试在这个主题领域做出贡献。

对于本指南中的所有材料,请不要为了磨而磨。如果你已经了解了材料,那就跳过它。如果其中一个活跃的研究领域不能吸引你的兴趣亚博体育官网,切换到另一个。如果你不喜欢推荐的课本,找一本更好的,或者干脆跳过。这个指南应该作为一个工具,让你知道你可以在哪里做出贡献,而不是作为实现目标的障碍。


最基本的

重要的是要有一些流利的基本数学概念,然后直接进入我们积极的研究主题。亚博体育官网我们所有的研究领域都很亚博体育官网好地服务于计算,逻辑和概率论的基本理解。下面是一些帮助你入门的资源。

您不需要按列出的顺序阅读本节中的书籍。拿起任何有趣的东西,并在必要时毫不犹豫地在研究领域和基础之间来回跳动。亚博体育官网

集理论

大多数现代数学是在集合理论中形式化的,这里列出的教科书和论文也不例外。这使得集合理论成为一个很好的起点。



队章

计算性和逻辑

可计算性理论(以及对角化带来的限制)是理解机器能做什么和不能做什么的基础。



第1-4章

概率论

概率论是理解理性代理的核心。在我们所有活跃的研究领域中,对不确定性下的推理有一定的熟悉是至关重要的。亚博体育官网



第1-5章

概率推理

这本书将帮助充实的理解如何推理可以完成使用概率世界模型。


统计数据

流利的统计建模将有助于为我们的贡献提供贡献高级机器学习对齐“研亚博体育官网究议程。先熟悉一下概率推理是个好主意。


机器学习

为了对机器学习有实际的熟悉,我们强烈推荐Andrew Ng的Coursera课程(课堂讲稿在这里)。如果想了解更多关于ML的理论介绍,请尝试一下了解机器学习


人工智能

虽然我们的很多工作都是理论上的,但现代人工智能领域的知识对于我们把这项工作放在具体情境中来说是很重要的。

理解VNM理性的概念也很重要,我建议从中学习维基百科的文章但也可以从中拿起原来的书。冯·诺依曼和摩根斯特恩表明,任何服从几个简单一致性公理的代理行为都具有效用函数所描述的偏好。虽然有些人认为,为了构建可靠的智能代理,我们可能最终需要放弃VNM的合理性,但VNM框架仍然是我们拥有的描述任意强大代理行为的最有表现力的框架。(例如,参见正交性的论文仪器收敛的论文从博斯特罗姆的“有超常智慧的意志。“)在所有活跃的研究领域使用VNM合理性的概念。亚博体育官网



现实世界模型

如果你的“比人类聪明”的系统不可靠,将有益的目标正式化对你没有好处。亚博体育苹果app官方下载好的推理有很多方面我们还不了解,即使是在原则上。通过构建实际系统来获得洞察力是可能的,这些系统使用的算法似乎是可行的,即使它们可行的原因还没有被很好地理解:通常,理论理亚博体育苹果app官方下载解紧随实际应用之后。然而,在设计具有超级智能潜力的系统时,我们认为这种方法是轻率的:如果我们在试图创建实用的超级智能系统之前先有一个通用智能亚博体育苹果app官方下载理论,我们会更安全。

出于这个原因,我们的许多积极的研究主题侧重于一般情报的部分,我们尚未理解亚博体育官网如何解决,即使原则上也是如此。例如,考虑以下问题:

我有一个计算机程序,被称为“宇宙”。宇宙中的一个功能是未定义的。您的工作是为我提供适当类型的计算机程序来完成我的宇宙计划。然后,我会运行我的宇宙计划。我的目标是根据它学习原始宇宙计划的方式进行评分代理人。

我怎么能这么做?所罗门诺夫的归纳推理理论为理论解决方案提供了一些启示:它描述了一种从观察中做出理想预测的方法,但仅在预测者生活在外部环境的情况下。所罗门诺夫归纳法产生了许多思考归纳推理的有用工具(包括柯尔莫哥洛夫复杂性、普遍先验和AIXI),但如果主体是宇宙的一个子过程,由宇宙计算,那么问题就明显变得更加困难了。

在主体嵌入环境的情况下,归纳问题就变得模糊了:什么算“学习宇宙程序”?根据什么样的环境分布应该对代理进行评分?在“主体”和“环境”的边界变得模糊的情况下,什么构成理想归纳?这些都是归化归纳法的问题。

  1. 飙升'“正式化现实世界模型的两个问题"进一步激发了归化归纳法的问题这与一般智力理论的构建有关。

  2. Altair的“Solomonoff诱导的直观解释索罗门诺夫的归纳推理理论是理解归化归纳的开放性问题的重要背景知识。

  3. Bensinger的“归化感应(系列)更详细地探讨归化归纳法的问题。

解决归化归纳法的问题需要对现实世界模型有更好的理解:“可能的现实”是什么?一种理想的药剂会使用什么样的环境先验?对这些问题的回答不仅要考虑到良好的推理,还必须考虑到这些世界模型对人类目标的具体说明。

例如,在Solomonoff Incuction(以及在Hutter的AIXI中),图灵机用于建模环境。假装我们唯一价值的是钻石(碳原子与四个其他碳原子共价结合)。现在,说我给你一个图灵机。你能告诉我钻石在内吗?

为了设计一个追求其世界模型中特定目标的代理,代理必须有某种方法来识别其世界模型(图灵机)中我们的目标(碳原子)的本体。这个“本体识别”问题在“形式化现实世界模型的两个问题”(链接上)中讨论,由De Blanc首先介绍:

  1. de blanc的“人工主体价值体系的本体论危机亚博体育苹果app官方下载,询问如何使一个代理的目标对本体的变化健壮。如果主体从物理学的原子模型开始(其中碳原子是本体论基础),那么这可能并不难。但是,当代理建立一个核物理模型(原子是由中子和质子构成的)时会发生什么?如果“碳识别器”是硬编码的,那么主体在这个新的世界模型中可能无法识别任何碳,并且可能会开始行动怪异(寻找隐藏的“真正的碳”)。如何才能设计出一种试剂,让它能够成功地识别“六质子原子”和“碳原子”,以应对这种本体论危机?


莱格和哈特的"通用情报:机器智能的定义描述了AIXI,它是一个在设置中与环境分离的通用智能代理,以及一个用于在该设置中对各种代理程序的智能进行评级的“评分指标”。Hutter的AIXI和Legg的评分指标在精神上与我们在归化归纳和本体识别问题上寻找的非常相似。两个不同之处在于,AIXI生活在一个主体和环境分离的宇宙中,而归化诱导需要一个解决方案,即主体嵌入环境中,和AIXI最大限度的奖励规定在观察,而我们希望一个解决方案,优化奖励规定在外部世界。

你可以在Hutter的书中了解更多关于AIXI的信息普遍的人工智能但是,虽然阅读legg的纸张(以上链接)可能是足够的目的。


决策理论

假设我给你下列东西:(1)一个描述宇宙的计算机程序;(2)描述代理的计算机程序;(三)代理人可以采取的一系列行动;(4)对宇宙所处状态的历史所指定的一系列偏好。我的任务是让你根据这些偏好,找出最适合探员的行动。例如,你的输入可能是:

def Universe():Outcomes = {lo,med,hi}操作= {一,两个,三个} def代理():worldmodel = {lo:1,嗨:二,med:三个}返回worldmodel [hi] territory ={一:罗,二:医学,三:嗨}返回领域[代理()]
def Agent(): worldmodel = {Lo: 1, Hi: 2, Med: 3} return worldmodel[Hi]
action = {1, 2, 3}
嗨> Med > Lo

(请注意代理是如何嵌入到环境中的。)这是另一个我们不知道如何回答的问题,即使是在原则上。这似乎很简单:只需迭代每个行动,找出如果代理采取该行动会得到什么结果,然后选择导致最佳结果的行动。但事实上,在这个思想实验,代理是一个确定的子流程确定的计算机程序:有一个行动,代理将输出,并要求“会”如果一个确定的确定性项目的一部分的东西它不做是不明确的。

为了评估如果主体采取了不同的行动“会发生什么”,必须构建一个“反事实环境”(主体做了它没有做的事情)。令人满意的反事实推理理论还不存在。即使在理论上,即使我们对宇宙和我们的偏好有充分的了解,并拥有无限的计算能力,我们仍然不知道如何识别嵌入在其环境中的代理所能采取的最佳行动。

解决这个问题需要更好地理解反事实推理;这是决策理论的领域。

决策理论

彼得森的教科书概括地解释了规范性决策理论的领域。对于更快速的调查,更侧重于纽库姆式问题,参见米尔豪泽的“决策理论常见问题解答。“


博弈理论

决策理论中的许多开放性问题都涉及到多智能体设置。我听说过塔德里斯的教科书,但我自己还没有读过。斯科特·亚历山大的也有可能博弈论简介“LessWrong。



第1-5章
(如果热情+ 6 - 9)

只是逻辑

可以在代理基础的环境中研究多种代理设置的玩具模型,这些环境在他们对他们可以证明同一环境中的其他代理的事情上的行动。我们目前的玩具型号大量使用可保释逻辑。

现有的反事实的推理方法在短期内都是令人不满意的(在这个意义上他们系统地实现贫困结果在一些问题上好的结果是可能的)和长期(在这个意义上使用坏反设事实将变为无效来代理推理,亚博体育苹果app官方下载根据那些破碎的反事实,决定他们不应该修复所有的缺陷)。我的演讲”为什么不是你富有?“这两点都短暂地接触。要了解更多信息,我建议以下资源:

  1. 苏亚雷斯和法伦斯坦的"走向理想化的决策理论,并进一步激发与MIRI研究计划相关的决策理论问题。亚博体育官网本文讨论了两个现代决策理论的缺点,并讨论了决策理论中指向执行反事实推理的新方法的一些新见解。

如果“走向理想化的决策理论”进展太快,这一系列的博客文章可能是一个更好的起点:

  1. yudkowsky的“真正的囚徒困境解释了为什么合作并不是自然而然的‘正确’或‘好的’选择。

  2. 飙升'“因果决策理论并不令人满意,用囚徒困境来说明决策算法之间非因果联系的重要性。

  3. yudkowsky的“纽科姆的问题和理性的遗憾,认为应该关注那些“赢”的决策理论,而不仅仅是那些直觉上看起来合理的理论。飙升'“Newcomblike问题介绍的内容类似。

  4. 飙升'“纽康姆式的问题是常态指出,人类代理在例行的基础上概率地为彼此的决策标准建模。

MIRI的研究亚博体育官网导致了“无更新决策理论”(UDT)的发展,这是一种新的决策理论,解决了上面讨论的许多缺点。

  1. Hinze的“预测困境中的问题类别优势“总结了UDT对其他已知决策理论的主导地位,包括永恒的决策理论(TDT),另一个理论占据了CDT和EDT的另一个理论。

  2. Fallenstein的“具有逻辑语句之上的具体优先级的UDT模型提供了一种概率形式化。

然而,UDT绝不是一种解决方案,它本身有许多缺点,我们将在以下地方讨论:

  1. Slepnev的“在UDT中自我实现的虚假证据的一个例子解释了UDT是如何由于伪造证据而获得次优结果的。

  2. Benson-Tilsen的“UDT具有已知的搜索顺序是一个有点令人不满意的解决方案。它包含了一个具有已知证明搜索顺序的UDT的形式化,并演示了使用一种称为“与宇宙对抗”的技术以避免虚假证明的必要性。

为了研究多主体设置,Patrick LaVictoire开发了一个模态主体框架,它也允许我们使用可证明逻辑在决策理论领域取得一些新进展:

  1. Barasz等人。的“囚犯困境中的强大合作“允许我们考虑代理商,它们只根据自己的能力来决定是否相互合作证明关于彼此的行为。这可以防止无限倒退;事实上,两个行为人的行为只能根据他们对另一个行为人的行为的证明,可以在二次时间内使用可证明性逻辑的结果来确定。


UDT由Wei Dai和Vladimir Slepnev等人开发。戴笠的”走向新的决策理论"引入了这个概念,斯列普涅夫的"一个带有停顿的oracle的UDT模型提供了一个早期的正式形式。斯列普涅夫还描述了UDT的一个奇怪问题,似乎特工因智商较低而受到奖励。代理模拟预测”。

这些博客文章具有历史意义,但几乎所有内容都在上面的“走向理想化的决策理论”中。


逻辑的不确定性

想象一个黑匣子,有一个输入溜槽和两个输出溜槽。一个球可以放入输入滑槽,它将从两个输出滑槽之一出来。在黑盒子里面是一个Rube Goldberg机器,它把球从输入槽带到一个输出槽。

一个不知道盒子里是哪个Rube Goldberg机器的完美概率推理者也不知道盒子会如何运作,但如果他们能知道盒子里是哪个机器,那么他们就会知道哪个滑道会带走球。这个寻欢环境不确定

一个现实的推理者可能知道盒子里是哪台机器,可能知道机器是如何工作的,但可能缺乏推断出机器将在哪里犯错的能力。这个寻欢逻辑上不确定。

概率理论假设逻辑不可用;它假设推理师知道他们所知道的事情的所有后果。实际上,有界的推理员在逻辑上无所不知:我们可以精确地了解盒子的机器,并准确地说,机器如何运作,而且没有时间推断出球在球出来的地方。我们在逻辑不确定性下的推理。

在逻辑不确定性下进行推理的正式理论还不存在。当涉及到构建一个高度可靠的普遍智能系统时,获得这种理解是极其重要的:无论何时,一个代理推理复杂系统、计算机程序或其他代理的行为,它必须在至少一点逻辑不确定性下运行。亚博体育苹果app官方下载

要了解现有技术,对概率理论的稳定理解是必须的;考虑增强前几章我们樵夫,第1,5,6和9章,然后研究以下论文:

  1. 苏亚雷斯和法伦斯坦的"逻辑不确定性下推理问题提供了一个概括性的介绍,解释了逻辑不确定性的领域,并激发了它与MIRI的研究计划的相关性。亚博体育官网

  2. Gaifman的“关于一阶计算的措施“多年前看了这个问题。Gaifman在很大程度上集中在一个相关的子问题上,这是对正式系统的不同模型的概率分配(假设一旦模型已知,该模型的所有后果都是已知的。亚博体育苹果app官方下载我们现在正在尝试扩展这种方法,以更完整的逻辑不确定性概念(在通知员可以知道模型是什么,但不知道该模型的含义),但是Gaifman的工作仍然有用,以获得历史背景和一个历史背景了解围绕逻辑不确定性的困难。

  3. Hutter等人的"表达逻辑中句子的概率主要研究逻辑不确定性的问题,假设访问无限的计算能力(和许多级别的停止oracle)。理解Hutter的方法(以及用无限的计算能力可以做些什么)有助于充实我们对难题所在的理解。

  4. Demski的“合理的先验概率提供了一个可计算近似的逻辑先验。继Demski之后,我们的工作主要关注在逻辑句子上创建一个近似的先验概率分布,因为精炼和近似一个逻辑先验的行为与一般情况下在逻辑不确定性下的推理行为非常相似。

  5. global的“非全知、概率推理和元数学基本上遵循这种方法。本文提供了一些关于逻辑先验生成的早期实际考虑,并强调了一些悬而未决的问题。


关于这个问题的更多历史研究,请参阅盖夫曼的“丰富语言的可能性……”和“使用有限的资源和分配算术陈述的推理。“


Vingean反射

人工智能问题的独特之处在于,一个足够先进的系统将能够比人类程序员做更高质量的科学和工程。亚博体育苹果app官方下载一个先进的系统的许多可能的危险和好处源于它能够引导自身到更高水平的能力,可能导致亚博体育苹果app官方下载智能爆炸

如果一个智能体通过递归自我完善实现了超智能,那么结果系统的影响完全取决于初始系统可靠地推理出比自己更智能的智能体的能力。亚博体育苹果app官方下载一个系统可以使用什么样的推理方法来证明一个更加智能的系统的行为具有极高的可信度亚博体育苹果app官方下载?我们称这种推理为“文根式反思”,以弗诺·文奇(1993年)备人们指出,通常不可能精确预测比推理更智能的代理的行为。

一个进行文根式反思的推理者必须进行推理抽象关于更聪明的代理商。这几乎肯定需要某种形式的高信心逻辑上不确定推理,但代替逻辑不确定性的工作理论,推理关于证据(使用正式逻辑)是学习抽象推理的最佳形式主义。因此,VINGEAN反射的现代研究需要在正式逻辑中的背景:

一阶逻辑

MIRI现有的用于研究自修正agent的玩具模型很大程度上基于这一逻辑。理解一阶逻辑的细微差别对于使用我们开发的工具来研究能够在类似系统中接近自信的形式系统是至关重要的。亚博体育苹果app官方下载

我们通过构建能够在高度相似的系统中获得某种形式信任的代理的玩具模型来研究Vingean反射。亚博体育苹果app官方下载要了解这一领域的前沿,请阅读以下论文:

  1. Fallenstein&Soares'“Vingean反思:自我改进代理的可靠推理介绍了Vingean反思的领域,并激发其与MIRI的研究项目的联系。亚博体育官网

  2. yudkowsky的“拖延悖论在Löbian障碍(一个由于“自信”太少而产生的问题)和不可靠之间行走的微妙界线上,需要更多的细节来获得令人满意的解决方案自我信任。

  3. 克里斯汀诺等人的概率逻辑中的真理绝定描述了一个早期的尝试,即创建一个能够对自身进行推理,同时避免自我参照悖论的正式系统。亚博体育苹果app官方下载它成功了,但最终被证明是不可靠的。我的预排因为这篇文章可能有助于把它放在一个更大的背景下。

  4. Fallenstein&Soares'“自我改进时空嵌入智能中的自我参照问题,描述了我们简单的暗示-验证模型,用于研究那些产生稍微改善的自己,或“贴图”自己的代理。本文演示了一个玩具场景,在这个场景中,声音代理可以成功地平贴(例如,获得对其他类似代理的高度信任)。


尤多科夫斯基和赫里肖夫的著作用于自我修改的剪辑代理是一个更老的,更颠簸的介绍Vingean反射,这可能更容易通过使用我预排

如果您对这个研究主题感到兴奋,还有许多其他相关的技术报告。亚博体育官网不幸的是,他们中的大多数人并没有很好地解释自己的动机,也没有被放在更大的背景下。

Fallenstein的“概率逻辑的拖延这说明克里斯汀诺等人的概率推理系统是不健全的,容易受到拖延悖论的影响。亚博体育苹果app官方下载yudkowsky的“分布允许平铺……”采取了一些早期步骤,以实现概率平铺设置。

Fallenstein的“减少数学的力量…”描述了参数多态的一个不令人满意的特性,这是Löbian障碍的部分解决方案。飙升'“Fallenstein的怪物“描述了一个避免上述问题的黑客形式系统。亚博体育苹果app官方下载它还阐述了一种限制代理的目标谓词的机制,该机制也可以由参数多态性使用,以产生比平铺代理纸上探索的PP更少的限制性版本。Fallenstein的“一种无限衰减的理论序列描述了一个对Löbian障碍的更优雅的部分解决方案,它现在是我们偏爱的部分解决方案之一。

对递归序数的理解为理解这些结果提供了一个有用的上下文,可以通过阅读Franzén的“超限级数:再看一下完整性。


易燃

随着人工智能系统在智能和能力方面的发展,它们的一些可用选亚博体育苹果app官方下载项可能允许它们抵制程序员的干预。我们称一个人工智能系统是“可亚博体育苹果app官方下载矫正的”,如果它与它的创造者所认为的纠正性干预进行合作,尽管理性的行为主体会抗拒关闭它们或修改它们偏好的尝试。

这个研究领域基本上是全新的,亚博体育官网所以所有这一切都需要拿到速度是阅读纸张或两个:

  1. 苏亚雷斯等人的"易燃介绍了该领域的总体情况,以及一些未解决的问题。

  2. 阿姆斯特朗的“通过漠不关心的适当价值学习,讨论了一种可能的方法,使代理在最大化效用函数之间不受影响,这是向允许自己被修改的代理迈出的一小步。

我们目前在可纠正性方面的工作主要集中在一个称为“关机问题”的小子问题上:您如何构建一个在按下关机按钮时就关机的代理,并且该代理没有导致或阻止按下按钮的动机?在这个子问题中,我们目前关注的是效用无关的问题:你如何构建一个代理,它允许你切换它最大化的效用函数,而不给它激励来影响转换是否发生?即使我们对效用无关问题有一个满意的解决方案,这也不会对关闭问题产生一个满意的解决方案,因为似乎仍然很难以一种不受反常实例化影响的方式充分指定“关闭行为”。Stuart Armstrong写了几篇关于“减少影响”规范的博客文章AGIs:

  1. 驯养减少影响ais
  2. 减少影响ai:没有后频道

这些最初的尝试还不是一个完整的解决方案,但它们应该能让您快速了解我们目前对这个问题的理解。


可以在Web论坛上找到易燃的早期工作更少的错误。大部分相关结果已在上述论文中得到。其中一个更有趣的是蛋糕或死亡,“有动机的价值选择”问题的一个例子。在这个例子中,一个对其效用函数不确定的代理从避免减少其不确定性的信息中获益。

阿姆斯特朗的“减少影响的数学:需要帮助“列出了指定减少影响剂的初步想法,以及他的”减少实践中的影响:对未来进行随机抽样勾画出一种评估未来是否受到影响的简单方法。

阿姆斯特朗的“效用无差异概述了最初的功利无关的观点,由于历史原因,这在很大程度上是有趣的。它被包含在上文所连接的“通过无差异进行适当价值学习”一文中。


值的学习

由于我们自己对自己价值的理解是模糊和不完整的,也许将价值加载到强大的AI中最有前途的方法是为代理指定一个标准学习我们的价值观不断。但这也带来了一些有趣的问题:

假设你构建了一个训练集,其中包含许多结果,其中包括快乐的人(标记为“好”)和悲伤的人(标记为“坏”)。从这些数据中,最简单的概括可能是,人类真的很喜欢人形的微笑的东西:这个代理可能会尝试建造许多微小的、看起来快乐的电子人。

价值学习必须是在线过程:系统必须能够识别歧义,并向用户提出有关这些歧义的问题。亚博体育苹果app官方下载它不仅必须识别出它不知道如何分类的情况(比如它不能分辨一张脸看起来是高兴还是悲伤的情况),而且识别培训数据没有提供信息的维度(例如,当您的培训数据从未显示满满的人形式自动化的结果时,这看起来快乐,标记为无价值)。

当然,光有模糊性识别是不够的:你不希望一个系统,花前三周要求澄清亚博体育苹果app官方下载人类是否仍然值得在不同海拔高度时,或当风吹,最后(运营商停止后注意)问是否重要的是人形的东西是自己的意志。

为了让代理人可靠地学习我们的意图,代理必须构造和细化其操作符的模型,并使用该模型通知其查询和更改其首选项。要了解有关这些问题和其他问题的更多信息,请参见以下内容:

  1. 飙升'“价值学习问题提供了与价值学习相关的几个未决问题的一般概述。

  2. 杜威的“了解什么是有价值的进一步探讨了价值学习的难度。

  3. 正交性的论文据称,默认情况下不会解决价值学习。

  4. 麦卡斯基尔的“规范的不确定性为讨论规范的不确定性提供了一个框架。值得注意的是,这部完整的作品虽然包含了许多深刻的见解,但却是非常漫长的。你可以略读部分或跳过一些,特别是如果你对其他领域的积极研究更感兴趣。亚博体育官网


解决规范不确定性的一种方法是Bostrom & Ord的议会模式“这表明,该价值学习有些等同于选民聚合问题,并且许多价值学习系统可以被建模为议会表票系统(其中选民是可能的实用功能)。亚博体育苹果app官方下载

欧文棉布巴拉特“归一化的几何原因……”讨论了效用函数的正规化;这与道德不确定性下的推理玩具模型有关。

《Fallenstein & Stiennon》响度”讨论了聚合效用函数的问题,它源于一个事实,即效用函数编码的偏好在正仿射变换下被保留(例如,当效用函数被缩放或移位)。这意味着需要特别注意,以便规范化可能的函数集。


其他工具

精通任何一门学科都是一个非常强大的工具,尤其是在数学领域,看似不相关的主题实际上是紧密相连的。很多数学领域都有这样的特性,如果你理解得非常透彻,那么无论你去哪里,这种理解都是有用的。考虑到这一点,虽然下面列出的课题对于理解MIRI的积极研究是不必要的,但是对每个课题的理解构成了数学工具箱中的一个额外的工具,在做新的研究时,这通常被证明是非常有用的。亚博体育官网

离散数学

教科书可用在线。大多数数学研究连续或离散结构。许多人发现离散数学更直观,并且对离散数学的坚实了解将帮助您快速处理许多其他数学工具的离散版本,例如组理论,拓扑和信息理论。


线性代数

线性代数是数学中随处可见的工具之一。对线性代数的扎实理解将在许多领域有帮助。


类型理论

设定理论常用为现代数学的基础,但这不是唯一可用的候选人。类型理论也可以作为数学的基础,并且在许多情况下,类型理论是更适合手头的问题。类型理论还桥接计算机程序与数学证据之间的大部分理论差距,因此与某些类型的AI研究通常是相关的。亚博体育官网


范畴论

范畴理论在非常高的抽象层次上研究许多数学结构。这可以帮助您注意到数学的不同分支中的模式,并使您的数学工具更容易地从一个领域转移到另一个领域。


拓扑结构

拓扑学是另一门在数学中随处可见的学科。对拓扑学的深刻理解在许多意想不到的地方都很有帮助。


可计算性和复杂性

MIRI的数学研究正致力亚博体育官网于最终与计算机程序相关的解决方案。对计算机的能力有一个良好的直觉往往是必不可少的。


程序验证

程序验证技术允许程序员相信,具体的程序实际上将根据某些规范行动。(当然,它仍然很难验证规范描述了预期的行为。)虽然Miri的作品目前没有验证真实世界的程序,但了解现代程序验证技术可以且不能做的是非常有用的。

理解任务

为什么首先要做这种研究?亚博体育官网

超智

本指南在很大程度上假设你已经参与了MIRI的任务,但如果你想知道为什么这么多人认为这是一个重要而紧迫的研究领域,亚博体育官网超智提供了一个很好的概述。


合理性:从AI到僵尸

这款电子Tome编制了六卷的论文,解释了Miri对AI的透视背后的大部分哲学和认知科学。


不平衡

关于微观经济学和认识论的讨论,因为它们有助于发现社会的失误和盲点,包括被忽视的研究机会。亚博体育官网试图回答这个基本问题:“雄心勃勃的项目什么时候能实现不寻常的目标?”