本雅·法伦斯坦在《自我修改系统的障碍》Löbian上的文章亚博体育苹果app官方下载

||对话

本雅·法伦斯坦研究人类和动物行为的数亚博体育官网学模型布里斯托尔大学,作为疯狂的研亚博体育官网究小组决策研究小组亚博体育官网

在此之前,她毕业于维也纳大学,获得数学学士学位。在她的业余时间,Benja研究有关人工智能影响和友好的人工智能的问题,包括:人工智能预测、智能爆炸微观经济学、逻辑反映和决策算法。

本雅参加过两次亚博体育苹果app官方下载 并计划在12月参加另一场会议。

路加福音Muehlhauser由于您已经参加了两个关于“友好的人工智能数学”的MIRI研究研讨会亚博体育官网,我希望您能向我们的听众解释一下这项工作是关于什么的。为了提供一个具体的例子,我想谈谈Löbian自我修正人工智能的障碍这是MIRI最近研讨会关注的主题之一。首先,您能否向我们的读者解释一下这个问题是什么,以及为什么您认为它很重要?


Benja Fallenstein: MIRI的研究亚博体育官网是基于I.J. Good的概念智能爆炸:一旦我们建立一个人工智能的想法一样的人在做人工智能研究,这个人工智能能够找出如何使自己更加聪明,甚至更好的人工智能研究,导致失控的过程,最终将创造机器远远超过任何人类的能力。亚博体育官网当这种情况发生时,我们真的希望这些机器有人类的目标会批准的.的确,人工智能不太可能决定它想要统治我们(这只是神人同形同性论),但计算机可以实现的大多数目标对我们来说都是危险的:例如,想象一台计算机想要计算π到尽可能多的数字。那台计算机将把人类看作是由原子构成的,它可以用这些原子来建造更多的计算机;更糟糕的是,由于我们会反对并试图阻止它,我们将成为一个潜在的威胁,而消除这种威胁符合AI的利益(Omohundro 2008)。所以我们想要确保智能爆炸的最终结果(经过多次自我改进)是一个具有“良好”目标的AI。

现在你可能会认为我们所需要做的只是创造我们最初的AI并拥有“好的”目标。作为一个玩具模型,想象一下,如果你的AI能够证明做x会带来一个“好的”结果,你就可以让它只做x动作。这样,AI就不会自我修正以获得“坏”目标,因为它无法证明这种自我修正会带来“好”结果。但另一方面,你可能会认为这款AI能够以一种保持其目标不变的方式进行自我修正:你认为它能原因,“好吧,我只需要一个动作的新版本y如果能证明这将导致一个结果,喜欢喜欢‘好’的结果,就像我做的,所以不管它将导致一个“好”的结果,一切都好!”

但这里存在一个问题:在这个推理链中,我们的AI需要从“新版本只会采取行动y,前提是它已经证明y会带来一个好结果”转变为“它只会采取行动y,前提是它确实会带来一个好结果”。直觉上,这似乎是一个非常合理的论点;毕竟,我们相信AI所使用的任何正式系统中的证据(或者我们已经为AI编写了使用不同系统的程序)亚博体育苹果app官方下载,所以AI为什么不能做同样的事情呢?但是通过Lob定理在美国,没有一个足够强大的形式系统能够知道,它证明的一切都是真的亚博体育苹果app官方下载。这就是我们所说的“Löbian障碍”。


路加福音:您将使用数学证明称为“玩具模型”,但这正是最近MIRI研讨会的工作接近Löbian障碍的方式。你认为实用的人工智能设计将基于逻辑和证明吗?您对Löbian障碍将与现实的人工智能相关,以及MIRI目前所做的工作将适用于该背景有多大信心?


Benja我们当然不认为现实的AI能够找到数学证明,证明它的行为保证会带来“好的”结果。任何实际的人工智能都不确定很多事情,需要使用概率推理。我认为MIRI目前的工作很有可能与这一背景相关,原因有二。

首先,Löb的定理只是“对角化论证”的一个例子,它限制了正式系统可以进行自我引用的程度。亚博体育苹果app官方下载例如,有好地定理一种强大的形式语言不能讨论语言中哪些句子是正确的,否则你就会有一个形式的类比骗子悖论这个句子是错误的图灵是停止的问题,也就是说,没有一个计算机程序可以对任意其他程序说它们是否进入无限循环。其他著名的例子包括罗素悖论康托尔的论点不是所有的无限集合都是相同大小的.Similar arguments apply to simple-minded ways of doing probabilistic reasoning, so I feel that it’s unlikely that the problem will just automatically go away when we start using probability, and I think there is a decent chance that the work we are doing now will lead to insights that are applicable in that setting.

第二,为了实现我们的人工智能在经过数十亿次重写后仍然遵循相同目标的合理概率,我们必须将每一步出错的几率降至非常低的水平,机器验证的正式数学证明是我们知道的一种方法,可以让我们非常确信某件事是正确的(特别是像“这个人工智能设计不会摧毁世界”这样的说法,在这种情况下,我们不能只观察许多独立的例子)。尽管你永远无法确定一个程序将按预期工作当一个真实的计算机上运行——它总是可能的宇宙射线会触及晶体管,使事情出错——你可以证明一个程序可以满足某些属性时理想的计算机上运行。然后,您可以使用概率推理和错误修正技术,使其极有可能在现实世界的计算机上运行时,您的程序仍然满足相同的属性。所以现实版的Friendly AI仍然会有组件这是逻辑推理或看起来非常喜欢的东西。

我倾向于不考虑我们目前所证明的与未来AI设计直接相关的结果;相反,我希望我们目前正在做的工作能够帮助我们更好地理解这些问题,并引导我们深入了解,最终让我们能够构建一种安全的、自我改进的机器智能。


路加福音在做技术工作方面,我们有什么样的历史先例,我们希望它能带来一些见解,这些见解又会带来其他见解,这些见解又会带来其他见解,这些见解会在许多年后成为有用的应用?

我想这种事情在数学中是偶尔会发生的,比如在20世纪80年代,人们发现它是可以证明的费马最后定理模块性定理,这促使安德鲁·怀尔斯进行这种攻击,这使他能够在大约10年的工作之后证明费马大定理(辛格1997.)。另一个例子是汉密尔顿对庞加莱猜想通过瑞奇流该研究始于1982年,并导致了2003年佩雷尔曼的证明(Szpiro 2008)。当然,到目前为止,其他的猜想一直抵制了几十年的努力来证明它们,例如黎曼假设Rockmore 2007), P≠NP (Fortnow 2013)。

但是“自我修正下的目标稳定性”并不像费马和Poincaré的猜想那样定义明确。也许更多类似的例子来自计算机科学领域?例如,许多早期人工智能科学家的目标是编写一个可以下国际象棋的计算机程序,尽管他们不能确定这样的程序到底是什么样的。在量子计算中可能也有类似的东西。

不管怎样,你是怎么想的?


Benja我的直觉实际上倾向于认为,我们正在尝试做的事情是相当不同寻常的——而且有一个很好的理由:这是有风险的。如果你想确定你正在做的事情不是死胡同,你肯定想选择一个我们的目标和我们现有知识之间的差距比FAI小的主题。但我担心如果我们要做FAI研究直到我们理解世界如何工作,然后将不会有足够的剩余时间前情报爆炸来亚博体育官网完成任务,所以我现在的感觉是,正确的权衡是现在开始尽管航向错误的机会。

但话又说回来,也许我们的情况并不像我的直觉所暗示的那样不寻常。这取决于你想要这个类比,可能有许多例子的科学家有一个模糊的想法,他们想要解决的问题,但不能直接解决它,所以他们寻找一个小的子问题,他们认为他们可以做一些进展。你可能会说,很多物理学研究的最终目标是找出宇宙的真正基本定律,但物理学家实际上能做的只是解亚博体育官网决摆在他们面前的下一个问题。肯定心理学从一开始的目的是找出所有关于人类大脑是如何工作的,但是通过训练老鼠按杆开始得到食物,后来这一由粘电极在老鼠的大脑,看到神经元参与完成这个任务,这些都可以被看作是能够帮助我们弄清楚到底发生了什么事情的洞察力。你自己在"搜索下路灯也给出了这个模式的一些例子。


路加福音:为什么你和其他一些人认为自我修正下的稳定性问题应该从数学逻辑的角度来研究?例如,斯坦福大学的研究生雅各布·斯坦哈特评论第一个工具,他会去调查这个问题不会数学逻辑,而是“鞅……,这是一个统计过程,能够相互关联的所有失败……这可以屈服失效概率界限,保持了相当长时间的视野,即使每一步都有非平凡的随机性。”


Benja我之前说过,为了让我们的人工智能在经过数十亿次重写后仍有机会遵循同样的目标,在任何特定步骤上出错的概率必须非常非常小。这是事实,但这并不是定量的。如果我们想要99%的成功概率,我们可以承担多大的风险呢?如果每次概率都低于1 / 1000亿,这就足够了,但这并不是必须的。Jacob使用鞅的想法是这个问题的一个类似但更灵活的回答,它允许你在某些情况下冒更大的风险。

但是,即使有了这种额外的灵活性,您仍然需要一种方法来获得极高的信心,以确保您所做的工作在大多数重写步骤中是安全的。我们不能仅仅通过在大样本中进行可靠的实验来获得这种信心:问题是,我们早期所考虑的重写AI是否会在AI变得超级智能并扩展到整个太阳系和更远的地方后带来预期的结果——如果你自己没有这些资源,你就不能模拟它!亚博体育苹果app官方下载

因此,我们需要一种方法来抽象地推理我们的AI在完全不同于我们目前所能模拟的情况下的行为,我们需要达到极端的自信,相信这些抽象结论实际上是正确的。我们只知道一种方法,那就是在数学逻辑中使用正式证明。


路加福音:假设约翰·多伊有一种直觉,尽管他不是一个具有逻辑架构的认知系统,但他觉得自己可以在保持最初目标的同时进行很多自我修改,亚博体育苹果app官方下载如果他有足够的计算能力和足够的时间去思考他计划的下一次自我修改是否会改变他的目标。如果这种直觉是正确的,那么这意味着我们可以使用其他方法,在数学逻辑之外,来确保在自我修正时目标失效的概率非常小。你会对约翰说什么?


Benja我认为他低估了问题的难度。两件事:

首先,我的印象是,很多人有一种直觉,他们一直在自我修正。但是人类可以用现代技术做出的改变并没有改变我们运行的硬件的设计与人类和黑猩猩之间的差异相比,它们显得微不足道,一个自我完善的人工智能很可能最终会对其设计做出更根本的改变,而不是在过去500万年中进化对我们大脑进行的相对较少的调整。

但是第二,约翰会说,即使考虑到这一点,他认为只要有足够的时间去学习他的大脑是如何工作的,并仔细推理他在采取每一个步骤,他应该能够通过一个长链的self-modifications保留他的价值观。在这种情况下,我认为他很可能只是错了。然而,我可以想象一个人实际上可以成功地做到这一点但不是没有实现同样的极高的信心,每一个重写的一步,我们希望我们的人工智能,我认为,如果人类能设法实现这样的信心,这将是由……证明数学定理和证明的正式检查由计算机!


路加福音:是的,当人们说人类总是在自我调整而不改变他们的目标时,我给了两个我自己的回答。首先,我指出,人们的目标和价值观确实经常变化。第二,我指出人类实际上很少自我修正。例如,我曾经切换从原教旨主义基督徒到科学自然主义者,这与我处理证据和论证的方式发生了巨大的转变。但在世界观改变的过程中,我的大脑仍然在使用多巴胺奖励系统中的时间差强化学习算法。亚博体育苹果app官方下载据我们所知,在转型期间,我大脑的核心算法没有发生重大变化。人类从来不会像人工智能那样经常自我修正。

我的下一个问题与人工智能有关。正如人工智能科学家所知,基于逻辑的人工智能通常远不如使用机器学习方法的人工智能。未来的自我修改AI中只有很小一部分会有逻辑结构(这样它就能证明修改其核心算法的好处),而AI的其余部分会使用其他方法吗?有点像安全关键软件的小部件(例如飞行控制)都是用结构化的方式写的,使它们易于理解形式验证,但系统的其余部分不一定以符合正式验证的方式亚博体育苹果app官方下载编写?


Benja我认为你所说的人们的价值观确实经常发生变化的观点对直觉很有帮助,而且我也认为很重要的一点是,如果你改变大脑的整个结构,这些变化实际上是非常小的。例如,人们可能会在坚定的环保主义者和认为环保主义从根本上是被误导的人之间转换,但他们不会成为坚定的三角主义者,认为把所有的日常工具都做成三角形是一种道德义务。谋杀和对谋杀的谴责都是人类的共性世界范围内所有文化所共有的特征;我们谈论的是对我们的认知结构的改变,这些改变很容易就会导致对非三角主义的冲动,以及对这种非三角主义的谴责,从而变得同样普遍。

是的,我认为逻辑推理只是Friendly AI工具箱中的一种工具,它会使用不同的工具来推理环境中的大多数事物。甚至当推理关于自己的行为,我只希望AI用逻辑来证明定理如何在“理想”的硬件上运行时可能的行为(或硬件有一定的误差界限,等等),然后用概率推理思考如果它运行在物理世界的实际硬件。(但对于你的类比来今天的高安全性的软件时,我想指出,与今天的高安全性的软件时,我希望AI证明定理的所有组成部分,我不期望它使用逻辑来思考,说,椅子。正式的验证是困难和耗时的,这就是为什么我们目前只将其应用于安全关键系统的一小部分,但我希望未来的人工智能能够胜任这项任务!)亚博体育苹果app官方下载


路加福音:嗯。这是令人惊讶的。我的理解是,形式化验证方法根本不能很好地扩展,这既是由于计算的复杂性,也是由于编写一个可以验证一个复杂系统的正确的形式化规范需要花费大量的人力。亚博体育苹果app官方下载为什么你认为未来的人工智能能够“完成这项任务”,证明“有关其自身所有组成部分的”定理?


Benja首先,我普遍认为未来的人工智能会比人类更聪明,能够轻松地完成需要人类花费数小时才能完成的智力任务;我也不认为他们会厌倦这种卑微的工作,即把他们的数学“直觉”翻译成一长串“无聊的”引理,就像人类一样。

但更具体地说,我们人类有一个直观的理解,为什么我们期望我们构建的系统能够工作,亚博体育苹果app官方下载我的感觉是,很难将这种理解转化为形式证明的一个主要原因可能是,这些直觉在我们大脑中的表达方式和相应的概念在形式证明系统中的表达方式之间存在着不匹配。亚博体育苹果app官方下载换句话说,在我看来,当你从零开始构建一个认知架构时,你可能会建立起一种数学上的“直觉”,了解为什么某些特定的计算机代码能够工作,而这些代码能够相当直接地转化为可正式验证的证明。事实上,同样我希望如何一个人工智能的计算机代码直接操作表示,而不是使用图像和语言听起来像我们人类一样,我认为很有可能一个FAI会做的推理关于为什么一块计算机代码是通过直接操纵表示正式的证明。

也就是说,它似乎通常会发生我们人类通过经验知道某种算法或数学技巧往往会在很多问题上工作,但我们没有完整的解释为什么这是这样的。我确实期待未来的AIS也必须要做这种类型的推理,并且似乎可以很合理地认为,AI可能希望将这种类型的推理应用于它用于图像处理的机器学习算法,其中错误可以从中恢复 - 虽然可能不是要使用的代码来检查未来的重写仍将遵循相同的目标系统!亚博体育苹果app官方下载而且我仍然希望AI证明关于其图像处理算法的定理,我只是希望它们成为“此算法将始终在大多数时间步骤完成”或“此算法在以下情况下执行正确假设是在非常大的情况下被证明是真实的。“


路加福音我住在曼谷宾佳!:谢谢,