强大的合作：友好AI研究 - 机器智能研究所的案例研究亚博体育官网

本文“囚徒困境中的鲁棒合作:基于可证明逻辑的计划均衡“是明确产生的理论进步的更明确的例子之一固定资产投资有关的研究目标。亚博体育官网我们可以从这个案例研究中学到什么?亚博体育官网结果是如何得到的?这些想法是如何建立在彼此之上的?谁贡献了哪些部分?哪种协同作用重要?

为了回答这些问题，我与许多为“强有力的合作”成果做出贡献的人进行了交谈。

我将从2011年12月开始讲起，当时Vladimir Slepnev(苏黎世谷歌的一名工程师)发布了消息一个带有停顿的oracle的UDT模型，代表与Vladimir Nesov（莫斯科计算机科学院学生）的联合工作。¹这篇文章首次说明，²展示了魏岱的正式模型不可更快的决策理论(UDT)，并表明UDT代理将“获胜”时，提出Newcomb的问题如果无论如何，宇宙程序和它的代理子程序可以访问一个停止的神谕。Nisan Stiennon(斯坦福大学的数学研究生)将Slepnev的形式化方法应用于用Peano算法证明合作的问题表现得像决策者的算术公式（2012年2月）。^3.

这两篇文章的成功在正式化UDT启发帕特里克·瓦特奥尔（麦迪逊的数学博士后），以尝试“半正式分析”永恒的决策理论(TDT)是由Eliezer Yudkowsky (MIRI的创始人)发明的一个较早的决策理论，它本身就是UDT的重要灵感来源。后三设置的帖子，Lavictoire认为他已经成功地形式化了一些东西有点儿像TDT一样2012年4月．

Lavictoire从其他TDT / UDT研究人员中没有过多的反应，所以当他访问SF湾区亚博体育官网CFAR车间2012年7月，他追踪yudkowsky，Stiennon，Paul Christiano（伯克利计算机科学毕业生），以及其他几个与他们谈论他试图形式化TDT的尝试。他们的反应足够积极的是，鼓励浪花岛继续致力于这种方法。

2012年8月，当Slepnev访问湾区时，LaVictoire也与Slepnev讨论了他的工作，Slepnev指出，LaVictoire试图将TDT(现在称为“假面舞会”)正规化致命的缺陷对于Löbian的原因。但是，2012年9月，奢侈脚仪能够补丁问题通过在不同的正式系统之间升级伪装。亚博体育苹果app官方下载在这一点上，Lavictoire开始了写作的早期草稿“强大的合作“ 纸。

Slepnev坚持最佳结果的重要性，所以在那个月后的薰衣草想出了一个候选最优性概念，然后在10月份注意到，根据这个定义，《假面具》本身并不是最优的。这大概是MIRI的情况2013年4月研讨会开始了。

在研讨会的早些时候，LaVictoire给其他参与者提供了一个化妆教程。对Masquerade的调整最终导致了模态代理的概念，LaVictoire和Mihály Barasz(苏黎世谷歌工程师)开始寻找机械地验证此类代理相互之间行为的方法。最终，巴拉兹和马塞洛·赫里肖夫(Marcello Herreshoff，湾区谷歌的一名工程师)开发出了一套模型检查器对于模态代理相互作用，因此可以机械地证明代理对抗其他药剂的选择。

靠近4月底的研讨会，Christiano开发了Prudentbot，这是目前纸张的“明星”。Yudkowsky，Benja Fallenstein（布里斯托尔大学的一名毕业生）和其他人在研讨会期间的额外捐款。Lavictoire在4月研讨会的结果中更新了论文的草案，发到Less Wrong网站2013年6月。

后,在美里2013年9月车间，Kenny Easwaran（USC的哲学家）发现它比Lavictoire更难证明任何无法申请的代理人最终都必须针对某种Waitfairbot优化。Herreshoff致力于修补这一点，但证明是将纸张的部分膨胀，无法对次要结果进行识别，因此Lavictoire决定将其从论文中删除。

2013年12月，Fallenstein发现这篇论文没有充分证明两个模态主体的行为完全依赖于它们的模态描述，他为此引入了一系列补丁。拉维科娃再次修改了论文，然后，在他的合著者的同意下，将修订后的纸张上传到Arxiv2014年1月。

那么，何种内容是“稳健合作”纸张的含义和意义？至少是Lavictoire的观点，这是：

模态战斗的意义在于，它是一个玩具世界，我们可以在其中学习高级决策理论的概念(为了学习其他概念，比如勒索，我们可能会稍微修改这个概念)，在这个玩具世界中，直觉上吸引人的超理性理念实际上是可行的。这至少是一个哲学上的暗示，即良好的沟通可以使合作免于执行和惩罚的通常成本，而且理性的行为人之间存在着简化和可验证性的动机。

事实上，它是一个迭代囚犯困境锦标赛的更基本的模拟。就像Axelrod的IPD [迭代PD]锦标赛说明了“艰难但公平”的有用性，并让互惠利他主义的进化激励措施产生了思想，我认为模态战斗是一个有用的沙箱，用于说明“级化性”的逻辑。此外，模态战斗包括IPD的许多功能（带有扣除的级别有点类似于代理与另一代理的历史交互），并且对于这些算法的复杂程度具有极其简单的语法。

的发展不可更快的决策理论它本身就是另一个故事，这里就不详细叙述了。关于这个故事的两个简要来源是Vladimir Nesov的“之前的工作”部分控制不断的计划,也这样的评论．Nesov的非常UDT的发展是这样的:(1)Eliezer Yudkowsky的早期非正式的讲话关于TDT)和安娜萨拉蒙蒙的帖子提出了一些情况应该通过不寻常的依赖来建模的观点，激发了如何选择一个合适的模型(推断依赖)的问题。(2)魏戴笠的udt post.速写了一种这样做的方式，但是当我不明白这篇文章时作为回答这个问题，最终就在2010年5月讨论了计划控制程序案例。在讨论之后决策理论邮件列表，Vladimir Slepnev.应用囚徒困境(PD)技术。(3)我和斯莱普涅夫写了更通用的技术，斯莱普涅夫的帖子有更多的技术内容，而我的帖子则更具投机性，试图找到更好的方法来构建理论:could(可能)可能的减少量是多么大啊那控制不断的计划,环境控制偏好的概念．(4)围绕“虚假的道德争论”仍存在一些技术问题。看到这样的评论Benja Fallenstein和在UDT中自我实现的虚假证据的一个例子．(5) One solution was adding a ‘chicken rule’ to the decision algorithm, which I figured out for the programs-control-programs case in April 2011 and discussed a bit on the decision theory list, but which turned out to be much more theoretically robust in a setting with a halting oracle, which came up in another discussion on the decision theory list in December 2011, which Slepnev wrote up in一个带有停顿的oracle的UDT模型．我后来写了决策的可预测性和对角线法．(6)用对角线技巧(小鸡规则)武装起来，斯泰农写道在PD中的合作对于Oracle案例，这比Slepnev早期的PD的未经概述解决方案更为理论上。（7）此时，我们的形式化了UDT，没有患有虚假证据问题，以及如何将其应用于PD等非琐碎问题的图示。“↩
一些研究人亚博体育官网员可能会说Slepnev 2010年8月帖子“could(可能)可能的减少量是多么大啊“介绍了UDT的”第一正式模式“。↩
Stiennon的文章还通过使用两步“小鸡规则”而不是一步小鸡规则改进了形式化。↩

你喜欢这个帖子吗?你可以享受我们的另一个yabo app 的帖子,包括:

强大的合作：友好AI研究中的案例研究亚博体育官网

搜索

浏览

订阅