新论文:“对真理问题的正式解决问题”

||论文

真理颗粒问题的一种形式解

未来人类研究所研究员亚博体育官网Jan Leike和MIRI研究员J亚博体育官网essica Taylor和Benya Fallenstein刚刚在UAI 2016.这解决了博弈论中一个长期存在的开放问题:对真理问题的正式解决方案”。

游戏理论家具有指定代理商的技术,这些技师在迭代游戏对其他代理商的迭代游戏,只要他们的信仰含有“真理” - 非零的前期概率,分配给他们正在玩的实际游戏。以前在多人游戏中获得了一个真相的谷物,因为当他们尝试依次建模的代理时,代理可以进入无限的回归。此结果显示如何打破该循环:通过反光的神谕

在此过程中,leake,泰勒和堕落者为研究多毒药困境的研究提供了严格普遍的基础。这项工作提供了令人惊讶和有点令人满意的基础近似的纳什均衡在重复的游戏中,将各种问题折叠到一个常见的框架中的决策和博弈论。

论文的摘要如下:

在多主体环境下,贝叶斯agent学习预测其他agent的策略,如果它的先验赋给其他agent正概率(换句话说,它的先验包含一个道理)。找到一个合理的大量政策,其中包含贝叶斯 - 最佳政策的关于这一课程的最佳政策被称为真理问题.只有小班知道有一点真理和文献包含几个相关的不可能的结果。

本文给出了全粒真理问题的一种形式和一般解:我们构造了一个包含所有可计算策略和贝叶斯最优策略的策略类。当环境是未知的,贝叶斯最优代理可能不能最优地行动,甚至渐进地。然而,在任意未知可计算多智能体环境中,基于汤普森采样的智能体收敛于ε-Nash均衡。虽然这些结果是纯理论的,但我们表明,它们可以在计算上任意接近地近似。

传统上,当为模拟其他程序的属性的计算机程序建模时(例如为一个关于游戏推理的代理建模时),第一个程序被假设能够访问一个oracle(例如一个暂停oracle),这个oracle可以回答关于第二个程序的任意问题。这是有效的,但它对能够推理的建模代理没有帮助彼此

虽然暂停Oracle可以预测任何孤立的图灵机的行为,但它无法预测另一台具有访问暂停Oracle的图灵机的行为。如果这是可能的,第二台机器可以使用它的oracle来弄清楚第一台机器 - oracle对认为它将做的事情,此时它可以做到相反,设置a骗子悖论场景。由于类似的原因,两个具有相似资源的代理,在现实环境中没有任何停止的预言,不可能完美地预测彼此。

博弈理论家知道如何在较弱的参与者和较强的参与者之间建立正式的非对称博弈模型,在这种模型中,较强的参与者理解较弱的参与者的策略,但反之则不理解。然而,由于上述原因,实力相近的代理人之间的博弈无法完全形式化。因此,博弈论到目前为止还没有提供任何方法设计在复杂的迭代游戏中表现良好的代理,其中包含其他具有类似实力的代理。

通常,构建理想代理的方式是让代理考虑一个大量可能的策略列表,预测世界如何响应每个策略,然后选择某些指标的最佳政策。但是,在多玩家游戏中,如果您的代理商考虑它和对手可能发挥的大型政策列表,那么对手的最佳政策通常是一些不在您的清单中的替代政策。(如果您将该策略添加到您的列表中,那么对手播放的新最佳策略现在是一个新的替代方案,即在列表中,等等。)

这是粒真理的问题,首先提出的kalai和lehrer.1993年:定义一类大的政策,足以是有趣和现实的,以及哪些政策考虑该策略类的代理的最佳响应是在类内部1

Taylor和Fallenstein发展了一种形式主义,使解决方案成为可能:反光的能够回答有关特工的问题的神谕者,他们可以访问同样强大的神谕者。Leike领导了证明这种形式主义可以解决真理问题的工作,并在这个过程中证明了贝叶斯最优策略一般不收敛于纳什均衡。汤普森抽样然而,确实收敛于纳什均衡——这是另一篇在UAI 2016上发表的论文的结果,Leike, Lattimore, Orseau和Hutter的“汤普森采样在一般环境中是渐近的最佳状态”。

反射令人反光的关键特征是它们通过在相关情况下随机化来避免对角化和悖论。2这允许具有访问反射甲骨文的代理,以始终如一地理解,这些代理的行为也能够访问反射甲骨文,这反过来可以通过自己的院系(而不是通过菲亚特来汇集到纳什均衡的模型代理或假设)。

这个框架可以用于,例如,定义多个副本之间的游戏艾基.按照最初的表述,AIXI无法招待关于自己存在的假设或关于存在同样强大的代理人;经典的贝叶斯最优代理必须比它们的环境更大、更智能。然而,通过访问反射神谕,Fallenstein, Soares和Taylor都来了AIXI可以有意义地接受关于它自己的假设和它自己的复制,同时避免对角化。

本文的另一个主要新颖性是反射岩石歪斜是限制可计算的,因此允许通过随时算法近似。因此,反射野蛮的范式可能对调查涉及可以互相理解和模拟的一般智能代理的游戏理论问题非常有价值。3.


注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。


  1. 对于非常小的政策课程来解决真理问题并不难。考虑一个囚犯的困境,其他球员可以选择的唯一战略可以选择“合作,直到对手缺陷,永远缺陷”或“合作N.连续几次(或者直到对手出问题,先出一个),然后永远出问题。”Leike, Taylor和Fallenstein指出:

    贝叶斯最优行为是合作,直到后验相信下一个时间步的其他agent缺陷大于某个常数(取决于折扣函数),然后再缺陷。

    但这本身就是一种课堂策略。如果两个参与人都是贝叶斯最优,那么双方都有一点事实(也就是说,他们的实际策略被另一个参与人赋予了非零概率)因此他们收敛于纳什均衡要么他们永远合作要么在某个有限时间后他们都永远叛变

    略微扩展策略列表代理可能会部署,可以使其很难找到包含真理粒的策略类。例如,如果将“tat”添加到策略类中,那么,根据之前的情况取决于真相的粒度可能会丢失。在这种情况下,如果第一代理认为第二代理很可能“始终缺陷”但也许“山雀”,那么最好的政策可能是“缺陷,直到他们合作,然后玩TAT播放,”但是此策略不在策略类中。本文解决的问题是如何找到包含大量富裕政策课程的真理的前瞻。

  2. 具体地,如果指定的机器返回1,则反射惰性惰性件输出1具有大于指定概率的概率P.,如果机器输出0的概率大于1-,则输出0。P..当概率恰好P.但是 - 或者机器有一些不停止的概率,并且P.命中这个概率质量- oracle可以输出0,1,或两者之间的随机。这使得反射神谕避免了骗子悖论的概率版本:任何试图问反射神谕一个无法回答的问题都会得到一个无意义的占位符答案。
  3. 感谢Tsvi Benson-Tilsen,Chana Messinger,Nate Soares,以及Jan Leike为帮助草案提出本公告。