关于反思神谕和代理的新论文

||论文

我们最近发表了两篇关于反思神谕和代理的新论文。

第一个是"反思的神谕:经典博弈论的基础作者本雅·法伦斯坦(Benja Fallenstein)、杰西卡·泰勒(Jessica Taylor)和保罗·克里斯蒂安诺(Paul Christiano)。

反光的神谕文摘:

经典的博弈论将玩家视为特殊的——游戏的描述包含了所有玩家的完整、明确的列举——即使在现实世界中,“玩家”从根本上来说并不比石头或云更特殊。为博弈论找到一个决策理论基础并不是一件简单的事情,在这个博弈论中,一个个体的合作者是该个体所处环境的一个非区分的部分。例如,将玩家和环境建模为图灵机的尝试,由于标准的对角化原因而失败。

在本文中,我们介绍了一种“反射”类型的oracle,它能够回答关于访问同一oracle的oracle机器输出的问题。这些oracle通过随机回答一些查询来避免对角线化。我们表明,机器访问一个反射的oracle可以用来定义理性的代理使用因果决策理论。这些代理将它们的环境建模为一个概率的oracle机器,其中可能包含其他代理作为一个非区分部分。

我们证明,如果这些代理相互作用,它们将发挥纳什均衡,混合策略的随机性来自于神谕答案的随机性。这可以看作是经典博弈论的基础,在这个理论中,玩家并不特别。

第二篇论文在所罗门诺夫归纳法和马库斯·哈特的AIXI的背景下发展了这些观点。这是“Solomonoff诱导和AIXI的反射变异作者本雅·法伦斯坦(Benja Fallenstein)、内特·苏亚雷斯(Nate Soares)和杰西卡·泰勒(Jessica Taylor)。

反光AIXI文摘:

Solomonoff归纳和AIXI将它们的环境建模为任意图灵机,但它们本身是不可计算的。这未能抓住现实世界代理的一个基本属性,这个属性不能比它们所处的环境更强大;例如,AIXI不能准确地模拟博弈场景,其中对手是另一个AIXI的例子。

在本文中,我们定义反光Solomonoff诱导和AIXI的变体,它们能够对包含其他同样强大的推理器的环境进行推理。为了做到这一点,我们用概率oracle机器(访问oracle的随机Turing机器)代替图灵机。然后,我们使用反光的神谕,即回答问题的形式,“是oracle机器的概率”输出1大于p,当运行在同样的oracle?”如果这个概率等于,则可以通过允许oracle随机回答来避免对角化p;有了这个规定,可以证明反思的神谕是存在的。我们展示了反射性Solomonoff归纳和AIXI本身可以作为访问反射性oracle的oracle机器来实现,使它们能够建模包含像自身一样强大的推理器的环境。