嵌入式世界型号

||yabo app

一个大于其环境的代理可以:

  • 在它的脑袋里放一个精确的环境模型。
  • 想一想后果每个潜在的行动方案。
  • 如果它不完美地知道环境,请保持每一个可能的办法环境可能在它的头部,就像贝叶斯不确定性一样。

所有这些都是理性代理的典型概念。

一个嵌入式代理不能做任何那些东西,至少不是以任何直接的方式做到。

嵌入式特工艾米

一个困难是,由于代理是环境的一部分,对环境的每个细节建模将要求代理对自己的每个细节建模,这将要求代理的自我模型与整个代理一样“大”。一个探员无法钻进自己的脑袋里。

缺乏清脆的代理/环境边界迫使我们与自我参考的悖论挣扎。好像代表世界其他地方都没有困难。

嵌入式世界型号必须以更适合嵌入式代理人的方式代表世界。此集群中的问题包括:

  • “可实现性”/“真理的颗粒”问题:现实世界不在主体的假设空间内
  • 逻辑的不确定性
  • 高级模型
  • 多级模型
  • 本体危机
  • 归化归纳,即主体必须将其自身模型纳入其世界模型的问题
  • 人择推理,关于你有多少个副本的推理问题


在贝叶斯环境中,在可能的世界上通过可能的世界的概率分布量化了代理的不确定性,常见的假设是“可实现性:假设产生观测结果的真实的潜在环境至少有一些先验中的概率。

在博弈论中,通过称之为“真相”来描述这种相同的财产。然而,应该指出的是,在游戏理论上设定这个属性存在额外的障碍;因此,在他们常见的使用情况下,“真理”在技术上要求“可实现性”是技术的便利性。

为了使贝叶斯推理有意义,可实现的可实现性并不是必要的。If you think of a set of hypotheses as “experts”, and the current posterior probability as how much you “trust” each expert, then learning according to Bayes’ Law, \(P(h|e) = \frac{P(e|h) \cdot P(h)}{P(e)}\), ensures a相对界限损失财产。

具体来说,如果您使用先前的\(\ pi \),则与每个专家\(h \)相比,您与每个专家\(h \)的金额最多是大多数\(\ log \ pi(h)\),因为您至少分配概率\(\ pi(h)\ cdot h(e)\)查看一系列证据\(e \)。直观地,\(\ pi(h)\)是您对专家\(h \)的最初信任,并且在每种情况下,在每种情况下,甚至比您更具更正,你相应地增加了您的信任。您这样做的方式可确保您分配专家概率1,因此在丢失超过\(\ log \ pi(h)\)之前精确复制它。

艾基是基于是Solomonoff之前.它被定义为输入为硬币投掷的通用图灵机(UTM)的输出。

换句话说,给UTM提供一个随机程序。通常,您会认为UTM只能模拟确定性机器。然而,在这里,初始输入可以指示UTM使用剩余的无限输入磁带作为随机源来模拟随机图灵机。

将其与以前的想法相结合,以便将贝叶斯学习视为符合有限损失条件的“专家”的方式分配“专家”,我们可以看到所罗门组织作为一种理想的机器学习算法,可以学习就像任何无论多么聪明,你可能会提出算法。

出于这个原因,我们不应该一定想象AIXI是“假设世界是可计算的”,即使它通过先验的计算推理。它的预测精度受到了有限损失与...相比任何可计算的预测因子。我们应该说AIXI假设所有可能的算法是可计算的,而不是世界是。

然而,如果你寻找的是比有限损失预测精度更高的东西,那么缺乏可实现性可能会带来麻烦:

  • 后部可以永远振荡;
  • 概率可能无法校准;
  • 对统计数据(如平均值)的估计可能是任意糟糕的;
  • 对潜在变量的估计可能不好;
  • 并且识别因果结构可能无法正常工作。

艾西也是没有可实现的假设表现良好?我们不知道。尽管有偏见的损失预测没有可实现性,现有的最优结果为其行动需要额外的可实现性假设。

首先,如果环境真的艾西斯从Solomonoff分布中取样了最大预期奖励.但这相当琐碎;它基本上是AIXI的定义。

第二,如果我们修改AIXI,使其采取某种随机的行动——汤普森抽样——有一个渐近最佳结果适用于像任何随机图灵的机器一样的环境。

因此,无论哪种方式,都有可实现性以证明任何东西。(见Jan Leike,非参数一般加强学习.)

但是我指着的关注是不是“世界可能是无可证的,所以我们不知道艾基是否会做得好”;这更像是一个说明性案例。关注的是,AIXI只能通过构建代理来定义情报或合理性多,大得多比它必须在内心了解和行动的环境。

阿列克谢,二元论特工

Laurent Orseau提供了一种思考这个问题的方式时空嵌入式智能“。然而,他的方法在考虑到外部的现实的一系列超级智能设计师方面定义了代理的智能,选择了代理人放置到环境中

嵌入式代理人没有奢侈的宇宙外面思考如何思考。我们希望是一个理性信仰理论位于提供与基础贝叶斯主义提供二元代理人的基础的代理商。

想象一位与程序员有分歧的计算机科学理论。理论人士正在利用抽象模型。程序员在抱怨抽象模型不是你会运行的东西,因为它是计算的难以解决的。理论人员响应这一点不是要跑。相反,这一点是了解一些现象,这也与您想要运行的更易易易易的事物相关。

我把它带到了这个,以强调我的观点,就像理论人一样。我不是在谈论艾基说“艾基是你无法运行的理想化”。我指向的谜题的答案不需要运行。我只是想了解一些现象。

然而,有时使一些理论模型不那么容易处理的事情也会使这个模型与我们感兴趣的现象太不一样。

办法艾基wins games is by assuming we can do true Bayesian updating over a hypothesis space, assuming the world is in our hypothesis space, etc. So it can tell us something about the aspect of realistic agency that’s approximately doing Bayesian updating over an approximately-good-enough hypothesis space. But embedded agents don’t just need approximate solutions to that problem; they need to solve several problems that are不同的类型从那个问题。


嵌入式机构理论必须处理的一个主要障碍是自我指涉

自我参照的悖论,比如说谎者悖论让它不只是不切实际,而是在某种意义上不可能的对于代理商的世界模式,准确反映世界。

骗子悖论涉及句子的地位“这句话不是真的”。如果是真的,它必须是假的;如果不是真的,那一定是真的。

部分困难来自于试图绘制包含地图本身的领土地图。

嵌入代理中的自引用

如果世界为我们“仍然”,这很好;但是因为地图是在世界上,不同的地图创造不同的世界

假设我们的目标是绘制当前正在建设的道路的最终路线的精确地图。假设我们知道施工团队将看到我们的地图,并且该施工将进行,以便反驳我们所做的任何地图。这让我们成为骗子悖论的情况。

liar-paradox-like情况

这类问题与决策在游戏理论中。如果玩家试图赢,则可以介绍一个简单的摇滚剪刀,可以介绍一个骗子悖论,并且可以比机会更好地预测对方。

博弈论解决了这种类型的游戏理论均衡问题。但问题最终以不同的方式回归。

我提到,在博弈论的背景下,可实现的问题采用不同的角色。在ML设置中,可实现性是一个潜在的不现实的假设,但通常可以一直假设。

另一方面,在博弈论中,假设本身可能是不一致的。这是因为游戏通常会产生自我参照的悖论。

博弈论中的反思

因为有如此多的行动者,在博弈论中不再可能方便地把一个“行动者”变成一个比世界更大的东西。因此,博弈论理论家被迫研究理性代理的概念,它可以处理一个大的世界。

不幸的是,这是通过将世界分成“代理”零件和“非代理”零件来完成的,并以特殊方式处理代理。这几乎与代理商的二元模型一样糟糕。

在摇滚剪刀中,通过规定每个玩家每次移动\(1/3)概率,解决骗子悖论。如果一个玩家这样播放,那么另一个玩家通过这样做丢失了任何东西。引入概率戏剧来解决博弈论的悖论的这种方式被称为a纳什均衡

我们可以使用纳什均衡来防止代理商正确地了解他们在不一致的世界的假设。然而,这只是通过告诉代理商来说世界看起来像什么。如果我们想要了解世界的代理商,更像是艾基的模型?

谷物真理问题是否有一个合理的有界先验概率分布的问题可以让代理人进行博弈一些彼此的正面概率是真正的(概率)行为,而不是从一开始就精确了解。

直到最近,已知的解决这个问题的方法都相当有限。Benja Fallenstein, Jessica Taylor和Paul Christiano的"反思的神谕:古典博弈论的基础“提供非常一般的解决方案。有关详细信息,请参阅“对真理问题的正式解决方案“由Jan Leike,Jessica Taylor和Benja Fallenstein。

您可能会认为随机图灵机可以代表纳什均衡。

产生纳什均衡的随机图灵机

但如果你试图产生纳什均衡这是对其他代理进行推理的结果,你会遇到麻烦的。如果每个代理都为另一个代理的计算建模,并试图运行它来查看另一个代理做什么,那么您就得到了一个无限循环。

有一些图灵机无法回答的问题,特别是关于图灵机行为的问题。中止问题就是一个典型的例子。

图灵研究了“Oracle机器”来检查如果我们能回答这些问题会发生什么。Oracle就像一本书,其中包含一些关于我们之前无法回答的问题的答案。

但通常,我们得到一个层次结构.B类机器可以回答关于A类机器是否停止的问题,C类机器有关于A类和B类的答案,等等,但是没有机器有关于自己类型的答案。

可以解决较低级机器停止问题的图灵机等级

反思性的袜子通过扭曲普通的图灵宇宙自身扭曲,因此而不是更强大的oracels的无限等级,你定义了一个用作自己的Oracle机器的Oracle。

反思甲骨文

这通常会引入矛盾,但反射令人反光的令人反光的令人避免在他们将其运作到悖论中的输出中来避免这种情况。所以反射甲骨文机随机,但它们比常规随机图灵机更强大。

这就是反思令人反思的令人反思地解决了我们提前提到的地图上提到的问题的问题:随机化。

反光oracles根据需要随机化以避免悖论

反思的神谕也用我之前提到的博弈论的理性概念来解决这个问题。它允许以与环境中其他部分相同的方式对代理进行推理,而不是将它们视为一个基本的特殊情况。它们都是通过oracle访问的计算。

然而,基于反思预言的理性行动者模型仍然有几个主要的局限性。其中之一是,代理商被要求拥有无限的处理能力,就像AIXI一样,因此被假定知道他们自己信念的所有后果。

事实上,了解你的信仰的所有后果 - 一个被称为的财产逻辑不可用- 归还古典贝叶斯合理性的核心。


到目前为止,我一直在以一种相当幼稚的方式谈论主体对假设的信念,以及现实世界是否存在于假设空间。

这些都不清楚是什么意思。

取决于我们如何定义事物,它实际上可能是一个小于世界的代理,但仍包含正确的世界模型 - 它可能知道真实的物理和初始条件,而且只能推断出他们的后果大约。

人类肯定是用速干和近似生活。但是,如这种情况可能是现实的,它不符合它通常意味着贝叶斯知道的东西。贝叶斯知道所有信仰的后果。

不确定你的信念的后果是逻辑的不确定性.在这种情况下,代理人可能会经验上确定一个独特的数学描述,每个宇宙都在逻辑上不确定该描述的大多数后果。

为逻辑不确定性建模需要我们有一个逻辑(关于暗示的推理)和概率(信仰程度)的组合理论。

逻辑学和概率论是理性思维编纂的两大胜利。逻辑为思考提供了最好的工具自我指涉,虽然概率提供了最佳的思考工具决策.然而,这两者并不像人们想象的那样协同工作。

概率和逻辑

它们可能看起来是超级兼容的,因为概率理论是布尔逻辑的扩展。然而,Gödel的第一个不完整性定理表明,任何充分丰富的逻辑系统都是不完整的:它不仅可以将每个句子决定为真或假,但它也没有该可计算的延伸,该延伸也没有管理这样做。亚博体育苹果app官方下载

(见帖子“一个无法控制的数学家说明了“有关如何用概率理论的混乱的更多信息。)

这也适用于概率分布:没有一个可计算的分布能够以一种与足够丰富的理论相一致的方式分配概率。这迫使我们在使用联合国可计算分布,或者使用不一致的分布。

听起来是个简单的选择,对吧?不一致的理论至少是可计算的,我们终究是在努力发展一个逻辑的理论无所不知。我们可以继续更新已经证明的事实,让我们越来越接近一致性。

不幸的是,这并不能很好地制造,因为返回可实现性的原因。请记住,有可计算概率分布与声音理论的所有后果一致。所以我们的非无所不知的先前甚至没有单一正确的假设

这导致了病态行为,因为我们越来越依赖于真正的数学信念。信念会剧烈波动,而不是接近合理的估计。

在数学之前服用贝叶斯,并更新任何我们证明的东西,似乎并不是捕获数学直觉和启发式猜想,除非我们在先前限制域并制作明智。

概率就像一个规模,世界为权重。观察消除了一些可能的世界,去除权重和移位信仰的平衡。

逻辑就像一棵树,根据推理规则从公理的种子生长。对于现实世界代理商而言,增长过程永远不会完成;你永远不知道每个信仰的所有后果。

概率为尺度,逻辑为树

如果不知道如何将两者结合起来,我们就不能概率地描述数学推理。但是“规模vs树”问题也意味着我们不知道普通的经验推理是如何工作的。

贝叶斯假设检测要求每个假设清楚地宣布它分配到哪些观察的概率。这样,您知道在观察时重新缩小赔率的程度。如果我们不知道信仰的后果,我们不知道为预测提供多少信用。

这就是不知道在哪里将权重放在概率的尺度上。我们可以尝试将重量放在两侧,直到证据规则一方,但是信仰永远振荡,而不是做任何有用的东西。

这迫使我们直接努力与大于代理商的问题。我们想要一些关于不确定后果的有限理性信仰的概念;但任何关于逻辑的可计算信念必须遗漏的东西,因为逻辑含义树会比任何容器都大。

对于贝叶斯理论,概率的尺度是精确平衡的没有荷兰的书可以对他们进行赌注-没有连续的赌注是肯定的损失。但只有当你知道自己信仰的所有后果时,你才能解释所有荷兰书。如果没有这些,探索过这棵树其他部分的人就可以对你进行“荷兰书”。

但人类数学家似乎并没有遇到任何特殊的困难,而是在数学不确定性的推理中,不仅仅是我们对经验不确定性的影响。那么在数学不确定性下表征了良好的推理,如果没有豁免赌注的豁免?

一个答案是削弱荷兰账本的概念,以便我们只允许基于荷兰账本的赌博快速可计算树的一部分。这是Garrabrant等人的想法之一逻辑归纳,这是一个早期的尝试,试图定义类似于“所罗门诺夫归纳法,但用于包含数学不确定性的推理”之类的东西。


世界比你大这一事实的另一个后果是你需要能够使用高级世界模型:涉及桌子和椅子等东西的型号。

这与古典符号接地问题有关;但由于我们想要一个正式的分析,这增加了我们的相信在某些系统中,我亚博体育苹果app官方下载们感兴趣的模式有些不同。这也与透明度通知监督:世界型号应制成可理解的部分。

一个相关的问题是高级推理和低级推理彼此之间以及与中级推理之间的关系:多级世界模型

标准概率推理并不提供这种情况的非常好的帐户。这就好像你有不同的贝母网,它在不同的准确度描述世界,加工能力限制力强制你大多数使用较低的准确性,所以你必须决定如何根据需要跳转到更准确的。

此外,不同层次的模型不能完美地组合在一起,所以你会遇到在它们之间转换的问题;模型之间可能存在严重的矛盾。这可能是好的,因为高级模型无论如何都被理解为近似,或者它可能预示着在更高或更低级别的模型中出现了严重的问题,需要对其进行修改。

这在案例中特别有趣本体危机在这种情况下,我们所重视的事物结果不是世界“更好”模型的一部分。

似乎可以公平地说,人类的价值只存在于高级模型中,从简化的角度来看,它比原子和夸克“更不真实”。然而,因为我们的价值观不是被定义在低水平上的,即使我们对低水平的认识发生了根本性的变化,我们也能够保持我们的价值观。(我们也希望能够说一些关于值发生了什么,如果水平从根本上转变。)

嵌入式世界模型的另一个关键方面是代理人本身必须在模型中,因为代理人寻求了解世界,而世界不能完全分开自己。这打开了难以解决的门自我指涉人类决策理论

归化感应是学习世界模型的问题包括你自己在环境中。这是具有挑战性的,因为(卡斯帕·奥斯特held已经把它)“心理因素”和“物理因素”之间存在类型不匹配。

AIXI设想的环境就好像它是由人造的代理可插入的槽.我们可能直观地理解这种方式,但我们也可以理解这种情况,这看起来像一个不好的模型。我们可能会想象代理人分开代表:自我认知提供内省;关于宇宙的样子的假设;和一个“桥接假说把两者联系起来。

有趣的问题是如何工作的。还有问题是这是否是正确的结构。这肯定不是我想象婴儿学习的方式。

托马斯·内格尔会说这种接近问题的方式涉及“从无处的观点”;每个假设都会在外面看到的世界。这也许是一个奇怪的事情。


一个特殊的代理人需要推理自己是需要理解他们的代理人未来自我

为了制定长期计划,代理商需要能够建模他们将如何在未来行动,并有某种相信在他们未来的目标和推理能力。这包括信任学到和成长的未来自我。

在传统的贝叶斯框架中,“学习”意味着贝叶斯更新。但正如我们所指出的那样,贝叶斯更新要求代理人一开始足够大,以考虑世界上的一堆方式,并通过裁定其中一些的方式来学习。

嵌入式代理需要资源有限公司逻辑上不确定更新,这不像这样工作。

不幸的是,贝叶斯更新是我们知道如何将一个代理作为一个统一的代理来考虑的主要方法。荷兰书中对贝叶斯推理的辩护基本上是说这种更新是唯一的方法,不让代理周一的行为,与代理周二的行为有冲突,至少有一点。

嵌入式代理人是非贝叶斯。非贝叶斯代理商倾向于与未来的自我变成战争。

这就引出了下一个问题:强大的代表团


这是Abram Demski和Scott Garrabrant的一部分嵌入式机构顺序。下一部分:强大的代表团