嵌入式代理人

||yabo app

假设您想要建立一个机器人来为您实现一些真实的目标 - 这一目标需要机器人为自己学习并弄清楚你尚未知道的很多事情。1

这里有一个复杂的工程问题。但还有一个问题就是要弄清楚建立这样的学习型代理意味着什么。在物理环境中优化现实目标是什么?从广义上讲,它是如何工作的?

在这一系列的文章中,我将指出四种方法目前知道它是如何运作的,并且有四个积极研究领域旨在弄清楚它。亚博体育官网

这是阿列克谢,阿列克谢正在玩电子游戏。

Alexei The Dualistic Agent

像大多数游戏一样,这场比赛有清除输入输出通道.阿列克谢只通过电脑屏幕观察游戏,只通过控制器操纵游戏。

游戏可以被认为是作为一系列按钮的函数,按下并输出屏幕上的一系列像素。

阿列克谢也很聪明,有能力把整个游戏都记在脑子里.如果Alexei存在任何不确定性,那也只是关于他所玩的游戏等经验事实,而不是关于逻辑事实,如哪些输入(对于特定的确定性游戏)将产生哪些输出。这意味着阿列克谢也必须在脑子里储存他可能玩的每一个游戏。

阿列克谢但是,难道不应该为自己着想吗.他只是优化他正在玩的游戏,而不是优化他正在使用的大脑来思考游戏。他可能仍然可以根据信息价值选择的动作,但这只是为了帮助他排除他正在玩的可能游戏,而不是改变他的想法。

事实上,Alexei可以把自己视为一个不变的不可分割的原子.由于他不存在于他正在考虑的环境中,Alexei并不担心他是否会随着时间的推移而变化,或者他可能必须运行的任何子程序。

请注意,我谈到的所有属性都是部分地实现的,即Alexei与他正在优化的环境干净地分开。

这是艾美。艾美正在演奏现实生活。

emmy嵌入式代理人

现实生活不像视频游戏。差异很大程度上来自于艾米在她试图优化的环境中。

Alexei将Universe视为函数,并且他通过选择对该功能的输入来优化,这导致了比他可能选择的任何其他可能的输入更大的奖励。另一方面,艾美,没有函数.她只是有一个环境,而这个环境包含着她。

艾米想要选择最好的动作,但艾米选择的动作只是另一个关于环境的事实。埃米可以解释她的决定对环境的影响,但因为埃米最终只采取了一个行动,我们甚至不清楚埃米“选择”一个比其他行动更好的行动意味着什么。

阿列克谢可以探索宇宙,看看会发生什么。艾美是宇宙的化身。在埃米的例子中,我们如何将“选择”的概念正式化?

更糟糕的是,自艾米在环境中包含,艾美也必须是小于环境.这意味着艾米无法在头脑中存储环境的精确细节模型。

这就导致了一个问题:贝叶斯推理从大量可能的环境开始,当你观察到与这些环境不一致的事实时,你就把它们排除了。当你甚至不能存储世界运行方式的一个有效假设时推理是什么样子的?Emmy将不得不使用一种不同类型的推理,并做出不符合标准贝叶斯框架的更新。

因为艾米处在她所操纵的环境中,她也有能力做到自我提升.但是埃米怎么能确定,随着她学习得越来越多,发现越来越多的方法来提高自己,她只会以真正有用的方式改变自己呢?她怎么能确定自己不会以不受欢迎的方式改变自己最初的目标呢?

最后,因为Emmy是被环境控制的,她不能像对待原子一样对待自己。她是用相同的碎片制成其余的环境是由导致她能够考虑自己的原因。

除了在她的外部环境中的危害外,艾美都将不得不担心来自内部的威胁。在优化的同时,Emmy可能会在故意或无意中旋转其他优化器作为子程序。如果它们过于强大,亚博体育苹果app官方下载这些子系统可能会导致问题,并与EMMY的目标取消协调。Emmy必须弄清楚如何在没有旋转智能子系统的情况下推出,或者以其他方式弄清楚如何保持弱,包含或完全与她的目标完全对齐。亚博体育苹果app官方下载

艾美令人困惑,所以让我们回到阿列克谢。马库斯休假AIXI框架为Alexei工作中的代理商提供了良好的理论模型:

$$
a_k \;: = \;arg \ \ max_ {a_k} \ sum_ {o_k r_k} % \ max_{现代{k + 1}} \ sum_{间{k + 1}}
... \ max_ {a_m} \ sum_ {o_m r_m}
[r_k +……+ r_m]
\水平间距{1 em} \水平间距{1 em} \水平间距{1 em} \ ! \ \ ! !U({q},{a_1..a_m})={o_1 r_1..o_m r_m}} \水平间距{1 em} \水平间距{1 em} \水平间距{1 em} \ ! \ \ ! !2 ^{\厄尔({q})}
$$

该模型有一个代理和一个环境,使用动作、观察和奖励进行交互。代理发送一个操作\(a\),然后环境同时发送一个观察\(o\)和一个奖励\(r\)。这个过程在每次\(k…m\)重复。

每个行动都是之前所有行动-观察-奖励三倍的函数。每一个观察和奖励都是这些三重和前一动作的函数。

您可以想象这个框架中的代理对其交互的环境有充分的了解。然而,AIXI被用于环境不确定性下的优化模型。AIXI在所有可能的可计算环境中都有一个分布,并选择在这个分布下导致高期望奖励的操作。因为它也关心未来的奖励,这可能会导致对信息价值的探索。

在一些假设下,我们可以证明AIXI在所有可计算环境中都做得相当好,尽管它有不确定性。然而,尽管AIXI交互的环境是可计算的,但AIXI本身是不可计算的。代理是由一种不同的物质组成的,一种比环境更强大的物质。

我们会称之为AIXI和ALEXEI“二元的代理商。它们存在于他们的环境之外只设置agent-stuff和environment-stuff之间的交互.他们要求代理大于环境, 和不要倾向于建立自我参照推理的模型,因为代理商由不同的东西制成,而不是代理原因

爱喜并非个例。这些二元论的假设在我们目前关于理性代理的最佳理论中随处可见。

我将艾西安作为一点箔,但艾西也可以用作灵感。当我看看艾西时,我觉得我真的明白Alexei如何工作。这是我想要艾美的理解。

不幸的是,艾米很困惑。当我说到想要有一个“嵌入代理”的理论时,我的意思是我想要能够从理论上理解像艾米这样的代理是如何工作的。也就是说,在其环境中嵌入的代理,因此:

  • 没有定义良好的I / O通道;
  • 比环境小;
  • 能够对自己进行理性思考和自我完善;
  • 并且由类似于环境的零件制成。

您不应该将这四种复杂情况视为一个分割。他们彼此纠缠不清。

例如,代理能够自我改善的原因是因为它由部件制成。任何环境足以大于代理的时,它可能包含代理的其他副本,从而销毁任何明确定义的I / O通道。

嵌入代理子问题之间的一些关系

然而,我将利用这四个复杂问题来将嵌入式代理的主题拆分为四个子问题。这些都是:决策理论嵌入式世界模型强大的代表团, 和子系统亚博体育苹果app官方下载对齐

决策理论都是关于嵌入式优化。

二元优化的最简单模型是\(\ mathm{argmax}\)。\(\mathrm{argmax}\)接受一个从动作到奖励的函数,并返回在该函数下导致最高奖励的动作。大多数优化可以被认为是这方面的一些变体。你有一些空间;你有一个从这个空间到某些分数的函数,比如奖励或效用;你想要选择一个在这个函数下得分很高的输入。

但我们刚刚说过,作为一个嵌入式代理,很大程度上意味着你没有一个功能性的环境。现在我们该怎么做?优化显然是代理的一个重要组成部分,但即使在理论上,我们也不能说它是什么,否则就会犯主要的类型错误。

决策理论中一些主要的开放性问题包括:

  • 逻辑反应性:你是如何推理的如果你采取行动B,如果你可以的话证明你会转而采取行动A?
  • 包含多个的环境代理人副本,或值得信赖的代理人预测。
  • 逻辑updatelessness,这是如何结合非常好的但非常贝叶斯Wei Dai的世界updateless决策理论,具有较少的贝叶斯逻辑不确定性世界。

嵌入式世界模型是关于如何制定能够在远远小于世界的代理人内融合世界的良好模型。

这已经证明是非常困难的,因为这意味着真正的宇宙不是你的假设空间,这遗失了很多理论保证;其次,因为它意味着我们将不得不在学习时进行非贝叶斯更新,这毁了一堆理论上的保证。

它还是如何从内部观察者的角度来制作世界模型,并产生诸如人类学等问题。嵌入式世界型号中的一些主要开放问题包括:

  • 逻辑不确定性它是关于如何将逻辑世界和概率世界结合起来。
  • 多级模型这是关于如何在不同描述级别中拥有相同世界的多个模型,以及它们之间的有效转换。
  • 本体危机当您意识到您的模型,甚至您的目标,是使用与现实世界不同的本体来指定时,您应该做什么。

强大的代表团都是关于一种特殊类型的委托代理问题。你有一个初始代理,它想要创造一个更聪明的后继代理来帮助它优化其目标。初始代理拥有所有的权力,因为它可以决定后继代理究竟要做什么。但从另一个意义上说,后继代理拥有所有的权力,因为它要聪明得多。

从初始代理的角度来看,问题是如何创造一个不会使用智能对付你的继任者。从后继代理的角度来看,这个问题是关于“你如何稳健地学习或尊重一些愚蠢的、可操作的、甚至没有使用正确本体的东西的目标?”

还有一些额外的问题来自Lobian障碍让你不可能一直相信那些比你更强大的东西。

你可以把这些问题放在一个不断学习的主体的背景下,或者放在一个进行重大自我完善的主体的背景下,或者放在一个试图制造强大工具的主体的背景下。

在健壮授权中存在的主要问题包括:

  • Vingean反射,它是关于如何推理和信任那些比你聪明得多的代理人,尽管存在Löbian的信任障碍。
  • 值的学习,这就是继任者代理可以如何了解初始代理人的目标,尽管该代理人的愚蠢和不一致。
  • 可订正这本书讲的是,一个初始代理人如何能让后继代理人允许(甚至帮助)修改,尽管存在一种不允许修改的工具性动机。

子系统亚博体育苹果app官方下载对齐是关于如何成为一个统一的代理这没有子系统,这些子系统是与你或彼此反对的亚博体育苹果app官方下载。

当一个代理人有一个目标时,就像“拯救世界”一样,它可能最终花费大量的时间考虑了一个超级的亚古地,比如“赚钱”。如果代理人旋转仅尝试赚钱的子剂,现在有两个具有不同目标的代理商,这导致了冲突。子代理人可能会建议看起来像它们的计划只要赚钱,却为了赚更多的钱而毁灭世界。

问题是:你不需要担心你故意搞砸的子代理。你还得担心不小心搞砸了分探员。当您在能够包含代理的足够丰富的空间上执行搜索或优化时,您必须担心空间本身是否在进行优化。这个优化可能不完全符合外部系统试图做的优化,但它亚博体育苹果app官方下载将要有工具激励吗喜欢它的一致。

在实践中大量优化使用这种通过降压。你不只是找到解决方案;您找到能够自己搜索解决方案的东西。

理论上,我不明白如何做优化除了看起来像找到一堆我不明白的东西的方法,看到它是否完成了我的目标。但这恰好是那种东西最多容易发生旋转对抗性子系统。亚博体育苹果app官方下载

在子系统对齐方面的一个大的开放问题是关于如何拥有一个基亚博体育苹果app官方下载本级别的优化器,它不会旋转敌对的优化器。您可以进一步分解这个问题,考虑产生的优化器是有意的或者无意,并考虑有限的优化子类,就像就职

但请记住:决策理论、嵌入式世界模型、健壮的委托和子系统对齐并不是四个独立的问题。亚博体育苹果app官方下载它们都是同一个统一概念下的不同子问题嵌入式机构


这篇文章的第2部分将在几天后发布:决策理论


  1. 这是第1部分嵌入式代理系列,由Abram Demski和Scott Garrabrant。