新论文:“朝向可协商强化学习”

||论文

面向可协商强化学习MIRI研亚博体育官网究员Andrew Critch在冲突解决理论中开发了一项新的结果,描述在“朝向可协商的强化学习:帕累托最优顺序决策中的转移优先级”。

抽象的:

现有的多目标强化学习(MORL)算法没有考虑到来自不同信念的玩家的目标。具体来说,考虑两个拥有不同信念和效用函数的玩家,他们可能会合作创造一个代表他们行动的机器。机器的政策在一段时间内会在多大程度上优先考虑每个玩家的利益。

假设参与人已经对他们的处境达成了共识,本文导出了一个任何Pareto最优策略都必须满足的递归。从递归中可以得到两个定性的观察结果:机器必须(1)使用每个玩家自己的信念来评估一个行动将如何服务于该玩家的效用函数,(2)随着时间的推移,通过一个与玩家信念预测机器输入的效果成比例的因素,将其分配给每个玩家的预期效用的相对优先级转移。观察(2)与naïve线性效用聚合(如Harsanyi的效用定理和现有的MORL算法)有很大的分歧,这里的结果表明,这对于代表不同信念的参与者的Pareto最优序列决策是不充分的。

If AI alignment is as difficult as it looks, then there are already strong reasons for different groups of developers to collaborate and to steer clear of race dynamics: the difference between a superintelligence aligned with one group’s values and a superintelligence aligned with another group’s values pales compared to the difference between any aligned superintelligence and a misaligned one. As Seth Baum of the Global Catastrophic Risk Institute notes在最近的一篇论文中

不幸的是,关于有益AI的现有消息并不总是符号。一个潜在的补充框架是强大的AI框架,作为强大的获胜者所有技术。在讨论不同的AI组可能比赛中是如何成为第一个构建强壮的AI的讨论中,该帧是隐含的(有时是显式的)。这个框架的问题在于它使得一个据说是危险的技术似乎是可取的。如果强壮的AI是赢家的所有技术比赛,那么AI团体将希望加入比赛并急于成为第一个获胜。这与强大的AI种族的讨论一般倡导 - 他们假设(相当合理地)抢劫竞争的争夺可能会强迫AI群体来削弱安全措施,从而提高危险结果的可能性。

那些关注这项技术的人不应该将强大的人工智能定义为胜者通吃的竞赛,而应该将其定义为一种危险和鲁莽的追求,很可能会杀死制造它的人。AI团体可能会对那些创造出强大AI的人所获得的权力有所渴望,但他们也可能希望在这个过程中不被杀死。

亚博体育官网因此,研究人员对抑制军备竞赛机制的讨论不应被解读为暗示自我挫败的军备竞赛是理性的。然而,根据经验,开发人员对对齐的难度有各种各样的看法。正式解决政策分歧的机制可能有助于为合作和协作创造更明显的激励;因此,开发一种正式的机制,让先进的AI系统可以用来生成各方更喜欢的政策,而不是各方的目标(和信念)之间的简单妥协,以及各方更喜欢的政策,而不是赛车,或许是有价亚博体育苹果app官方下载值的。

Critch的递归关系提供了一个框架,在这个框架中,玩家可以协商共同拥有的AI系统的优先级,从而产生一个比文献中已知的naïve线性效用聚合方法更有吸引力的策略。亚博体育苹果app官方下载结果的数学简便性表明,在这一领域可能还有其他容易实现的目标,可以增加并进一步说明合作的价值。Critch确定了未来工作的六个领域(在论文中有更详细的介绍):

  1. 最佳替代 - 谈判协议优势。Critch的结果考虑了具有不同信念的代理人之间的谈判,但没有考虑到各方可能有不同的batna的可能性。
  2. 针对特定的期望对。一种修改玩家效用函数的方法将有助于指定各种公平性或鲁棒性标准,包括BATNA优势。
  3. 信息交易。克里的算法对任何贡献者提供了很大的优势,这些贡献者能够更好地从其输出中预测AI系统的输入。亚博体育苹果app官方下载在现实的环境中,玩家缺乏彼此的前瞻和观察的常识,因此可以让代理人能够对系统进行一定程度的控制来造影代理人。亚博体育苹果app官方下载但目前尚不清楚如何在实践中进行此类交易。
  4. 学习先验和效用函数。现实的比人类更智能的人工智能系统将需要随着时间的推移学习它们的效亚博体育苹果app官方下载用功能,例如,通过合作反强化学习.现实的谈判程序需要考虑到开发人员的目标不完全已知并且AI系统的目标是“正在进行的工作”。亚博体育苹果app官方下载
  5. 激励相容。用于学习玩家信念和效用函数的方法还需要激励人们诚实地表达自己的信念和目标,否则它们就需要能够有效地抵制企图玩弄系统的行为。亚博体育苹果app官方下载
  6. 归化决策理论。这个结果中使用的设置假设了机器(和玩家)的内部工作和外部现实之间的分离,而不是将其建模为其环境的一部分。更现实的正式框架将让我们能够更好地模拟玩家之间的表现,从而创造出全新的谈判的可能性1

注册以获得最新的MIRI技术结果

每发表一篇新的技术论文,就会得到通知。


  1. 感谢Matthew Graves,Andrew Critch,以及Jessica Taylor为帮助草拟这篇文章。