新论文:“古德哈特定律的变体分类”

||论文

古德哈特定律的变体分类古德哈特定律指出:“任何观察到的统计规律性,一旦出于控制目的而对其施加压力,就会趋于崩溃。”然而,这并不是一个单一的现象。在古德哈特分类法我提出,当你优化代理度量时,有(至少)4种不同的机制会打破它们:回归、极值、因果和对抗。

David Manheim现在帮助我撰写了一篇分类论文,更详细地阐述了这些机制:古德哈特定律变体的分类从结论中可以看出:

本文试图对一种简单的统计失调进行分类,这种失调既发生在用于优化的任何算法系统中,也发生在许多依赖于优化指标的人类系统中。亚博体育苹果app官方下载本文所强调的动态可能有助于解释政策设计、机器学习和AI对齐的具体问题中的许多感兴趣的情况。

在政策上,这些动态经常被遇到,但很少被清楚地讨论。在机器学习中,这些错误包括由于使用有限的数据和选择过度精简的模型而产生的极值古德哈特效应,由于对目标的短视考虑而产生的错误,以及忽略系统中的因果关系而产生的错误。亚博体育苹果app官方下载最后,在AI校准中,这些问题对于将系统对准目标以及确保系统参数在系统开始优化时不会产生不良影响都是至关重要的。亚博体育苹果app官方下载

V指的是真正的目标,而不是U指向被观察到要与之关联的目标的代理V它在某种程度上被优化了。那么古德哈特定律的四种子类型如下:


及古德哈特—选择代理度量时,不仅要选择真正的目标,还要选择代理和目标之间的差异。

  • 模型:当U等于V+X,在那里X是不是有一些噪音,有一点大U价值可能会有很大的V价值,也不小X价值。因此,当U很大,你能想象吗V可以预见的比U
  • 身高与篮球能力相关,而且确实直接起作用,但最好的球员只有6英尺3″,而一个20多岁的随机7英尺的人可能就没那么好了。

极值古德哈特-代理取一个极端值的世界可能与观察代理和目标之间的相关性的普通世界非常不同。

  • 模型例模式往往在简单的关节处断裂。世界的一个简单子集是U是非常大的。因此,两者之间具有很强的相关性UV自然发生的观察到的U价值观可能不会转移到U是非常大的。此外,由于可能有相对较少的自然发生的世界U非常大,非常大U可能与小相吻合V值而不破坏统计相关性。
  • 世界上最高的人是罗伯特·瓦德洛,他的身高是8英尺11英寸(2.72米)。他长到这么高是因为脑下垂体紊乱;他打篮球很困难,因为他“走路需要腿部支架,腿和脚几乎没有知觉”。

因果古德哈特—当代理和目标之间存在非因果关系时,对代理进行干预可能无法对目标进行干预。

  • 模型:如果V原因U(或者,如果VU两者都是由第三种东西引起的吗VU可以观察到。然而,当你干预增加U通过一些不涉及的机制V,你也将无法增加V
  • 例如:想要长高的人可能会注意到身高与篮球技能有关,于是决定开始练习篮球。

敌对的古德哈特当你优化一个代理时,你为对手提供了一个动机,使他们的目标与你的代理相关联,从而破坏了与你的目标的关联。

  • 模型:考虑代理一个带着不同的目标W.由于它们依赖于共同的资源,WV自然是反对。如果你优化U作为代理V,一个知道这一点,一个是否有赚钱的动机U值与大值一致W值,从而阻止它们与大V值。
  • 例子:有抱负的NBA球员可能会谎报身高。

有关此主题的更多信息,请参阅Eliezer Yudkowsky的文章,古德哈特的诅咒

注册以获得最新的MIRI技术结果

每发表一篇新的技术论文,就会得到通知。