2018年亚博体育官网研究计划和预测

||Miri战略

12月23日更新:这篇文章被编辑,以反映斯科特的术语从“入籍世界模型”变为“嵌入式世界型号。“有关这四个研究问题的完整介绍,请参阅Scott Garrabrant和Abr亚博体育官网am Demski的“嵌入式机构。“


Scott Garrabrant正在接管Nate Soares的工作,让我们在今年不同研究领域所取得多少进展。亚博体育官网斯科特将Miri的对齐研究分为五类:亚博体育官网


嵌入式世界型号- 与缺乏尖锐代理/环境边界的大型复杂物理环境建模相关的问题。该类别问题的中央示例包括逻辑不确定性,归化诱导,多级世界模型和本体危机。

介绍资源:“正式化现实世界模型的两个问题,“”逻辑不确定性下推理问题,“”逻辑归纳,“”反光奥克斯

最近的工作示例:“高级布鲁瓦尔,“”一个无法控制的数学家,“”贝叶斯版的逻辑不确定性的进一步进展


决策理论- 与建模不同(实际和反事实)决策输出的后果相关的问题,以便决策者可以选择具有最佳后果的输出。中央问题包括反事实,更新,协调,敲诈勒索和反思稳定性。

介绍资源:“在大马士革欺骗死亡,“”决定是为了使不良成果不一致,“功能决策理论

最近的工作示例:合作魔术师,“”吸烟病变钢铁管理员“(12),“快乐的舞蹈问题,“”反射令人反光的oracelles作为交谈制定问题的解决方案


强大的代表团- 与建立高度有能力的代理有关的问题,这些代理商可以信任地代表一个人执行一些任务。中央问题包括浮现,价值学习,知情监督和上升反射。

介绍资源:价值学习问题,“”易燃,“”完全更新的尊重问题,“”视频反思,“”使用机器学习来解决AI风险

最近的工作示例:“对古德哈特法的分类变体,“”稳定的指针值


子系统亚博体育苹果app官方下载对齐- 与确保AI系统的子系统没有以交叉目的工作的问题,特别是系统避免创建用于针对意外目亚博体育苹果app官方下载标的内部子处理。中央问题包括良性诱导。

介绍资源:普遍先前实际上是什么样的?“,”优化守护进程,“”建模遥远的超明

最近的工作示例:使感应良性的一些问题


其他- 对准研究不会陷入上述亚博体育官网类别。如果我们在中描述的打开问题上取得进展高级ML系统对齐亚博体育苹果app官方下载,“并且进度较少与我们的联系代理基金会工作和更多的ML导向,那么我们可能会在这里分类。


现在被分类为“逻辑不确定性”和“归化归纳”的问题现在被称为“嵌入世界模型”;我们在三个其他类别中努力的大多数问题(“Vingean反思”,“错误容忍”和“价值学习”)在“强大的代表团”下组合在一起;我们已经推出了两个新的类别,“子系统对齐”和“其他”。亚博体育苹果app官方下载

斯科特对2018年2月至2018年12月的预测。1表示“有限”进展,2“弱到谦虚”的进步,3“适度”,4“适度至强”,5“相同”。为了帮助上下文化斯科特的号码,我们还翻译了Nate的2015-2017预测(以及Nate和斯科特对这些年来对我们的进度)进入新的命名。


嵌入式世界型号

  • 2015年进展情况:5。 - 预测:3。
  • 2016年进展情况:5。 - 预测:5。
  • 2017年进展情况:2。 - 预测:2。
  • 2018年进度预测:3.(谦虚)。

决策理论

  • 2015年进展情况:3。 - 预测:3。
  • 2016年进展情况:3。 - 预测:3。
  • 2017年进展情况:3。 - 预测:3。
  • 2018年进度预测:3.(谦虚)。

强大的代表团

  • 2015年进展情况:3。 - 预测:3。
  • 2016年进展情况:4。 - 预测:3。
  • 2017年进展情况:4。 - 预测:1。
  • 2018年进度预测:2(弱到谦虚)。

子系统亚博体育苹果app官方下载对齐新类别):

  • 2018年进度预测:2(弱到谦虚)。

其他新类别):

  • 2018年进度预测:2(弱到谦虚)。

这些预测是非常不确定的,但应该给出我们计划在到来的一年中分配研究人员注意的粗略感,以及我们追求当前途径的乐观程度。亚博体育官网

请注意,我们使用的新箱子可能会给我们的预测准确性发出错误的印象。例如,我们没有期望在2016年对Vingean反射进展,而我们确实期望价值学习和误差的重大进展。发生相反的是,应该算作多重预测失败。Because the failures were in opposite directions, however, and because we’re now grouping most of Vingean reflection, value learning, and error tolerance under a single category (“robust delegation”), our 2016 predictions look more accurate in the above breakdown than they actually were.

使用我们以前的类别,我们对2015-2018的期望和评估将是:


逻辑不确定性+归化诱导 决策理论 视频反思 容忍误差 价值规范
进度2015-2017 5,5,2 3,3,3 3,4,4 1,1,2 1,2,1
预期2015-2018 3,5,2,3. 3,3,3,3. 3,1,1,2 3,3,1,2 1,3,1,1

通常,这些预测基于评估给定年份最重要结果的重要性 - 一个大结果将产生比许多小结果更高的数量。评级和预测考虑到我们尚未写入的研究,尽管他们排除了我们不希望在不久的将来公开的研究。亚博体育官网