12月23日更新:这篇文章被编辑,以反映斯科特的术语从“入籍世界模型”变为“嵌入式世界型号。“有关这四个研究问题的完整介绍,请参阅Scott Garrabrant和Abr亚博体育官网am Demski的“嵌入式机构。“
Scott Garrabrant正在接管Nate Soares的工作,让我们在今年不同研究领域所取得多少进展。亚博体育官网斯科特将Miri的对齐研究分为五类:亚博体育官网
嵌入式世界型号- 与缺乏尖锐代理/环境边界的大型复杂物理环境建模相关的问题。该类别问题的中央示例包括逻辑不确定性,归化诱导,多级世界模型和本体危机。
介绍资源:“正式化现实世界模型的两个问题,“”逻辑不确定性下推理问题,“”逻辑归纳,“”反光奥克斯“
最近的工作示例:“高级布鲁瓦尔,“”一个无法控制的数学家,“”贝叶斯版的逻辑不确定性的进一步进展“
决策理论- 与建模不同(实际和反事实)决策输出的后果相关的问题,以便决策者可以选择具有最佳后果的输出。中央问题包括反事实,更新,协调,敲诈勒索和反思稳定性。
介绍资源:“在大马士革欺骗死亡,“”决定是为了使不良成果不一致,““功能决策理论“
最近的工作示例:“合作魔术师,“”吸烟病变钢铁管理员“(1那2),“快乐的舞蹈问题,“”反射令人反光的oracelles作为交谈制定问题的解决方案“
强大的代表团- 与建立高度有能力的代理有关的问题,这些代理商可以信任地代表一个人执行一些任务。中央问题包括浮现,价值学习,知情监督和上升反射。
介绍资源:“价值学习问题,“”易燃,“”完全更新的尊重问题,“”视频反思,“”使用机器学习来解决AI风险“
最近的工作示例:“对古德哈特法的分类变体,“”稳定的指针值“
子系统亚博体育苹果app官方下载对齐- 与确保AI系统的子系统没有以交叉目的工作的问题,特别是系统避免创建用于针对意外目亚博体育苹果app官方下载标的内部子处理。中央问题包括良性诱导。
介绍资源:“普遍先前实际上是什么样的?“,”优化守护进程,“”建模遥远的超明“
最近的工作示例:“使感应良性的一些问题“
其他- 对准研究不会陷入上述亚博体育官网类别。如果我们在中描述的打开问题上取得进展“高级ML系统对齐亚博体育苹果app官方下载,“并且进度较少与我们的联系代理基金会工作和更多的ML导向,那么我们可能会在这里分类。
现在被分类为“逻辑不确定性”和“归化归纳”的问题现在被称为“嵌入世界模型”;我们在三个其他类别中努力的大多数问题(“Vingean反思”,“错误容忍”和“价值学习”)在“强大的代表团”下组合在一起;我们已经推出了两个新的类别,“子系统对齐”和“其他”。亚博体育苹果app官方下载
斯科特对2018年2月至2018年12月的预测。1表示“有限”进展,2“弱到谦虚”的进步,3“适度”,4“适度至强”,5“相同”。为了帮助上下文化斯科特的号码,我们还翻译了Nate的2015-2017预测(以及Nate和斯科特对这些年来对我们的进度)进入新的命名。
嵌入式世界型号:
- 2015年进展情况:5。 - 预测:3。
- 2016年进展情况:5。 - 预测:5。
- 2017年进展情况:2。 - 预测:2。
- 2018年进度预测:3.(谦虚)。
决策理论:
- 2015年进展情况:3。 - 预测:3。
- 2016年进展情况:3。 - 预测:3。
- 2017年进展情况:3。 - 预测:3。
- 2018年进度预测:3.(谦虚)。
强大的代表团:
- 2015年进展情况:3。 - 预测:3。
- 2016年进展情况:4。 - 预测:3。
- 2017年进展情况:4。 - 预测:1。
- 2018年进度预测:2(弱到谦虚)。
子系统亚博体育苹果app官方下载对齐(新类别):
- 2018年进度预测:2(弱到谦虚)。
其他(新类别):
- 2018年进度预测:2(弱到谦虚)。
这些预测是非常不确定的,但应该给出我们计划在到来的一年中分配研究人员注意的粗略感,以及我们追求当前途径的乐观程度。亚博体育官网
请注意,我们使用的新箱子可能会给我们的预测准确性发出错误的印象。例如,我们没有期望在2016年对Vingean反射进展,而我们确实期望价值学习和误差的重大进展。发生相反的是,应该算作多重预测失败。Because the failures were in opposite directions, however, and because we’re now grouping most of Vingean reflection, value learning, and error tolerance under a single category (“robust delegation”), our 2016 predictions look more accurate in the above breakdown than they actually were.
使用我们以前的类别,我们对2015-2018的期望和评估将是:
逻辑不确定性+归化诱导 | 决策理论 | 视频反思 | 容忍误差 | 价值规范 | |
---|---|---|---|---|---|
进度2015-2017 | 5,5,2 | 3,3,3 | 3,4,4 | 1,1,2 | 1,2,1 |
预期2015-2018 | 3,5,2,3. | 3,3,3,3. | 3,1,1,2 | 3,3,1,2 | 1,3,1,1 |
通常,这些预测基于评估给定年份最重要结果的重要性 - 一个大结果将产生比许多小结果更高的数量。评级和预测考虑到我们尚未写入的研究,尽管他们排除了我们不希望在不久的将来公开的研究。亚博体育官网