2018年亚博体育官网研究计划与预测

12月23日更新：这篇文章被编辑，以反映斯科特的术语从“入籍世界模型”变为“嵌入式世界型号。“有关这四个研究问题的完整介绍，请参阅Scott Garrabrant和Abr亚博体育官网am Demski的“嵌入式机构。“

Scott Garrabrant正在接管Nate Soares的工作，让我们在今年不同研究领域所取得多少进展。亚博体育官网斯科特将Miri的对齐研究分为五类：亚博体育官网

嵌入式世界型号- 与缺乏尖锐代理/环境边界的大型复杂物理环境建模相关的问题。该类别问题的中央示例包括逻辑不确定性，归化诱导，多级世界模型和本体危机。

介绍资源：“正式化现实世界模型的两个问题，“”逻辑不确定性下推理问题，“”逻辑归纳，“”反光奥克斯“

最近的工作示例：“高级布鲁瓦尔，“”一个无法控制的数学家，“”贝叶斯版的逻辑不确定性的进一步进展“

决策理论- 与建模不同（实际和反事实）决策输出的后果相关的问题，以便决策者可以选择具有最佳后果的输出。中央问题包括反事实，更新，协调，敲诈勒索和反思稳定性。

介绍资源：“在大马士革欺骗死亡，“”决定是为了使不良成果不一致，““功能决策理论“

最近的工作示例：“合作魔术师，“”吸烟病变钢铁管理员“（1那2），“快乐的舞蹈问题，“”反射令人反光的oracelles作为交谈制定问题的解决方案“

强大的代表团- 与建立高度有能力的代理有关的问题，这些代理商可以信任地代表一个人执行一些任务。中央问题包括浮现，价值学习，知情监督和上升反射。

介绍资源：“价值学习问题，“”易燃，“”完全更新的尊重问题，“”视频反思，“”使用机器学习来解决AI风险“

最近的工作示例：“对古德哈特法的分类变体，“”稳定的指针值“

子系统亚博体育苹果app官方下载对齐- 与确保AI系统的子系统没有以交叉目的工作的问题，特别是系统避免创建用于针对意外目亚博体育苹果app官方下载标的内部子处理。中央问题包括良性诱导。

介绍资源：“普遍先前实际上是什么样的？“，”优化守护进程，“”建模遥远的超明“

最近的工作示例：“使感应良性的一些问题“

其他- 对准研究不会陷入上述亚博体育官网类别。如果我们在中描述的打开问题上取得进展“高级ML系统对齐亚博体育苹果app官方下载，“并且进度较少与我们的联系代理基金会工作和更多的ML导向，那么我们可能会在这里分类。

现在被分类为“逻辑不确定性”和“归化归纳”的问题现在被称为“嵌入世界模型”;我们在三个其他类别中努力的大多数问题（“Vingean反思”，“错误容忍”和“价值学习”）在“强大的代表团”下组合在一起;我们已经推出了两个新的类别，“子系统对齐”和“其他”。亚博体育苹果app官方下载

斯科特对2018年2月至2018年12月的预测。1表示“有限”进展，2“弱到谦虚”的进步，3“适度”，4“适度至强”，5“相同”。为了帮助上下文化斯科特的号码，我们还翻译了Nate的2015-2017预测（以及Nate和斯科特对这些年来对我们的进度）进入新的命名。

嵌入式世界型号：

2015年进展情况：5。 - 预测：3。

2016年进展情况：5。 - 预测：5。

2017年进展情况：2。 - 预测：2。

2018年进度预测：3.（谦虚）。

决策理论：

2015年进展情况：3。 - 预测：3。

2016年进展情况：3。 - 预测：3。

2017年进展情况：3。 - 预测：3。

2018年进度预测：3.（谦虚）。

强大的代表团：

2015年进展情况：3。 - 预测：3。

2016年进展情况：4。 - 预测：3。

2017年进展情况：4。 - 预测：1。

2018年进度预测：2（弱到谦虚）。

子系统亚博体育苹果app官方下载对齐（新类别）：

2018年进度预测：2（弱到谦虚）。

其他（新类别）：

2018年进度预测：2（弱到谦虚）。

这些预测是非常不确定的，但应该给出我们计划在到来的一年中分配研究人员注意的粗略感，以及我们追求当前途径的乐观程度。亚博体育官网

请注意，我们使用的新箱子可能会给我们的预测准确性发出错误的印象。例如，我们没有期望在2016年对Vingean反射进展，而我们确实期望价值学习和误差的重大进展。发生相反的是，应该算作多重预测失败。Because the failures were in opposite directions, however, and because we’re now grouping most of Vingean reflection, value learning, and error tolerance under a single category (“robust delegation”), our 2016 predictions look more accurate in the above breakdown than they actually were.

使用我们以前的类别，我们对2015-2018的期望和评估将是：

	逻辑不确定性+归化诱导	决策理论	视频反思	容忍误差	价值规范
进度2015-2017	5,5,2	3,3,3	3,4,4	1,1,2	1,2,1
预期2015-2018	3,5,2，3.	3,3,3，3.	3,1，1，2	3,3,1，2	1,3,1，1

通常，这些预测基于评估给定年份最重要结果的重要性 - 一个大结果将产生比许多小结果更高的数量。评级和预测考虑到我们尚未写入的研究，尽管他们排除了我们不希望在不久的将来公开的研究。亚博体育官网

2018年亚博体育官网研究计划和预测

搜索

浏览

订阅