在先进的ML系统中学习优化的风险亚博体育苹果app官方下载

Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant

文摘:

我们分析了当一个学习模型(如神经网络)本身是一个优化器时所发生的学习优化类型——我们称之为这种情况mesa-optimization．我们认为，台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。亚博体育苹果app官方下载首先，在什么情况下学习到的模型会成为优化器，包括它们不应该成为优化器的时候?第二，当一个学习到的模型是一个优化器时，它的目标是什么——它与训练出来的损失函数有什么不同?它如何调整?在本文中，我们对这两个主要问题进行了深入的分析，并为未来的研究提供了一个主题的概述。亚博体育官网

术语表

第一节术语表:

基础优化器:一个基础优化器是一个优化器，通过搜索算法根据一些目标。
- 基地的目标:一个基地的目标是基础优化器的目标。
行为目标:行为目标是什么优化器似乎是优化的。从形式上讲，行为目标是从完美的反向强化学习中恢复过来的。
内在的一致性:内部一致性问题是一个先进的ML系统的基座和台面目标对齐的问题。亚博体育苹果app官方下载
学习算法基础优化器正在搜索的算法被调用学习算法．
Mesa-optimizer:一个mesa-optimizer是一种学习算法，它本身就是一个优化器。

Mesa-objective:一个mesa-objective是一个台面优化器的目标。

Meta-optimizer:一个meta-optimizer是一个系统亚博体育苹果app官方下载，其任务是生产一个基础优化器。
优化器:一个优化器是一个系统亚博体育苹果app官方下载，它通过内部搜索一些可能的产出、政策、计划、策略等空间，寻找那些根据内部代表的目标函数做得很好的。
外部校准:外部校准的问题是将一个先进的ML系统的基本目标与程序员的期望目标对齐的问题。亚博体育苹果app官方下载
Pseudo-alignment:一个台面优化器是pseudo-aligned如果基本目标与训练数据一致，但不是稳健地一致，则与基本目标一致。
健壮的对齐:一个台面优化器是强劲对齐对于基本目标，如果它稳健地优化了跨分布的基本目标。

第二节术语表:

算法的范围:算法的范围在机器学习系统中，指的是能够被发现作为基础优亚博体育苹果app官方下载化器的算法集有多广泛。
局部优化过程:一个局部优化过程是一个使用局部爬山作为搜索手段的优化器。
可达性:可达性学习算法的困难是指基础优化器找到学习算法的困难。

第三节术语表:

近似对齐:一个大约一致台面优化器是一种伪对齐的台面优化器，其中，由于难以在台面优化器中表示基本目标，在一定程度的近似误差下，基本目标和台面目标近似相同。
代理对齐:一个代理对齐台面优化器是一个伪对齐的台面优化器，它已经学会了优化一些基本目标的代理，而不是基本目标本身。

仪器校准：仪器校准是一种代理对齐的类型，其中台面优化器优化代理作为一个工具目标，以增加训练分布中的台面目标。
副作用对齐：副作用对齐是一种代理对齐的类型，其中对台面目标的优化具有增加训练分布中的基本目标的直接因果结果。

次优性对齐:一个次优性一致台面优化器是一个伪对齐的台面优化器，其中一些缺陷、错误或限制导致它表现出对齐的行为。

第四节术语表:

可改正的对齐:一个矫正的对齐台面优化器是一个稳健对齐的台面优化器，它有一个“指向”其基本目标的认知模型的台面目标。
欺骗性的对齐:一个看似对齐Mesa-optimizer是一个伪对齐的Mesa-optimizer，它有足够的基本目标的信息，从基本优化器的角度看起来比实际上更适合。
内部校准:一个内部一致的台面优化器是一个稳健对齐的台面优化器，已内在化的基本目标在其台面目标。

参考书目

丹尼尔Filan。瓶盖不是优化器,2018年。
Gregory Farquhar, Tim Rocktäschel, Maximilian Igl, Shimon Whiteson。TreeQN和ATreeC:用于深度强化学习的可微分树结构模型。ICLR 2018,2018年。
Aravind Srinivas, Allan Jabri, Pieter Abbeel, Sergey Levine和Chelsea Finn。通用计划网络。ICML 2018,2018年。
Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W. Hoffman, David Pfau, Tom Schaul, Brendan Shillingford和Nando de Freitas。用梯度下降法学习用梯度下降法学习。少量的酒2016,2016年。
段岩，John Schulman, Chen Xi, Peter L. Bartlett, Ilya Sutskever和Pieter Abbeel。RL²:通过慢速强化学习来快速强化学习。arXiv,2016年。
以利以谢Yudkowsky。优化守护进程。
乔母婴感染。meta的反义词是什么?ANLP Acuity Vol. 2．
简·莱克，大卫·克鲁格，汤姆·埃弗里特，米尔扬·马丁，维萨·梅尼和谢恩·莱格。基于奖励模型的可扩展代理对齐:一个研究方向。亚博体育官网arXiv,2018年。
以利以谢Yudkowsky。测量优化能力, 2008年。
David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan，和Demis Hassabis。一种通用的强化学习算法，它精通国际象棋，shogi，并进行自我游戏。科学362(6419): 1140 - 1144年,2018年。
k·e·德雷克斯勒。重塑超级智能:将综合人工智能服务作为一般智能。技术报告#2019-1，人类未来研究所，牛津大学, 2019年。
Ramana Kumar和Scott Garrabrant。关于人体模型的思考。美里, 2019年。
保罗global。普遍先验实际上是什么样子的?,2016年。
亚历克斯·格雷夫斯，格雷格·韦恩，伊沃·丹尼尔卡。神经图灵机。arXiv,2014年。
Guillermo Valle-Pérez, Chico Q. Camargo和Ard A. Louis。由于参数-函数映射偏向于简单函数，因此深度学习具有通用性。ICLR 2019, 2019年。
保罗global。开放问题:最小电路是无守护进程的吗?,2018年。
Chris van Merwijk。作为委托代理问题的人工智能代理的发展，即将于2019年。
博尔哈·伊巴兹，简·莱克，托拜厄斯·珀伦，杰弗里·欧文，肖恩·莱格和达里奥·Amodei。从人类偏好和Atari演示中学习奖励。NeurIPS 2018,2018年。
苏佳伟，丹尼洛·瓦斯孔塞洛斯·瓦加斯，樱井口一。骗过深层神经网络的像素攻击。IEEE进化计算汇刊,2017年。
Kareem Amin和Satinder Singh。旨在解决逆向强化学习中的不可辨识性问题。arXiv,2016年。
Razvan Pascanu, Yujia Li, Oriol Vinyals, Nicolas Heess, Lars Buesing, Sebastien Racanière, David Reichert, Théophane Weber, Daan Wierstra，和Peter Battaglia。从零开始学习基于模型的规划。arXiv,2017年。
大卫·曼海姆和斯科特·加拉布兰特。古德哈特定律变体的分类。arXiv,2018年。
尼克·博斯特罗姆。超级智能:路径，危险，策略。牛津大学出版社，2014。
保罗global。失败是什么样的?, 2019年。
内特·苏亚雷斯，本雅·法伦斯坦，埃利泽·尤多科夫斯基，斯图尔特·阿姆斯特朗。可订正。AAAI 2015,2015年
保罗global。最坏的担保, 2019年。
Robert J. Aumann, Sergiu Hart，和Motty Perry。心不在焉的司机。．游戏与经济行为1997年,20:102 - 116。
Jane X Wang、Zeb Kurth-Nelson、Dhruva Tirumala、Hubert Soyer、Joel Z Leibo、Remi Munos、Charles Blundell、Dharshan Kumaran和Matt Botvinick。学习以强化学习。认知科学,2016年
达里奥·阿莫代、克里斯·奥拉、雅各布·斯坦哈特、保罗·克里斯滕诺、约翰·舒尔曼和丹Mané。人工智能安全的具体问题。arXiv,2016年。
斯图尔特·阿姆斯特朗和Sören Mindermann。奥卡姆的剃刀理论不足以推断非理性行动者的偏好。NeurIPS 2018,2017年。
黄晓伟，Marta Kwiatkowska，王森，吴敏。深度神经网络的安全性验证。骑兵2017,2016年。
盖伊·卡茨，克拉克·巴雷特，大卫·迪尔，凯尔·朱利安，米克尔·科肯德弗。reuplex:一种用于验证深度神经网络的高效SMT求解器。骑兵2017,2017年。
裴可欣，曹银芝，杨俊峰，苏曼嘉娜。面向机器学习的实践验证:以计算机视觉系统为例。亚博体育苹果app官方下载arXiv,2017年。
保罗·克里斯蒂亚诺，巴克·施莱格里斯和达里奥·阿莫代。通过放大弱的专家来监督强的学习者。arXiv,2018年。
Geoffrey Irving, Paul Christiano和Dario Amodei。人工智能安全通过辩论。arXiv,2018年。

在先进的ML系统中学习优化的风险亚博体育苹果app官方下载

术语表

参考书目

搜索

浏览

订阅