高级ML系统中学习优化的风险亚博体育苹果app官方下载

Evan Hubinger，Chris Van Merwijk，Vladimir Mikulik，Joar Skalse和Scott Garrabrant

抽象的：

我们分析学习型号（例如神经网络）本身是优化器的学习优化类型 - 我们所指的情况MESA优化。我们认为，MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。亚博体育苹果app官方下载首先，在什么情况下学习模型是优化的，包括当他们不应该？其次，当学习模型是优化器时，它的目标是什么 - 它将如何与损失函数不同，它在训练之下而且它如何对齐？在本文中，我们对这两个主要问题进行了深入的分析，并提供了未来研究的主题概述。亚博体育官网

词汇表

第1节词汇表：

基础优化器：一个基础优化器是根据一些目标通过算法搜索的优化器。
- 基础目标：一个基础目标是基础优化器的目标。
行为目标：这行为目标是优化器似乎是优化的。正式地，行为目标是从完美逆钢筋学习中恢复的目标。
内部对齐：这内部对齐问题是对齐先进ML系统的基础和台面的问题。亚博体育苹果app官方下载
学习算法：调用基本优化器正在搜索的算法学习算法。
Mesa优化器：一个Mesa优化器是一种学习算法，它本身就是优化器。

梅萨目标：一个梅萨目标是MESA优化器的目标。

元优化器：一个元优化器是一个任务亚博体育苹果app官方下载生成基础优化器的系统。
优化器：一个优化器是一个系统亚博体育苹果app官方下载，在内部搜索某些可能的输出，政策，计划，策略等。根据一些内部代表的客观函数寻找那些做得好的那些。
外部对齐：这外对准问题是将高级ML系统的基础目标对齐的问题是程序员所需目标。亚博体育苹果app官方下载
伪对齐：MESA优化器是伪对齐如果在训练数据上出现对齐但不稳健地对齐，则基本目标。
强大的对齐方式：MESA优化器是强大的对齐如果它稳健地优化了跨分布的基础目标，则基本目标。

第2节词汇表：

算法范围：这算法范围机器学习系统是指能够被发现的一组算法是基础优亚博体育苹果app官方下载化器的广泛。
本地优化过程：一个本地优化过程是一种优化器，它使用当地山地攀爬作为其搜索方式。
可达性：这可达性学习算法的难题是基础优化器找到该学习算法的难题。

第3节词汇表：

近似对齐：一个大致对齐Mesa-Optimizer是一个伪对齐的MESA优化器，因为难以表示MESA优化器中的基础目标的难度，基础和台面与近似相同程度的近似误差。
代理对齐方式：一个代理对齐Mesa-Optimizer是一个伪对齐的MESA优化器，它已经学会了优化基本目标的一些代理而不是基本目标本身。

仪器对齐：仪器对齐是一种代理对齐方式，其中MESA优化器优化了代理作为增加培训分布中的MESA目标的乐器目标。
副作用对齐：副作用对齐是一种代理对准，其中对于MESA目标优化具有增加训练分布中基本目标的直接因果关系。

次优对齐：一个次优化对齐Mesa-Optimizer是一个伪对齐的MESA优化器，其中一些缺陷，错误或限制导致它表现出对齐的行为。

第4节词汇表：

符合互可靠的协调：一个恰当地对齐Mesa-Optimizer是一个强大的对齐的MESA优化器，其具有MESA-目标“指向”其认识目标的认知模型。
欺骗对齐：一个愚蠢的对齐Mesa-Optimizer是一个伪空的MESA优化器，有关基本目标的信息，似乎更适合于基本优化器的视角，而不是其实际情况。
内部对齐方式：一个内部对齐Mesa-Optimizer是一个强大的对齐的MESA优化器，它在其MESA目标中内容了基础目标。

参考书目

Daniel Filan。瓶盖不是优化的，2018年。
Gregory Farquhar，TimRocktäschel，Maximilian IGL和Shimon Whiteson。Treeqn和Atreec：深度加强学习的可差异树木结构模型。ICLR 2018.，2018年。
Araavind Srinivas，Allan Jabri，Pieter Bebbeel，Sergey Levine和Chelsea Finn。通用规划网络。ICML 2018.，2018年。
Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，Tom Schaul，Brendan Shillingford和Nando de Freitas。学习通过梯度下降来学习学习。NIPS 2016.，2016年。
燕段，约翰舒曼，西辰，彼得L.巴特利特，Ilya Sutskever和Pieter BeBebeel。rl.²：通过缓慢的加强学习快速加固。阿克西夫，2016年。
Eliezer Yudkowsky。优化守护进程。
乔cheal。Meta的反对是什么？ANLP敏锐度卷。2。
Jan Leike，David Krueger，Tom Everitt，Miljan Martic，Vishal Maini和Shane Legg。可扩展的代理通过奖励建模对齐：研究方向。亚博体育官网阿克西夫，2018年。
Eliezer Yudkowsky。测量优化功率，2008年。
David Silver，Thomas Hubert，Julian Schrittwieser，Ioannis Antonoglou，Matthew Lai，Arthur Guez，Marc Lanctot，Laurent Sifre，Dharshan Kumaran，Thore Graepel，Timothy Lillicrap，Karen Simonyan和Demis Hassabis。一般加强学习算法，象棋，Shogi，通过自我播放。科学，362（6419）：2018年1140-1144,2018。
K. E. Drexler。重新稀释的超智线式：全面的AI服务作为一般意识形态。技术报告＃2019-1，人类研究所，牛津大学未来，2019年。
Ramana Kumar和Scott Garrabrant。对人类模型的思考。米里，2019年。
保罗基督教。普遍先前实际上是什么样的？，2016年。
Alex Graves，Greg Wayne和Ivo Danihelka。神经图灵机。阿克西夫，2014年。
Guillermo Valle-Pérez，奇科Q. Camargo，Ard A. Louis。深度学习概括，因为参数函数映射偏向于简单功能。ICLR 2019.，2019年。
保罗基督教。打开问题：是最小的电路守护进程吗？，2018年。
Chris Van Merwijk。发展AI代理作为委托 - 代理问题，2019年即将到来。
Borja ibarz，Jan Leike，Tobias Pohlen，Geoffrey Irving，Shane Legg和Dario Amodei。奖励从atari的人类偏好和示范中学习。Neurips 2018.，2018年。
嘉威苏，达尼洛瓦斯科洛洛斯瓦尔加斯和kouichi sakurai。欺骗深神经网络的一个像素攻击。进化计算的IEEE交易，2017年。
Kareem Amin和Satinder Singh。解决反增强学习中的不明度。阿克西夫，2016年。
razvan pascanu，yujia li，oriol vinyals，尼古拉斯·埃塞尔，拉斯，塞巴斯蒂安·瓦那雷，大卫Reichert，ThéophaneWeber，Daan Wierstra和Peter Battaglia。从头开始学习基于模型的计划。阿克西夫，2017年。
David Manheim和Scott Garrabrant。对古特哈尔法的典型变种。阿克西夫，2018年。
尼克博塞尔姆。超明：路径，危险，策略。牛津大学出版社，2014年。
保罗基督教。什么失败看起来像什么，2019年。
Nate Soares，Benja Fallenstein，Eliezer Yudkowsky和Stuart Armstrong。易燃。AAAI 2015.，2015年
保罗基督教。最糟糕的担保，2019年。
Robert J. Aumann，Sergiu Hart和Motty Perry。缺席的司机。。游戏和经济行为，20：102-116,1997。
Jane X Wang，Zeb Kurth-Nelson，Dhruva Tirumala，Hubert Soyer，Joel Zeelibo，Remi Mumos，Charles Blundell，Dharshan Kumaran和Matt Botvinick。学习加强学习。COGSCI.，2016年
Dario Amodei，Chris Olah，Jacob Steinhardt，Paul Christiano，John Schulman和DanMané。AI安全的具体问题。阿克西夫，2016年。
Stuart Armstrong和Sörenminermann。春天的剃刀不足以推断不合理代理的偏好。Neurips 2018.，2017年。
Xiaowei Huang，Marta Kwiatkowska，Sen Wang和Min Wu。深神经网络的安全验证。2017年，2016年。
Guy Katz，Clark Barrett，David Dill，Kyle Julian和Mykel Kochenderfer。Reluplex：一种高效的SMT求解器，用于验证深度神经网络。2017年，2017年。
科克辛佩，尹志曹，俊峰杨和苏丹詹娜。实际验证机器学习：计算机视觉系统的情况。亚博体育苹果app官方下载阿克西夫，2017年。
Paul Christiano，Buck Shlegeris和Dario Amodei。通过放大弱势专家监督强大的学习者。阿克西夫，2018年。
Geoffrey Irving，Paul Christiano和Dario Amodei。通过辩论安全。阿克西夫，2018年。

高级ML系统中学习优化的风险亚博体育苹果app官方下载

词汇表

参考书目

搜索

浏览

订阅