新论文:“从学会的优化中产生的风险”

||论文

高级机器学习系统中学习型优化的风险亚博体育苹果app官方下载Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant发表了一篇新论文在先进的机器学习系统中学习优化的风险亚博体育苹果app官方下载.”

论文的摘要:

当一个已学习的模型(例如神经网络)本身就是一个优化器时,我们将分析学习型优化的类型mesa-optimization,这是我们在本文中引入的一个新词。

我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。亚博体育苹果app官方下载首先,在什么情况下学习的模型会成为优化器,包括在什么情况下它们不应该成为优化器?第二,当一个学习过的模型是一个优化器时,它的目标是什么——它将如何不同于它所接受的损失函数,以及它如何对齐?在本文中,我们对这两个主要问题进行了深入的分析,并对未来研究的主题进行了概述。亚博体育官网

本文所呈现的关键区别在于AI系统的优化目标(它的亚博体育苹果app官方下载基地的目标以及它最终优化的目标是什么mesa-objective),如果它有任何优化。作者感兴趣的是,ML模型什么时候会最终为某物进行优化,以及ML模型最终为某物进行优化的目标如何与它被选择去实现的目标进行比较。

系统被选择去实现的目标和系统真正优化的目标之间的区别并不是什么新鲜事。亚博体育苹果app官方下载Eliezer Yudkowsky在之前的讨论中也提出了类似的担忧优化守护进程, Paul Christiano在“失败是什么样的.”

这篇论文的内容也在本周陆续发布AI对齐论坛通过确认,LessWrong.正如作者在文章中所指出的:

我们认为,这一顺序是迄今为止对这些问题进行的最彻底的分析。特别是,我们计划不仅介绍有关台面优化器的基本问题,而且还分析AI系统的特定方面,我们认为这些方面可能会使台面优化相关的问题相对容易或更难解决。亚博体育苹果app官方下载通过提供一个框架来理解不同的人工智能系统可能对不对齐台面优化的鲁棒程度,我们希望开始一场关于构建机器学习系统来解决这些问题的最佳方法的讨论。亚博体育苹果app官方下载

此外,在第四篇文章中,我们将提供迄今为止我们认为最详细的问题分析欺骗性的对齐我们认为,这可能是目前使用类似现代机器学习的技术来生产安全的先进机器学习系统的最大障碍之一,尽管不一定是不可逾越的。亚博体育苹果app官方下载

注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。