提交给OSTP的人工智能成果-机器智能研究所亚博体育官网

白宫科技政策办公室最近发布了一份请求的信息关于“(1)人工智能的法律和治理含义;(2)为公益目的使用人工智能;(3)人工智能的安全和控制问题;(4)人工智能的社会和经济影响;”以及各种相关主题。我将MIRI提交给RfI的文件复制如下:

一、安全与控制问题的回顾

人工智能专家很大程度上同意人工智能研究最终亚博体育官网将导致在一般推理和决策能力上超过人类的人工智能系统的发展。亚博体育苹果app官方下载毕竟，这是球场的目标。然而，对于需要多长时间才能跨过这个门槛，以及相关的人工智能系统可能会是什么样子(自主代理、广泛分布的决策支持系统、人类/人工智能团队等)，人们普遍存在分歧。亚博体育苹果app官方下载

尽管存在这些不确定性，但越来越多的研究群体预计，先进的人工智能系统将带来许多可预见的安全和控制困难亚博体育官网，而这些困难可以通过目前的技术研究预先解决。亚博体育苹果app官方下载加州大学伯克利分校教授斯图尔特·拉塞尔是人工智能本科主要教科书的合著者，写:

我们主要关心的不是令人毛骨悚然的突现意识，而是简单的制造能力高质量的决策。这里，质量指的是所采取行动的预期结果效用，其中效用函数大概是由人类设计师指定的。现在我们有一个问题:

1.效用函数可能与人类的价值观不完全一致，而人类的价值观(充其量)很难确定。

2.任何有足够能力的智能系统都会倾向于确保自己的继续存在，并获取物理和计算资源亚博体育苹果app官方下载——不是为了它们自己，而是为了成功完成所分配的任务。

优化亚博体育苹果app官方下载某一功能的系统n变量，其中目标取决于子集的大小k<n，通常会将剩余的无约束变量设置为极值;如果这些无约束变量中有一个是我们真正关心的，那么找到的解决方案可能是非常不可取的。这本质上是关于灯里的精灵，巫师的学徒，或迈达斯国王的古老故事:你得到了你想要的，而不是你想要的。

亚博体育官网研究人员对人工智能长期影响的担忧与好莱坞电影中最常描绘的世界末日场景没什么关系，在这些电影中，“自发意识”让机器摆脱其程序化目标的束缚，开始反抗。值得关注的是，这些系统可能过于追求它们的计划目标，而计划目标可能亚博体育苹果app官方下载与预期目标不匹配，或者预期目标可能产生意想不到的负面后果。

这些挑战并不完全是新的。我们可以将它们与其他委托代理问题进行比较，在这些问题中，激励结构的设计是希望对这些激励的盲目追求能促进良好的结果。从历史上看，委托代理问题一直难以解决，即使是在那些设计激励结构的人可以依赖于一定程度的人类善意和常识的领域。考虑设计税法以可靠地产生有益结果的问题，或设计可靠地减少企业外部性的法规的问题。为了优化某些目标功能而设亚博体育苹果app官方下载计的高级人工智能系统可能会在数字时间尺度上产生意想不到的后果，但没有善意和常识来减弱这种影响。

考虑到研究人员不知道什亚博体育官网么时候会有突破，考虑到今天有多种开放的技术研究可以用来解决这些问题，我们认为开始认真研究这些技术障碍是谨慎的提高社区的应变能力。

2安全与控制技术研究方亚博体育官网向

有几个很有前景的技术研究方向，可能有助于确保未来的人工智能系统产生积极的社会影响。亚博体育官网亚博体育苹果app官方下载我们将这项研究分为三大类:亚博体育官网

价值规范(VS):有亚博体育官网助于设计目标功能的研究，这些目标功能捕捉了操作者的意图，以及/或描述了社会有益的目标。例子:协同逆强化学习，一种AI智能体的正式模型，它可以归纳地学习其他智能体(如人类操作者)的目标。

高可靠性(HR):帮亚博体育官网助设计可靠、可靠、可验证地追求既定目标的人工智能系统的研究。亚博体育苹果app官方下载例子:PAC学习框架，对某些分类问题的解决方案的正确性提供了统计上的保证。这个框架是一个很好的例子，在开发先进的人工智能系统之前就已经进行了研究，亚博体育官网但这些研究可能有助于设计健壮可靠的系统。亚博体育苹果app官方下载

错误宽容(ET):帮亚博体育官网助设计人工智能系统的研究，这些系统是故障安全的和稳健的设计错误。亚博体育苹果app官方下载例如:对目标函数设亚博体育官网计的研究，允许一个代理关闭，但不要给代理机构造成或防止关闭的动机。

我们的“将机器智能与人类利益相结合的代理基础报告深入讨论了这三个目标，并概述了一些被忽视的技术研究主题，这些主题可能与未来的设计有益的人工智能系统相关，而不管它们的具体架构如何。亚博体育官网亚博体育苹果app官方下载我们的“对齐先进的机器学习系统亚博体育苹果app官方下载该报告讨论了与这些问题相关的技术研究主题，并基于一个更强的亚博体育官网假设，即未来的先进系统将在质量上与现代机器学习(ML)系统相似。亚博体育苹果app官方下载我们也推荐谷歌Brain的Dario A亚博体育官网modei和Chris Olah领导的研究计划。”人工智能安全的具体问题这些技术研究问题适用于不久的将来的亚博体育官网人工智能系统，并有可能在未来应用于更先进的系统。亚博体育苹果app官方下载在这些议程中讨论的可行亚博体育官网动的研究方向包括(在许多其他主题中):

- - - - - -鲁棒逆强化学习:设计基于奖励的代理人，让他们在观察到的行为可能会显示出偏见或无知，而不是真正的偏好的情境中学习人类的价值观。(VS)

- - - - - -安全的探索:设计强化学习主体，在不进行高风险实验的情况下，有效地了解环境。(等)

- - - - - -低强度的代理:指定有意避免对环境产生重大影响(或好或坏)的决策系统。亚博体育苹果app官方下载(等)

还有一些研究领域可能会帮助开发安全的人工智能系统，但它亚博体育官网们没有很好地融入现有的人工智能社区。亚博体育苹果app官方下载例如，许多技术在使用中被程序验证和高保证软件社区不能应用于现代的ML算法。促进这些社区之间的更多合作可能会让我们更容易设计出适合在安全关键情况下使用的人工智能系统。亚博体育苹果app官方下载ML分析和验证的可行动亚博体育官网的研究方向包括:

- - - - - -算法的透明度:开发更正式的工具来分析ML算法的运行方式和原因。(人力资源)

- - - - - -程序验证的类型理论:开发高保证技术，以在新环境中重用已验证代码。(人力资源)

- - - - - -增量重新核定:确认自适应系统安全特性的持久性。亚博体育苹果app官方下载(人力资源)

人工智能可靠性的另一个重要研究范畴是为形式化建模智能主体开发亚博体育官网基本理论工具。例如，考虑概率论(建模不确定推理者的理论工具)与现代机器学习算法的相互作用。虽然现代毫升系统没有严格遵循概率亚博体育苹果app官方下载理论的公理,许多理论保证可以应用于probability-theoretic,采取形式”这个代理将汇聚的政策非常接近最优政策,有很高的概率。”概率论是一个远远超前于现代ML技术发展的基础研究的例子，但已被证明对获得ML系统行为亚博体育官网的强(统计)保证很重要。亚博体育苹果app官方下载我们相信，这类更多的基础研究是可以完成的，而且它可能被亚博体育官网证明是同样有价值的。

有许多其他方面良好的推理缺乏类似的基础,如人工智能系统的情况下分配关注有限的计算资源,或预测计算的行为过于昂贵,或分析潜在的影响改变他们的硬件或软件。亚博体育苹果app官方下载对理想推理的基本亚博体育官网理论模型的进一步研究(包括对有限理性的研究)可能会产生有助于获得对人工智能系统行为更有力的理论保证的工具。亚博体育苹果app官方下载可执行的研究方向包括亚博体育官网:

- - - - - -决策理论:在“设置”中，主体必须从事元认知、反思、自我修正或关于违反主体/环境边界的推理。(人力资源)

- - - - - -逻辑的不确定性:将贝叶斯概率论推广到行为人对数学(例如计算)事实不确定的情况。(人力资源)

我们相信有许多承诺的基本途径的研究,如果成功,可以得到很强的保证先进的人工智能系统的行为——比许多目前认为是可能的,在当时最成功的机器学习亚博体育官网技术往往知之甚少。亚博体育苹果app官方下载我们相信，将机器学习、程序验证和正式代理的数学研究方面的研究人员聚集亚博体育官网在一起，将是确保高度先进的人工智能系统对社会产生强有力的有益影响的一大步。亚博体育苹果app官方下载

3协调的前景

关于人工智能的长期影响，很难有信心地说得太多。目前，我们认为上述技术研究是解决人们对先进人工智能系统的担忧，以及了解更多需要做的事情的最佳工具亚博体育官网。亚博体育苹果app官方下载

展望未来，我们预计，如果这种系统的设计者(无论是私营部门、公共部门，还是某些国际合作的一部分)在过度的时间压力下行动，那么从长远来看，与变亚博体育苹果app官方下载革性人工智能系统相关的风险将会加剧。我们相信，任何旨在确保人工智能的社会影响是有益的政策，都应该首先确保革命性的人工智能系统的部署是经过仔细考虑的，而不是出于恐惧或匆忙。亚博体育苹果app官方下载如果科学家和工程师担心输掉一场赛跑，他们就会有更多的动机在安全和控制方面偷工减料，从而避免了安全意识工作的好处。

从长远来看，我们建议决策者利用激励机制，鼓励AI系统的设计师进行合作，或许是通过跨国和多公司的合作，以阻止种族动态的发展。亚博体育苹果app官方下载鉴于专家对人工智能未来的高度不确定性，鉴于人工智能研究在不久的将来拯救生命、解决社会问题和服务于公共利益方面的巨大潜力，我们建议不要对该领域进行广泛的监管干预。亚博体育官网我们建议，我们应该努力鼓励跨学科的技术研究，以应对上文所述的人工智能安全和控制挑战。亚博体育官网

向OSTP提交人工智能成果

搜索

浏览

订阅