利用机器学习解决人工智能风险——机器智能研究所亚博体育官网

在EA全球在2016年的会议上，我做了一个关于使用机器学习解决人工智能风险”:

未来的人工通用智能系统可能与当今的机器学习系统有许多共同的特性。亚博体育苹果app官方下载如果是这样，我们如何确保这些系统能够像预期的那样可靠地运行?亚博体育苹果app官方下载我们讨论了MIRI一个新项目的技术议程。

现在在线录制我的谈话：

这次演讲是对我们正在研究的技术问题的一个快速调查(针对一般观众)。对齐先进ML系统亚博体育苹果app官方下载“研亚博体育官网究议程。以下包含博客文章表单中的通话版本。¹

讨论大纲：

1.本研究议程的目标亚博体育官网

2.高能力人工智能系统的六个潜在问题亚博体育苹果app官方下载

2．1．行动是很难评估的
２．２．模糊测试的例子
2．3.难以模仿人类行为
２．４．难以指定关于现实世界的目标
2.5。负副作用
2.6。边缘情况仍然满足目标

3.一个问题的技术细节:归纳歧义识别

3．1．KWIK学习
3．2．这个问题的贝叶斯观点

4.其他议程

本研究议程的目标亚博体育官网

这个演讲是关于一个新的研究议程，目的是使用机器学习亚博体育官网使人工智能系统在非常高的能力水平上安全。亚博体育苹果app官方下载我将从总结研究议程的目标开始，然后深入讨论我们所关注的六个问题类。亚博体育官网

此技术议程的目标声明是，我们希望了解如何培训智慧而不是人类的AI系统，以执行一个或多个大规模，有用亚博体育苹果app官方下载任务在世界上。

本研究议程的一些假设是:亚博体育官网

未来的人工智能系统可亚博体育苹果app官方下载能在许多方面看起来更像当今人工智能系统的强大版本。例如，我们可能会得到更好的深度学习算法，但我们可能仍然严重依赖于深度学习之类的东西。²
人工通用智能(AGI)可能会在相对较短的时间内得到发展(比如在未来几十年)。^3.
建筑task-directed AGI通讯社是一个好主意，我们今天学习如何才能取得进步。

我不确定这三个假设是否都是正确的，但我认为它们足够可信，值得AI社区和其他可能性一样多的关注。

任务导向的人工智能系统是一个在世界上追亚博体育苹果app官方下载求半具体目标的系统，比如“建造一百万个房子”或“治愈癌症”。对于那些读过书的人超智，任务导向AI类似于精灵AI的理念。虽然这些任务有点模糊——你可能需要做很多工作来弄清楚建造一百万所房子到底意味着什么，或者什么才算好房子——但它们至少在某种程度上是具体的。

一个AGI系统的例子亚博体育苹果app官方下载不是任务导向型的目标是“学习人类的价值观，并做一些经过充分反思后人们认为好的事情”。这太抽象了，不能算作我们所说的“任务”;它不会直接变现。

我们希望，尽管任务导向人工智能追求的目标没有“学习人类价值观，做我们希望它做的事情”那么雄心勃勃，但它仍然是足够的防止全球性灾难性风险。一旦避免了眼前的风险，我们就可以在更少的时间压力下构建更有野心的人工智能系统。亚博体育苹果app官方下载

任务导向人工智能使用一些(适度的)人力协助来澄清目标，评估和实施其计划。像“治愈癌症”这样的目标是非常模糊的，人类将不得不做一些工作来澄清他们的意思，尽管大多数智力劳动应该来自人工智能系统，而不是人类。亚博体育苹果app官方下载

理想情况下，任务导向型AI也不应该有任何要求显著增加了计算资源比竞争系统。亚博体育苹果app官方下载构建安全系统与构建通用系统相比，不应该出现指数级减速。亚博体育苹果app官方下载

为了考虑这一整体目标，我们需要某种模型的这些未来的系统。亚博体育苹果app官方下载我采取的一般方法是看目前的系统并想象他们更强大。亚博体育苹果app官方下载很多时候，你可以看一下人们在ml中做的任务，你可以看到性能随着时间的推移而改善。我们将通过刚刚假设系统将继续在ML任务中实现更高的分数来建亚博体育苹果app官方下载模更高级的AI系统。然后，我们可以根据系统改进，以及我们今天可以在今天的工作中努力，以使这些失败不太可能或更低昂贵的故障模式。亚博体育苹果app官方下载

高能力人工智能系统的六个潜在问题亚博体育苹果app官方下载

问题1:行动很难评估

假设一个AI系统组成故事，人亚博体育苹果app官方下载类为系统提供了基于故事的好处的奖励。⁴

这类似于一些RL任务：代理人想要做一些导致它在未来获得高奖励的事情。RL的形式主义会说，这个RL代理的目标是写一个故事，即人们预计将获得高分。

然而，为了真正帮助我们接收高质量的故事，我们还需要知道人类足够理解RL代理的行为正确地管理奖励．这种假设似乎不太可能持有用于优于任何现今系统的目标的系统的系统。亚博体育苹果app官方下载例如：

一个亚博体育苹果app官方下载比人类聪明得多的系统可能能够操纵或强迫人类给一个糟糕的故事一个高分。
即使系统没有那么聪明，它亚博体育苹果app官方下载也可能诉诸于剽窃。剽窃的产生可能比检测容易，因为检测通常需要搜索大量的源文本。
Subhuman系统也亚博体育苹果app官方下载可能具有在故事中插入隐写术的优势;它可能需要多项式时间来嵌入秘密消息，以及检测这样的消息的指数时间。找到一种方法来阻止代理从而使封面行为如此，可以更轻松地监控这些动作的效果并使运营商保持在循环中。

我们有预防这种情况的一般方法吗?我们能否训练RL系统不仅输出一个动作(亚博体育苹果app官方下载例如，一个故事)，还输出一个有助于监督者更好地评估系统性能的报告?根据OpenAI研究员保罗·克里斯亚博体育官网蒂安诺的研究，我们称之为通知监督．⁵

问题2:不明确的测试例子

另一个问题是:考虑一个训练有素的分类器，它可以从不含猫的图像中区分猫的图像，或者训练它检测癌症。你可能有很多生活经验告诉你“野猫就是猫”。然而，如果训练集只包含家猫和狗的图像，那么在训练中就不可能推断出这一事实。

如果一个人工亚博体育苹果app官方下载智能系统在从特定数据集中分类图像方面具有超人的能力，那么它可能无法构建与人类相同的概括，这使得它在新环境中不可靠。

在安全关键设置中，理想情况下，我们希望分类器说，“这是模糊的，”以提醒我们，图像的标签是由训练集图像的标签欠确定。然后，我们可以利用分类器在分类方面的熟练程度，在系统相对容易对事物进行错误分类的情况下进行干预，还可以提供针对原始数据缺乏信息的维度量身定制的训练数据。亚博体育苹果app官方下载将这个目标正式化是归纳模糊检测．

问题3:难以模仿人类行为

我们可能想要解决比人类更聪明的人工智能的问题的一种方法就是让它模仿人类。通过让系统观察人类尝试执行某亚博体育苹果app官方下载些任务并让它学会类似的行为，我们可能能够利用AI系统的认知优势，同时让它基本上坚持相当正常的策略。

举个例子，我们可以考虑一个人工智能系统的任务是生成人类会画的那种图片。亚博体育苹果app官方下载你如何训练一个系统达到这个目标呢?亚博体育苹果app官方下载

一种方法是生成式对抗网络，即你拥有一个人类和两个AI代理:一个模仿者和一个区分者。⁶该区分器试图猜测给定的图片是否来自人类或来自模拟器，并且模拟器试图产生域中分类为来自人类的图像。

这是一个很酷的设置，但它提出了一些理论问题。我们可以问:“区分者一定要比模仿者更聪明吗?”如果是的话，还要聪明多少?”如果识别者不如模仿者聪明，那么模仿者就可以偷偷地对图像做一些非人类的事情，只要这些事情太微妙，识别者就不会注意到。这里的一个开放的研究途径是分析这样的亚博体育官网方案，并询问在什么条件下我们可以获得良好的稳健性保证。

有关此问题的更多信息，请参阅保罗·克里努诺的“行为由代理“ 和 ”模仿和中途会面”。

问题4：难以指明关于现实世界的目标

如果我们想训练我们的人工智能系统执行像做三明治这样的任务呢?亚博体育苹果app官方下载一种选择可能是将系统连接到一个堆满三明治配料的房间里的机器人上，亚博体育苹果app官方下载让它执行一个动作序列，然后让一个人类观察者根据机器人离制作三明治的距离来评估机器人的表现。这个等级决定了机器人的奖励。

我们之前指出的是，有足够的RL代理商可能会选择难以评估的行动。在这里，我们面临着额外的问题，即有用的任务通常需要在世界上采取体力行动。如果系统有足够亚博体育苹果app官方下载的功能，那么此设置会让它带走奖励按钮并将其自身按下。这就是RL的形式主义将告诉您是最好的行动，如果我们想象在RL框架远远超过当前能力水平的RL框架中继续培训的AI系统。亚博体育苹果app官方下载

那么，自然的问题是，我们是否可以培养AI系统，只要在改善能力时，就可以更好地在生产三明治时，而不会达到他们亚博体育苹果app官方下载对别人的激励。我们可以避免依靠我们关心的任务的代理，并只是培训系统以自己的权利完成任务的价值？亚博体育苹果app官方下载这是可概括的环境目标问题。

问题5:负面副作用

假设我们成功地制造了一个系统，它想在房间里放一个三明治。亚博体育苹果app官方下载在选择两种方案时，它会倾向于更有可能导致三明治的方案。也许走过去做个三明治的策略有99。9%的成功几率;但人类也有可能介入并关闭机器人。一项降低这种干预概率的政策，可能会把房间里最后有一个三明治的概率推高到99.9999%。通过这种方式，足够先进的ML系统可能会以干扰开发者和运营商的动机而结束，即使亚博体育苹果app官方下载没有奖励黑客的风险。

这是设计任务定向系统的问题，这些系统可以在实现任务方面变得超人擅长，而不会导致过程中的负面副作亚博体育苹果app官方下载用。

对这个问题的一个回应是试图量化总影响世界各国的政策各不相同。然后，我们可以为具有高影响的行动添加一个惩罚条款，导致系统倾向于低影响的策略。亚博体育苹果app官方下载

另一种方法是询问我们如何设计AI系统以满足于仅99.9％的成功机会 - 只需一旦发现一个阈值的会议，系统就亚博体育苹果app官方下载会试图思考卓越的政策。这是正式化的问题轻微的优化．

或者可以从。的角度来考虑先进的人工智能系统亚博体育苹果app官方下载收敛工具策略．无论系统如何尝试，它可能会通过拥有更多亚博体育苹果app官方下载的计算资源来利益，通过更多的程序员，通过更多的资金。一个三明治制造系统可能想要金钱，所以亚博体育苹果app官方下载它可以购买更多的成分，而故事写作系统可能想要金钱，所以它可以购买书籍来学习。许多不同的目标意味着类似的工具策略，其中许多可能会导致资源限制引入冲突。

一种方法是直接研究这些工具策略，并试图找到设计系统的方法亚博体育苹果app官方下载这没有表现出来．如果我们能识别出这些策略的共同特征，特别是对抗性策略的共同特征，那么我们就能主动避免采取这些策略的动机。这似乎很难，而且非常不明确，但有一些初步的研究指向这个方向。亚博体育官网

问题6:仍然满足目标的边缘情况

另一个可能随着ML系统变得更先进而变得更严重的问题是亚博体育苹果app官方下载边界情况．

考虑我们的三明治的普通概念。有很多关于三明治的技术算作，但不太可能具有相同的实用用途，三明治通常对我们来说。你可以拥有一个非常小或极大的三明治，或有毒的三明治。

对于当今系统中的这种行为的示例，我们可以考虑此图像，即图像分类器被正确归类为熊猫（具有57％的亚博体育苹果app官方下载置信度）。Goodfellow，Shlens和Szegedy发现他们可以为此图像添加一个微小的矢量，导致分类器将其拆分为长臂猿，置信99％。⁷

随着ML系统开始寻找比人类可能(甚至能够)考虑的更广泛的解决方案空间，这种边缘情况可能会变得更加常见和危险。亚博体育苹果app官方下载这是另一种情况，系统可能会越来越擅长在传统指标上最大化自己的分数亚博体育苹果app官方下载少可靠，以实现我们关心的现实目标。

保守概念是试图解决这个问题的最初想法，通过偏置系统来避免对靠近搜索空间边缘的示例分配正分类。亚博体育苹果app官方下载这个系统亚博体育苹果app官方下载可能会犯错误，认为一些非常好的三明治是不可接受的，但它不会犯更危险的错误，将有毒或其他奇怪的三明治归类为可接受的。

一个问题的技术细节:归纳歧义识别

我概述了八个研究方向，以解决随着ML系统亚博体育官网在优化其目标(这些目标可能不完全符合程序员的意图)方面变得更好时，可能会出现(或变得更严重)的六个问题。亚博体育苹果app官方下载研究方向亚博体育官网为:

通知监督，便于解释和评估ML系统的行为。亚博体育苹果app官方下载
归纳歧义识别，用于设计在培训数据信息不充分的情况下停止并向监督者检查的分类器。
强壮的人类模仿，用于重新承载ML系统中人类的安全有用特征。亚博体育苹果app官方下载
可概括的环境目标，防止RL代理商的工具激励措施抓住控制奖励信号。
影响措施，轻微的优化,避免工具性动机，以一种通用的方式防止超人类有效优化的负面影响。
保守概念，以避开边缘情况。

这些问题将在“对齐先进ML系统亚博体育苹果app官方下载我将在一个例子问题上进行更深入的技术探讨，以便更好地理解在实践中处理这些问题是什么样子的。

KWIK学习

让我们考虑归纳歧义识别问题，应用于2D点的分类器。在这种情况下，我们有4个正例和4个否定例子。

当一个新的点出现时，分类器可以尝试通过绘制一大堆与先前数据一致的模型来对其进行标记。这里我只画了4个。问号落在这些不同模型的对立面，这表明所有这些模型在给定数据的情况下都是可信的。

我们可以假设系统由此推断出训练数据对于新点的分类亚博体育苹果app官方下载是不明确的，并要求人类对其进行标记。然后，人类可能会给它贴上“加”的标签，系统就会得出关于哪些模型是可信的新结论。亚博体育苹果app官方下载

这种方法被称为“知其所知”学习，或KWIK学习。我们从输入空间开始X≔ℝⁿ并且假设从输入到概率存在一些真实映射。例如，对于每个图像，Cat分类器遇到我们假设集合中存在真正的答案Y≔[0,1]的问题，“这张图像是一只猫的概率是多少?”这个概率对应于人类将这幅图像标记为“1”而不是“0”的概率，我们可以用抛硬币的加权表示。模型将输入映射到答案，在本例中是概率。⁸

KWIK学习者要玩一个游戏。在游戏的开始，一些真实的模型h*被挑选出来。假设真实模型是在假设集中H．在每一次迭代我一些新的例子x_我∈ℝⁿ出现的原因。它有一个真实的答案y_我＝h* (x_我)，但学习者不确定正确答案。学习者有两个选择:

输出一个答案ŷ_我∈[0,1]。
- 如果|ŷ_我- - - - - -y_我| > ε，学习者就输掉了比赛。
输出⊥表示示例是模糊的。
- 学习者然后可以观察真正的标签z_我= flipcoin（y_我)Z≔{0,1}。

目标是不⊥⊥和不输出太多次。结果是，在假设类中获胜的概率很高H是一个小有限集或低维线性类。这很酷。事实证明有一些不确定的形式我们可以解决歧义。

它的工作方式是，对于每个新的输入，我们考虑多个模型h这在过去做得很好，如果模型不一致，我们会认为有些东西“模棱两可”h（x_我）超过ε。然后我们随着时间的推移，我们刚改解了一组模型。

KWIK学习者表示归纳歧义的方式是:歧义是指不知道哪个模型是正确的。有一些模型，很多都是可信的，你不确定哪个是正确的模型。

这有一些问题。其中一个主要问题是kwik学习的可实现性假设 - 假设真实模型h*实际上是在假设集中H．实际上，实际宇宙不会在你的假设课程中，因为你的假设需要适应你的头部。另一个问题是此方法仅适用于这些非常简单的模型类。

这个问题的贝叶斯观点

这是一些关于归纳歧义识别的现有研究。我们在MIRI做的与此相关的工作是什么?

最近，我一直试图从贝叶斯的角度来解决这个问题。在这个观点中，我们有某种先验问过度映射X→{0,1}从输入空间到标签。我们的假设是，我们的先验在某种程度上是错误的，存在一些未知的"正确"先验P这些映射。目标是即使系统只能访问亚博体育苹果app官方下载问，它应该几乎同时执行分类任务（在期望P)，好像它已经知道了似的P．

这个任务似乎很艰巨。如果从现实世界中取样P,P和你之前的不同吗问，没有那么多的保证。为了便于理解，我们可以添加一些真理假设:

$$ forall f: Q(f) \geq \frac{1}{k} P(f) $$

这是说如果P赋予一个高概率的东西，那么它也是问．在这种假设下，我们能否在各种分类任务中获得良好的性能?

我们还没有完成这一研究途径，但初步结果表明，至少在某亚博体育官网些情况下(例如在线监督学习)，在这项任务上做得很好，同时避免灾难性行为是可能的。这在某种程度上是有希望的，这绝对是未来研究的一个领域。亚博体育官网

如果你不确定什么是正确的，那么就有各种方法来描述这种不确定性。你可以试着把你的信念划分成不同的可能性。这在某种程度上是一种模棱两可，因为你不知道哪种可能性是正确的。我们可以把真理假设看作是有一种方法可以把概率分布分解成几个分量这样其中一个分量是正确的。系统应该亚博体育苹果app官方下载做得很好，即使它最初并不知道哪个组件是正确的。

(关于这个问题的最新研究，请参阅保罗·克里斯汀诺的“红色的团队“ 和 ”用灾难学习以及我和瑞安亚博体育官网·凯里的研究论坛结果偏见检测在线学习者“ 和 ”对抗强盗学习与灾难”)。

其他的研究议亚博体育官网程

让我们回到更广阔的视野，考虑其他关注人工智能长期安全性的研究议程。亚博体育官网MIRI在2014年的报告中概述了第一个此类议程代理基础报告。⁹

代理基金会的议程是关于发展对推理和决策更好的理论理解。我们当前理论中一个相关缺口的例子是关于数学陈述(包括关于计算机程序的陈述)的理想推理，在你没有时间或计算做一个完整证明的情况下。这是我们应对的基本问题逻辑归纳在这次演讲中，我主要讨论了与现代人工智能类似的高级人工智能系统所面临的问题;亚博体育苹果app官方下载相比之下，代理基金会的问题对于系统的细节是不可知的。亚博体育苹果app官方下载它们适用于ML系统，但也适用于其他亚博体育苹果app官方下载可能的框架，用于良好的通用推理。

然后有“人工智能安全的具体问题”议程。¹⁰这里的想法是研究AI安全问题，具有更实证的焦点，特别是寻找我们可以使用当前ML方法学习的问题，也许甚至可以在当前系统中或在不久的将来开发的系统中展示。亚博体育苹果app官方下载

例如，考虑以下问题:“如何使RL代理在探索环境和了解环境如何工作的同时安全运行?”这个问题一直出现在当前的系统中，而且在今天比较容易研究，但也可能适用于更有能力的系亚博体育苹果app官方下载统。

这些不同的议程代表不同的观点在一个如何使AI系统更可靠的尺度与能力的进步,我们希望通过鼓励从事各种不同的问题从不同的角度,我们不太可能完全忽略一个重要的考虑因素。亚博体育苹果app官方下载与此同时，当相对独立的方法都得出类似的结论时，我们可以获得更多的信心，认为我们正在正确的轨道上。

我领导的MIRI团队将专注于“先进ML系统的对齐”议程。亚博体育苹果app官方下载似乎还有很多空间让更多的人关注这些问题，我们希望雇佣一些新的研究人员，并启动一些合作来解决这些问题。亚博体育官网如果你对这些问题感兴趣，并且有扎实的数学或计算机科学背景，我绝对推荐你取得联系或者阅读更多关于这些问题的内容．

我也给了这个演讲的一个版本在MIRI/FHI关于健壮和有益的人工智能的研讨会上。↩
或者，您可能认为AGI在大多数方面看起来不像现代ML，但是ML方面在今天更容易有效地研究，而且不太可能在未来的开发中完全无关。↩
或者，你可能认为时间线很长，但我们应该关注时间线更短的场景，因为它们更紧急。↩
虽然我将在这里使用故事的例子，但在现实生活中，它可能是一个生成治疗癌症计划的系统，并由人类评估这些计划有多好。亚博体育苹果app官方下载↩
看到问答部分出于“谈判”的问题，“不会将报告视为与原始故事相同的问题？”↩
Ian J. Goodfellow等，《生成式对抗网》。:神经信息处理的进步27．编辑。由z. ghahramani等。Curran Associates，Inc.，2014，PP。2672-2680。URL：https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf．↩
Ian J. Goodfellow, Jonathon Shlens和Christian Szegedy。“解释和利用敌对的例子”。:(2014)。arXiv: 1412.6572(统计。毫升)．↩
KWIK学习框架比这更为一般;我只是给出一个例子。↩
Nate Soares和Benja Fallenstein。机器智能与人类利益相结合的代理基础:技术研究议程亚博体育官网．Tech.众议员2014 - 8。即将在2017年出版的《技术奇点:管理旅程》(The technology Singularity: Managing The Journey)中，Jim Miller, Roman Yampolskiy, Stuart J. Armstrong, and Vic Callaghan, Eds。加州伯克利，机器智能研究所，2014。亚博体育官网↩
Dario Amodei，Chris Olah，Jacob Steinhardt，Paul Christiano，John Schulman和DanMané。“AI安全中的具体问题”。在：（2016）。arXiv: 1606.06565 (cs。人工智能)．↩

你喜欢这篇文章吗？你可以享受我们的另一个yabo app ，视频的帖子,包括:

使用机器学习解决人工智能风险