一个新的MIRI研究项亚博体育官网目,专注于机器学习

||米里策略

我很高兴地宣布,MIRI将开始一项新的研究议程。”亚博体育官网先进机器学习系统的价值校准亚博体育苹果app官方下载“米里的一半队员——帕特里克-拉维奇瓦尔、安德鲁-克里奇和我——至少明年将花大部分时间在这个项目上。剩下的时间将花在我们既存的东西上亚博体育官网研究议程

总的来说,MI亚博体育官网RI的研究可以看作是对斯图尔特·拉塞尔(Stuart Russell)提出的人工智能研究问题的回应:如果我们成功了呢?“要设计出健壮可靠的高级人工智能系统,似乎有许多理论前提,我们的研究旨在尽早开发它们。亚博体育官网亚博体育苹果app官方下载

人工智能系统在一般推理能亚博体育官网力方面什么时候可能达到并超过人类,以及这种系统是否会类似于当今的机器学习亚博体育苹果app官方下载(ML)系统,我们的总体研究日程是不可知的。近年来在深度学习方面令人印象深刻的进展表明,相对简单的神经网络启发的方法可以非常强大和普遍。因此,我们正在对一个更具体的子问题进行初步调查:如果与ML中当今工作相似的技术成功创建AGI会怎样?”。

这些工作的大部分将旨在提高我们对task-directed人工智能.与尼克·博斯特罗姆(Nick Bostrom)所称的“主权AI”(试图以长期和大规模的方式优化世界)不同,任务AI仅限于执行有限范围的指示任务,满足但不能最大化。我们希望从ML的角度来研究任务AI将有助于提供关于任务AI的可行性以及在先进的有监督、无监督和强化学习系统上早期安全工作的可追溯性的信息。亚博体育苹果app官方下载

为此,我们将首先调查八个相关的技术问题:


1.归纳模糊检测。

我们如何为ML系统(如分类器)设计一个通用的方法来识别测试实例的分类何时被训练数据不足确定?亚博体育苹果app官方下载

例如:如果一个ambiguity-detecting分类器是为了区分图像的坦克从non-tanks图片,和训练集只包含图像的坦克在阴天和晴天non-tanks,这个分类器应该检测的分类图像的坦克在阳光灿烂的日子是模棱两可的,并对其操作符提出查询,以消除歧义,避免错误。

虽然过去和现在在主动学习和统计学习理论方面的工作在更广泛的范围内已经朝着这个目标取得了进展,但在现实世界系统在复杂环境中部署之前,还需要做更多的工作来建立对错误率和查询率的实际统计界限。亚博体育苹果app官方下载

2.通知监督。

我们如何训练一个强化型学习者输出一个行动和一个包含信息的“报告”,以帮助人类评估其行动?

例如:如果一个人试图训练强化学习者的输出原始故事,然后在评估的故事,人类将想知道一些信息关于这个故事(如是否抄袭了另一个故事),可能很难确定通过观察故事本身。

3.模拟人类的安全训练程序。

我们如何设计一个ML系统,模仿人类执行一些涉及丰富亚博体育苹果app官方下载输出(例如用自然语言回答问题)的任务,以最大限度地发挥ML系统的能力?

虽然已有模仿学习和生成模型的方法,但这些方法都存在一些理论缺陷,无法完全解决一般问题。特别地,一个基于人类行为训练的生成对抗模型只有一种动机去模仿对手能够察觉到的人类的各个方面;因此,类似于(2)中剽窃问题的问题可能会出现。

4.保守的概念。

我们如何设计一个系统,给出一个概念的一些正面亚博体育苹果app官方下载例子,可以综合这个概念的新实例,而不综合它的边缘情况?

例如:如果我们给系统关于100个人工制作的玉米煎饼的详细亚博体育苹果app官方下载信息作为训练数据,它应该制造更多的玉米煎饼,同时避免边缘情况,如非常小的玉米煎饼(即使这些仍然可以被认为是玉米煎饼)。

默认情况下,大多数目标函数会导致这种极端情况(比如,因为小卷饼的制造成本更低)。我们能否开发一种通用的技术来避免这个问题?

5.使用感官数据指定环境目标。

大多数ML系统的目标是根据感官数据来定义的亚博体育苹果app官方下载,比如随着时间的推移而降低的奖励。虽然这些感官目标可以作为环境目标的有用代理,但它们并不完全相同:欺骗你自己的传感器,让它感知房间里的草莓,并不等于你真的在房间里有一个草莓。我们该如何创建系统,让系统在其环境中直接亚博体育苹果app官方下载追求有用的目标,比如“让这个房间里有一个草莓”,以一种强大的方式,让系统有机会干扰我们用来指定目标的代理?

6.低强度代理。

我们更喜欢一个高度智能的面向任务的系统,以避免在追求目标的过程中产生我们意想不到的副作用,并通知我们实亚博体育苹果app官方下载现目标可能产生的任何重大影响。例如,如果我们要求它为一个无家可归的家庭建造一所房子,它应该隐含地知道,它应该避免为了获取材料而破坏附近的房屋——这是一个很大的副作用——同时仍然具有改善家庭社会经济状况的良好的后续效果。对于任何具体的任务我们可以指定特定的成本函数的副作用,如附近的房子破坏,但由于我们不能总是预先预测这些成本,我们希望定量了解如何一般限制AI的副作用(同时不限制其产生积极影响的能力)。

7.轻微的优化。

如果我们雇用的低影响标准(6)都有缺陷或缺失的一些关键的考虑,我们希望某种方式告诉我们的系统“不要着急”或“不要运动太多优化力量”,从直觉上,大影响更可能导致大的努力(尽管信件是不完美的)。亚博体育苹果app官方下载

能力较低的AI系统往往不太可能产亚博体育苹果app官方下载生巨大的意外副作用,我们希望知道如何以类似的方式让能力较高的系统变得安全,让它们使用较少的“努力”。满意的编码的“努力”的概念,我们可以计划一个系统绝对限制其总努力,或只使用尽可能多的努力才能实现其客观与合理的高概率,因此潜在的限制影响,我们没有管理(6)来衡亚博体育苹果app官方下载量。

8.避免仪器的压力。

我们该如何设计一个不追求确定性的系统亚博体育苹果app官方下载收敛的工具性目标- - -例如获得额外的资源- - -即使在追求这些目标的时候也会帮助它实现其主要目标?

特别是,我们可能希望建立一个系统亚博体育苹果app官方下载没有动力引起或防止其自身的关闭/暂停。这与(6)和(7)有关,因为像“确保我的继续运营”这样的工具压力可以激励大的影响/努力。但是,这是一个不同的议程项目,因为在第(6)项和第(7)项的解决办法生效之前,完全消除某些工具性激励措施是可能的。


在确定了这些感兴趣的议题之后,我们期望我们在这一议程上的工作是及时的。这个想法是"健壮的和有益的“由于机器学习领域的新一波突破,人工智能最近受到了越来越多的关注。这个项目中的理论工作与AI和ML的领先范式有更明显的联系,例如,我们最近在逻辑的不确定性或在博弈理论因此,在不久的将来,它更适合与AI/ML研究人员合作。亚博体育官网


感谢Eliezer Yudkowsky和Paul Christiano为这些研究方向提供了许多最初的想法,感谢Patrick LaVictoire、Andrew Critch和其他MIRI研究亚博体育官网人员帮助开发这些想法,感谢Chris Olah、Dario Amodei和Jacob Steinhardt提供有价值的讨论。