对齐先进的人工智能与人类利益

MIRI的使命是确保比人类更聪明,智慧的创作有
产生积极的影响。我们的目标是让先进的智能系统,表现为亚博体育苹果app官方下载
我们打算即使没有直接的人类监督。

代理基础技术议程
(高可靠性焦点)

机器学习技术议程
(错误宽容焦点)

高可靠性
代理设计

这是什么道理最佳
看起来像在物理世界的资源约束代理商?

MIRI侧重于AI办法可以作出透明(例如,精确地指定决策算法,而不是遗传算法),让人类可以理解为什么AI系统的行为,因为他们做的。亚博体育苹果app官方下载为安全起见,一个数学公式定义一般智力比一个令人印象深刻,但不好理解的代码杂牌更可取。

因此,我们的许多研究的目亚博体育官网的是把理论基础下,AI的鲁棒性的工作。我们认为设置在传统决策和概率论频频打破:设置里计算是昂贵,没有尖锐代理/环境边界多个代理存在,或自我指涉的推理被录取。


逻辑归纳

在ePrint的的arXiv:1609.03543 [cs.AI]。

逻辑归纳

我们提出了一个可计算的算法,受让人概率每一个逻辑语句在给定的正式语言,提炼随着时间的推移这些概率。我们发现,它满足了一些直观的必要条件,其中包括:(1)它学习如何预测真理和谬误的逻辑语句的模式,长常具有资源评估报告之前,只要模式可以在写下来多项式时间;(2)它学会使用适当的统计汇总来预测语句其真值出现的伪随机序列;(3)就学会了有关于自己的当前的信念准确的信念,以避免自我参照标准悖论的方式。

这些属性和其他许多人从跟随逻辑归纳准则,这是由一系列股票交易类比的动机。粗略地说,每一个符合逻辑的句子φ与股票,是值得如果$ 1元股相关φ是真实的,没有什么,否则我们解释一个逻辑推理不确定性的信仰状态为一组的市场价格,其中Pñφ)= 50%意味着在一天ñ,股份φ可购买或从推理卖到50¢。逻辑感应标准说(很粗略的),不应该与随着时间的推移赚取利润无限在有限的市场风险承受任何多项式时间可计算的交易策略。


形式化解决问题的真理的谷物

不确定性人工智能:第三十二次会议记录(2016)

正式解决真理问题的谷物在多代理环境获悉作用,如果事先受让人正的概率他们(换句话说,事先包含预测其他代理的政策贝叶斯剂真理的粮食)。找到一个合理的大类的政策,包括对于贝叶斯最优的政策,这一类被称为真理问题的谷物。只有小班已知有一定道理的和文献中的几个相关不可能的结果。

在本文中,我们提出一个正式的和通用的解决方案,以真理问题的全粒面:我们构造一类的政策,包含了所有可计算的政策以及贝叶斯最优策略为每一个较低semicomputable之前在类。当环境是未知的,贝叶斯最佳代理商可能无法以最佳甚至渐近行为。然而,根据汤普森采样收敛剂,以任意未知可计算多代理环境中发挥ε-纳什均衡。虽然这些结果是纯理论,我们证明了自己可以任意进行密切近似计算。


功能定位理论:工具理性的新理论

在ePrint的的arXiv:1710.05060 [cs.AI]。

功能决定理论:工具理性的新理论本文介绍和激励新的决策理论被称为功能决定论(FDT),如从因果决策理论和证据决策理论不同。功能决定论者认为,采取行动的规范性原则是为回答这个问题一个固定的数学函数的输出,享受一个人的决定“此非常功能的输出会产生最好的结果?”秉承这一原则,提供了许多好处,包括在传统的决策理论和博弈论的问题,其中CDT和EDT表现不佳的阵列,以最大限度地发挥财富的能力。用一个简单的和一致的决策规则,决策功能理论家(例如)实现了比CDT在纽康的问题更实用,比EDT在吸烟损害问题更实用,比无论是在帕菲特的搭车问题更加实用。在本文中,我们定义了FDT,探索了许多不同的决策问题的药方,把它比作CDT和EDT,并给出了FDT哲学理由作为决策的规范性理论。


证明 - 生产性思考HOL

交互式定理证明:第六届国际会议,2015年ITP,南京,中国,2015年8月24-27日,诉讼

证明产生反射为HOL我们提出以下形式的反射原理“如果⌜⌝是可证明的,则”在HOL4定理证明实施,假设一个大基数的存在。我们使用大基数的假设来构建HOL内HOL的模型,并展示如何保证具有相同的含义这种模式的内部和外部。HOL的健全性意味着,如果⌜⌝是可证明的,那么它在这个模型是真实的,并因此成立。我们还表明,该反射原理如何能扩展,假定大基数的无限层次,实现模型多态性,技术设计用于自更换功能验证系统。亚博体育苹果app官方下载

容错

值学习

如何先进的学习系统进行接受和亚博体育苹果app官方下载
帮助在线调试
而其目标调整?

利用训练数据来教先进的AI系统我们所珍视的看起来比试图代码我们手工关心的一切更有前亚博体育苹果app官方下载途。然而,我们很少知道如何辨别时,训练数据不能代表代理人的未来环境,或者如何确保代理不仅可以学习关于我们的价值观,但接纳他们为自己的。

此外,理性的代理人追求某个目标有动力去保护他们的目标内容。不管他们目前的目标是什么,这很可能更好,如果代理继续推动它比如果代理更改目标服务。这表明,它可能难以改善剂与人类利益取向随着时间的推移,特别是当剂是足够聪明到模型,并适应它的程序员的目标。创造价值学习系统亚博体育苹果app官方下载容错很可能的安全在线学习是必要的。


价值学习问题

在IJCAI 2016刘晓宇人工智能研讨会上提出。

价值学习问题一个只超机不会自动充当预期:按照程序,将采取行动,但人的意图和编写的代码之间的配合可能会很差。我们讨论通过系统可以构造学什么价值的方法。亚博体育苹果app官方下载我们强调开放性问题具体到电感值的学习(从标记的训练数据),并提出一些有关的系统,他们的运营商的偏好模型,并据此采取行动的建设问题。亚博体育苹果app官方下载


可以驯服

在2015年AAAI道德与人工智能研讨会上提出。

可以驯服由于AI系统亚博体育苹果app官方下载在智力和能力的成长,他们的一些可用的选项可以让他们通过自己的程序员抵制干预。我们称之为AI系统“驯服的”亚博体育苹果app官方下载,如果它有什么它的创造者视为纠正干预,尽管理性的代理人默认激励抵制试图将其关闭或修改自己的喜好合作。我们介绍可以驯服的概念和分析试图使代理人关闭安全,如果按下停机键实用功能,同时避免激励机制以防止按下按钮或导致按钮被按下,并同时确保传播关机的行为,因为它创造了新的子系统或自行修改。亚博体育苹果app官方下载虽然一些建议很有意思,没有尚未被证实,以满足我们的所有直观的必要条件的,留下可以驯服这个简单的问题全开。

预测

当将具有高度适应性和通用机器智能来发明的,在什么情况下?

除了我们的数学研究,MIRI调查重要的战略问题。亚博体育官网可以(也不能),我们预测什么人工智能的未来?我们如何才能提高我们的预测能力?哪些干预可今天看来是最有利的,因为什么小我们知道?


人工智能的伦理

人工智能的剑桥手册

人工智能的伦理创造思维机器的可能性引发了伦理问题的主机。这些问题既涉及确保这些机器不伤害人类和其他道德相关众生,和机器本身的道德地位。第一部分讨论了可能在AI不久的将来出现的问题。第二部分概述了确保AI安全运行,因为它在它的智力接近人类的挑战。第三部分概述了我们如何评估是否和在什么情况下,认可机构本身具有的道德地位。在第四部分,我们考虑如何认可可能来自人类在有关我们对他们的伦理评估的一些基本方面有所不同。最后一节地址创建人工智能比人类更聪明,并确保他们使用先进的智能好,而不是坏的问题。


形式化收敛器乐目标

在AAAI 2016 AI,伦理与社会研讨会上提出。

形式化收敛器乐目标Omohundro辩称,任何设计的足够先进的AI系统将默认情况下,有动力去追求一些工具性有用的子目标,亚博体育苹果app官方下载比如获得更多的计算能力,并累积了太多的资源。Omohundro是指这些为“基本的AI驱动器,”和他与博斯特伦和其他人一起,争辩说,这意味着必须十分小心设计强大的自治系统时,应考虑的,因为即使他们有无害化目标,实现这些副作用亚博体育苹果app官方下载目标可能是相当有害的。这些论点,而直观地引人注目,主要是哲学。在本文中,我们提供了展示Omohundro论文形式模型,从而把数学重量的直观索赔后面。


智能防爆微观经济学

MIRI技术报告2013-1。

智能防爆微观经济学I.J.良好的建议,足够先进的机器智能可以建立自身的智能版本,这反过来又会建立一个更聪明的版本,这个过程可能会持续的大幅超越人类能力的地步。我们如何建模和测试这个假设?

我们确定的关键问题上投入更多的计算能力,获得其产生更大的大脑,大脑更快,或更好的心态设计的认知劳动认知再投资 - 的能力,更快的计算机,或提高认知算法的回报。许多现象已在国际象棋项目的时间要求为在这场辩论中各个岗位的证据,从原始人进化的观察过程中摩尔定律的能力。This paper explores issues that arise when trying to interpret this evidence in light of Good’s hypothesis, and proposes that the next step in this research is to formalize return-on-investment curves, so that each position can formally state which models they hold to be falsified by historical observations.