对齐高级AI与人类兴趣

Miri的使命是确保创造聪明而不是人类的智力
积极的影响。我们的目标是使先进的智能系统表现为亚博体育苹果app官方下载
我们即使在没有立即人类监督的情况下也打算。

高度可靠
代理设计

什么是最佳推理
看起来像是物理世界中资源有限的代理吗?

MIRI关注的是可以采取的人工智能方法透明的（例如，精确指定的决策算法，而不是遗传算法），使人类可以理解为什么AI系统表现得像他们一样。亚博体育苹果app官方下载出于安全目的，定义一般智能的数学方程比令人印象深刻但令人不良的代码Klude更为希望。

因此，我们的大部分研究旨亚博体育官网在为人工智能的稳健性工作奠定理论基础。我们考虑传统决策和概率论经常失效的设置:设置计算昂贵，没有锋利的代理/环境边界，多个代理存在,或自称推理被录取。

逻辑归纳

eprint at arXiv:1609.03543 [cs.AI]。

我们介绍了一种可计算算法，可将概率分配给给定的正式语言的每个逻辑语句，并随着时间的推移赋予这些概率。我们展示它满足了许多直观的探索，包括：（1）它学会在逻辑陈述中预测真理和虚假模式，通常很长，在拥有资源来评估陈述之前，只要这些模式可以被写入多项式时间;（2）它学会使用适当的统计摘要来预测陈述的序列，其真实值出现伪随机;（3）它有人学会在避免自我参考标准悖论的方式上对自己目前的信仰进行准确的信念。

这些属性和许多其他属性遵循a逻辑归纳标准，其动机是一系列股票交易类比。大致说来，每个逻辑句φ.与每股1美元的股票有关，如果φ.是真的，没有别的，我们将逻辑不确定推理者的信念状态解释为一组市场价格，P_n（φ.(50%意味着在那天n,股φ.可以以50美分的价格从推理者那里购买或出售。逻辑归纳标准(非常粗略地)认为，不应该存在任何具有有限风险容忍度的多项式时间可计算的交易策略，从而在一段时间内在该市场上赚取无限利润。

对真理问题的正式解决方案

在人工智能的不确定性:第三十二届会议论文集(2016)．

在多代理环境中行动的贝叶斯代理学会预测其他代理人的政策，如果其先前为他们分配了积极概率（换句话说，其先前包含一个真理的粮食）.找到一个相当大的策略类，其中包含关于该类的贝叶斯最优策略称为谷物真理问题．只有众所周知，只有小阶级具有真理，文献包含几种相关不可能性结果。

在本文中，我们向完整的真理问题提出了一个正式和一般的解决方案：我们构建了一类包含所有可计算策略以及在类上之前的每个较低的脓性的贝叶斯最佳政策的策略。当环境未知时，贝叶斯 - 最佳试剂可能未能最佳地表达甚至渐近。然而，基于汤普森采样的代理在任意未知的可计算的多代理环境中发挥ε-nash均衡。虽然这些结果纯粹是理论，但我们表明它们可以在计算地近似地近似地近似。

功能决策理论：一种新的仪器理性理论

eprint at arXiv:1710.05060 [cs.AI]。

本文描述并激发了一种新的决策理论功能决策理论（FDT），与因果决策理论和证据决策理论不同。功能决策理论家认为，行动的规范原则是将一个人的决定视为回答问题的固定数学函数的输出，“这个非常职能的输出将产生最佳结果？”坚持这一原则提供了许多好处，包括在CDT和EDT的传统决策和游戏理论问题中最大化财富的能力。使用一个简单和连贯的决策规则，功能决策理论家（例如）在Newcomb问题上实现了比CDT更多的效用，比在吸烟病变问题上的效用，比在Parfit的搭便车问题中更多的效用。在本文中，我们定义了FDT，探讨了许多不同决策问题的处方，将其与CDT和EDT进行比较，并为FDT提供哲学理由作为决策的规范理论。

对HOL的证明反射

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

我们展示了“如果⌜⌝可证明，则”在Hol4定理先报中实施的形式的反思原则，假设存在大型基本主教。We use the large-cardinal assumption to construct a model of HOL within HOL, and show how to ensure has the same meaning both inside and outside of this model. Soundness of HOL implies that if ⌜⌝ is provable, then it is true in this model, and hence holds. We additionally show how this reflection principle can be extended, assuming an infinite hierarchy of large cardinals, to implement模型多态性，一种用于验证具有自我替换功能的系统的技术。亚博体育苹果app官方下载

容忍误差
和
价值学习

如何使高级学习系统接受和亚博体育苹果app官方下载
协助在线调试
并调整其目标？

使用训练数据向先进的人工智能系统教授我们看重的东西，似乎比尝试用手工编写所有我们关亚博体育苹果app官方下载心的东西更有前途。然而，对于如何辨别训练数据是否不代表agent的未来环境，或者如何确保agent不仅仅是学习，我们知之甚少关于我们的价值观，但接受它们为自己的价值观。

此外，追求某些目标的理性代理人有保护其目标内容的动机。不管他们当前的目标是什么，如果代理继续提升目标，很可能会比代理改变目标更好。这表明，随着时间的推移，改善代理与人类利益的一致性可能是困难的，特别是当代理足够聪明，能够建模并适应其程序员的目标时。创造价值学习系统亚博体育苹果app官方下载不变性很可能是安全在线学习的必要条件。

价值学习问题

在IJCAI 2016年人工智能研讨会的伦理上提出。

超级智能机器不会自动按照预期行事:它会按照程序的方式行事，但人类的意图和编写的代码之间的匹配度可能很低。我们讨论了构建系统来学习价值的方法。亚博体育苹果app官方下载我们强调了归纳价值学习(来自已标记的训练数据)中特定的开放问题，并提出了一些关于系统构建的问题，这些系统建模了操作人员的偏好并相应地采取行动。亚博体育苹果app官方下载

可订正

在2015年AAAI伦理与人工智能研讨会上发表。

随着AI系统亚博体育苹果app官方下载在智能和能力中增长，其一些可用的选项可能允许他们抵制其程序员的干预。如果它与其创造者作为纠正干预亚博体育苹果app官方下载的内容合作，我们会致电AI系统“违规”，尽管Rational Terments抵制将其抵消或修改其偏好的默认激励，但违反了纠正干预。我们介绍了易燃性和分析实用程序功能，该功能试图将代理程序安全关闭，如果按下关闭按钮，则避免激励以防止按钮被按下或导致按下按钮，同时确保传播的同时截止行为，因为它创建了新的子系统或自我修改。亚博体育苹果app官方下载虽然有些提议很有趣，但没有人已经证明满足我们所有直观的探索，在宽敞开放中留下这个简单的问题。

预测

什么时候会发明高度自适应和一般机器智能，在什么情况下？

除了我们的数学研究外，Miri还调查了重要的战略问题。亚博体育官网我们可以预测ai的未来可以（并且不能）是什么？我们如何提高预测能力？今天的哪些干预措施似乎是最有益的，鉴于我们的一点做知道吗?

人工智能的伦理

在剑桥人工智能手册．

创造会思考的机器的可能性引发了一系列伦理问题。这些问题既涉及到确保这些机器不会伤害人类和其他与道德相关的人，也涉及到机器本身的道德地位。第一部分讨论了人工智能在不久的将来可能出现的问题。第二部分概述了在智能接近人类时确保人工智能安全运行所面临的挑战。第三部分概述了我们如何评估人工智能本身是否具有道德地位，以及在什么情况下具有道德地位。在第四部分中，我们将考虑人工智能与人类在某些基本方面的不同，这些方面与我们对它们的道德评估有关。最后一节将讨论如何创造出比人类更聪明的ai，并确保它们将先进的智能用于好的方面而不是坏的方面。

正式化收敛工具目标

在2016年AAAI的AI，伦理与社会研讨会上发表。

Omohundro据认为，任何设计的足够先进的AI系统将默认情况下，可以激励追求一些有用的有用子级的诸亚博体育苹果app官方下载如获取更多的计算能力和大量资源。Omohundro是指“基本的AI驱动器”，他和其他人一起认为这意味着在设计强大的自治系统时必须妥善保健，因为即使他们有无害的目标，追求这些目标也是如此亚博体育苹果app官方下载目标可能是非常有害的。这些论点，同时直观地引人注目，主要是哲学。在本文中，我们提供了表现出omohundro论文的正式模型，从而将数学重量放在那些直观的索赔后面。

智力爆炸微观经济学

MIRI技术报告2013-1。

I.J.古德认为，足够先进的机器智能可以制造出自己的更智能版本，反过来，机器智能又可以制造出更智能的版本，这个过程可以继续下去，远远超过人类的能力。我们如何建模和检验这个假设?

我们将关键问题确定为认知再投资的回报 - 投资更多计算能力，更快的计算机或改进的认知算法的能力，从而产生产生更大的大脑，更快的大脑或更好的思维设计的认知劳动力。许多现象被声称是本次辩论中各种职位的证据，从观察到的同性恋进展到摩尔法的莫斯特法的竞争力，随着国际象棋计划的能力。This paper explores issues that arise when trying to interpret this evidence in light of Good’s hypothesis, and proposes that the next step in this research is to formalize return-on-investment curves, so that each position can formally state which models they hold to be falsified by historical observations.

对齐高级AI与人类兴趣

代理基金会技术议程
（高可靠性焦点）

机器学习技术议程
(错误容忍聚焦)

高度可靠
代理设计

逻辑归纳

eprint at arXiv:1609.03543 [cs.AI]。

对真理问题的正式解决方案

在人工智能的不确定性:第三十二届会议论文集(2016)．

功能决策理论：一种新的仪器理性理论

eprint at arXiv:1710.05060 [cs.AI]。

对HOL的证明反射

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

容忍误差
和
价值学习

价值学习问题

在IJCAI 2016年人工智能研讨会的伦理上提出。

可订正

在2015年AAAI伦理与人工智能研讨会上发表。

预测

人工智能的伦理

在剑桥人工智能手册．

正式化收敛工具目标

在2016年AAAI的AI，伦理与社会研讨会上发表。

智力爆炸微观经济学

MIRI技术报告2013-1。

亚博体育苹果app官方下载

所有出版物

yabo

亚博体育官网研究论坛

代理基金会技术议程（高可靠性焦点）

机器学习技术议程(错误容忍聚焦)

高度可靠代理设计

eprint at arXiv:1609.03543 [cs.AI]。

在人工智能的不确定性:第三十二届会议论文集(2016)．

eprint at arXiv:1710.05060 [cs.AI]。

在交互定理证明:第六届国际学术会议，中国，2015年8月24-27日，论文集．

容忍误差和价值学习

在IJCAI 2016年人工智能研讨会的伦理上提出。

在2015年AAAI伦理与人工智能研讨会上发表。

预测

在剑桥人工智能手册．

在2016年AAAI的AI，伦理与社会研讨会上发表。

MIRI技术报告2013-1。

代理基金会技术议程
（高可靠性焦点）

机器学习技术议程
(错误容忍聚焦)

高度可靠
代理设计

容忍误差
和
价值学习