2019年6月1日|Rob Bensinger|新闻稿

Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant在“mesa-optimization”:

这个序列的目标是分析当一个已学习的模型(例如神经网络)本身是一个优化器时发生的已学习的优化类型——我们称之为这种情况mesa-optimization．

我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。亚博体育苹果app官方下载首先，在什么情况下学习的模型会成为优化器，包括在什么情况下它们不应该成为优化器?第二，当一个学习过的模型是一个优化器时，它的目标是什么——它将如何不同于它所接受的损失函数，以及它如何对齐?

序列始于从已知优化中获得的风险:引言和继续Mesa-Optimization条件．（LessWrong镜子。）

其他的更新

新研究帖亚博体育官网子：纳什均衡可以是任意坏的；自我确认的预测可能是任意糟糕的；而且AI也会消失，如果......；不确定性、模糊性、外推性
我们发布的2018年度审查．
应用程序是开放的两个AI安全事件在英格兰布莱克浦的EA Hotel：逐步学习AI安全研讨会（16-19岁），以及技术AI安全局会议（8月22日至25日）。
关于起飞速度的讨论，包括一些非常不完整和高层次的MIRI评论。

新闻和链接

其他最近的人工智能安全帖子:汤姆·西特勒的人工智能风险论据的转变和魏戴笠的“UDT2”和“反对UD + ASSA”．
来自SafeML ICLR研讨会的谈话正在进行在线提供．
来自Openai.“我们正在实施两种机制来负责地发布GPT-2，并希望未来发布:分阶段发布和基于伙伴关系的共享。”
梁FHI的玉辩称“在人工智能治理机制的形成阶段，国家缺乏领导能力”，而“私人人工智能实验室最适合领导人工智能治理”。

2019年5月31日|Bourgon不全|Miri战略

我们在2018年的MIRI主要关注两个方面:研究——一如既往!亚博体育官网——经济增长。

多亏了令人难以置信的支持我们从捐助者收到去年，2018年我们能够积极追求我们的详细计划2017年筹集资金后．我们设定的最重要的目标是“成长壮大，快速成长”，就像我们新的研究方向亚博体育官网从更大的团队中获益更多，需要技能，更容易雇用。为此，我们将在2019年底添加10名新的研究人员的目标。亚博体育官网

因此，2018年我们加快了2017年开始的工作，加大了招聘方面的投资，并加强了我们持续增长所需的基础。自从我们2017年的筹款活动以来，我们增加了3名新的研究人员，包括著名的Haskell开发人员亚博体育官网爱德华Kmett．我现在认为，到2019年底，我们最有可能招聘6-8名员工，尽管在我看来，达到9-10名似乎仍然很有可能，因为我们仍在与许多有前途的候选人接触，并继续遇到更多的人。

总体而言，2018年是MIRI的伟大一年。我们的研亚博体育官网究继续迅速进行，我们的招聘工作也越来越有成效。
阅读更多»

2019年5月10日|Rob Bensinger|新闻稿

2019年4月24日|Rob Bensinger|文件

MIRI研亚博体育官网究助理Vanessa Kosoy写了一篇新论文，授权强化学习:学习通过一点帮助避免陷阱Kosoy将在2019年ICLR上展示这篇论文SAFEML车间在两个星期。抽象的写着:

大多数已知的强化学习的遗憾界限要么是偶发性的，要么假设一个没有陷阱的环境。通过允许算法偶尔将一个动作委托给外部顾问，我们在不做任何假设的情况下推导出了一个遗憾界限。因此，我们得出了一个基于模型的主动强化学习的设置，我们称之为DRL(委托强化学习)。

为了证明后悔界限，我们构建的算法是后验采样强化学习的变体，由一子程序补充，该子程序决定应该委托哪些操作。该算法不是随时随地的，因为参数必须根据目标时间折扣进行调整。目前，我们的分析仅限于有限数量假设、状态和行为的马尔可夫决策过程。

KOSOY在DRL上的工作的目标是让我们深入了解具有人类循环和正式性能保证的学习系统，包括安全保障。亚博体育苹果app官方下载DRL试图通过提供可以派生这种性能保证的模型来移动我们。

尽管这些模型仍然做出了许多不切实际的简化假设，但Kosoy认为DRL已经捕捉到了问题的一些最基本特征，并且她对如何进一步发展这个框架有一个相当雄心勃勃的愿景。

Kosoy之前在帖子中描述了DRL委派强化学习与一个纯粹理智的顾问．这里描述的DRL KOSOY的一个特征，但从纸上省略（空间原因）是DRL的应用腐败．在特定的假设下，DRL可以确保一个正式的代理永远不会有其奖励或建议通道被篡改(损坏)。作为一种特殊情况，代理自己的顾问不能导致代理进入损坏状态。类似地，“委托强化学习”中描述的对陷阱的一般保护也可以保护agent免受有害的自我修改。

另一组DRL结果没有在论文中出现使用DRL灾难缓解．在这个变体中，DRL代理可以减轻灾难，即顾问无法减轻其自己的东西 - 这是一个不受标准DRL顾问顾问的更严格的假设。

注册获取MIRI新技术成果的更新

每次有新的技术论文发表时都得到通知。

2019年4月21日|Rob Bensinger|新闻稿

2019年4月1日|Rob Bensinger|新闻

我很乐意宣布Miri接受了两大的新补助金：

两年期拨款共计2112,500美元开放慈善项目．
60万美元的拨款伯克利生存风险倡议．

开放慈善项目格兰特被授予其新的第一轮赔偿金的一部分有效利他委员会支持：

我们正在尝试为许多最大的授予者设定授予规定的新方法有效的利他主义社区，包括那些从事长期事业的人。我们不是让一个项目官员单独提出建议，而是创建了一个小委员会，由“开放慈善”的工作人员和了解相关组织的值得信赖的外部顾问组成。[…]我们将委员会成员的投票数取平均数，以得出拨款的最终数字。

公开慈善项目的补助金与三年分开375万美元的赠款他们在2017年授予了我们，第三笔125万美元的支出仍计划在今年晚些时候支付。这项新的赠款将开放慈善项目对MIRI的总支持从140万美元增加^{策略更新和筹款机职位。}

这140万美元包括开放慈善项目2018年的125万美元和15万美元AI安全再培训计划补助金美里。↩

2019年3月14日|Rob Bensinger|新闻稿

2019年3月10日|COLMóRIAIN.|新闻

CFAR和MIRI于2019年8月9日至8月24日在旧金山湾区运行我们的第五届年度Miri夏季研究员（MSFP）。

MSFP是数学家和程序员在AI对齐问题上取得技术进步的一个扩展撤退。它包括对CFAR应用理性内容的概述，在MIRI视角下对人工智能安全的广度优先基础，以及与参与者和MIRI工作人员进行的多日的实际动手研究，以试图在开放性问题上取得进展。亚博体育官网

其他的更新

新闻和链接

更新

新闻和链接

注册获取MIRI新技术成果的更新

更新

新闻和链接

其他的更新

新闻和链接

搜索

浏览

订阅