新论文:“正式化收敛工具目标”

||文件

收敛Tsvi Benson-Tilsen,Miri Associate和UC Berkeley Phd候选人已经撰写了一份来自Miri执行董事Nate飙升的捐款,这些策略将往往对大多数可能有用的策略:“正式化收敛工具目标。“本文将作为Aaai-16的海报展示AI,道德和社会作坊。

Steve Omohundro据称,艾西代理商几乎任何目标都将融合在一套“基本驱动器”,如资源收购,这倾向于增加代理人的一般影响和行动自由。这个想法,尼克博斯特罗姆呼叫仪器融合论点,对AI的未来进展具有重要意义。它表明,即使没有任何反社会目标没有编程,高度有能力的决策系统也可能构成危急风险。亚博体育苹果app官方下载仅仅是对人类运营商的目标漠不关心,这些系统可以让动力用于操纵,利用或与运营商竞争。亚博体育苹果app官方下载

新纸用于为Omohundro和Bostrom的参数添加精度,同时在简单设置中测试参数的适用性。Benson-tilsen和翱翔写:

在本文中,我们将争辩说,根据一般的假设,智能理性代理商将倾向于抓住所有可用的资源。我们使用第4节中描述的模型来执行此操作,该模型考虑了一个需要一系列需要和可能产生资源的操作的代理。[...]第4节证明的定理并不是数学上困难,对于那些发现omohundro的论据直观明显的人来说,我们的定理也会看起来微不足道。这种模式并不令人惊讶;相反,目标是给出正式的“有人收敛目标”的概念,并证明这一概念捕获了omohundro的直觉的相关方面。

我们的模式预测,智能理性代理商将参与贸易和合作,但只要从交易和合作的收益高于代理人通过武力或其他方式采取这些资源的收益。该模型进一步预测,除非他们的实用功能在人占领地区的内在效用,除非他们的占用区域的内在效用,否则这一模型将不会“留下人类”:缺席这种效用功能,这一模型表明强大的代理商将有激励措施重塑空间的激励措施那人占据了。

Benson-Tilsen和Soares将宇宙定义为可能以不同方式改变的区域,具体取决于代理的行为。代理人希望让某些地区进入某些国家,并可以从地区收集资源。该模型可以说明高度有能力的代理几乎总是试图从它们所漠不关心的区域提取资源,所以提供资源的有用性超过提取成本。

相关模型很简单,对高级AI系统的特定架构造成一些假设。亚博体育苹果app官方下载这使得可以在很大程度上在暗中制定高度先进的决策系统的情况下,了解有关有关安全研究的一些关于有用的安全性研究的一般结论。亚博体育官网亚博体育苹果app官方下载避免有害目标的最明显的方法是将人类值纳入AI系统的实用功能,该项目概述“亚博体育苹果app官方下载价值学习问题。“或者(或作为补充措施),我们可以尝试指定违反Benson-Tilsen和飙升的假设的能力的能力,尽管缺乏正确的目标,但避免了危险的行为。本文探讨了这种方法“易燃。“


注册以获取新的Miri技术结果的更新

每次发布新技术文件时都会通知。