为什么AI安全?


Miri是一家位于加利福尼亚伯克利的非营亚博体育官网利组织研究小组。我们进行技术研究,旨在确保智慧比亚博体育官网人类AI系统对世界产生积极影响。亚博体育苹果app官方下载这一页面概述了广泛的笔画,为什么我们认为这是一个批判性的重要目标,以便今天努力。




AGI安全研究背后的论点和概念亚博体育官网

人类的社会和技术主导地位主要从我们的熟练程度源于推理,规划和做科学(阿姆斯特朗)。我们将称为这个能力一般情报Muehlhauser.) - 因为人类不需要在数百万多年来,人类不需要发展为理论物理,软件工程和心脏手术的单独模块。相反,将人类与黑猩猩分离的相对较小的适应必须同时实现所有这些能力。

这是我们在谈论“人为普通情报”(AGI)或“比人为的AI智慧”时,我们铭记的一般问题解决能力。AI系亚博体育苹果app官方下载统可能会超越科学和工程能力的人类,而不是在任何其他方面特别人为的人智力不需要暗示人工意识,例如或人为情绪。相反,我们考虑到更好的现实环境的能力,并确定将这些环境放入新州的各种方法。

专注于AI风险缓解的案例对未来的AI系统将如何实现或使用。亚博体育苹果app官方下载以下是我们认为是关键的声明:

  1. 无论我们分配到高级AI系统的问题/任务/目标可能与我们的真实目标不完全匹配。亚博体育苹果app官方下载除非我们投入(​​巨大,多代)努力教授AI系统的每一个细节我们的集体价值观(在重叠的范围内),逼真的系统将需要依赖于我们想要的不完美近似和代亚博体育苹果app官方下载理(soYudkowsky.)。
  2. 如果系统的分配亚博体育苹果app官方下载问题/任务/目标没有完全捕捉我们的真实目标,那么它可能最终可能会与我们其实想要的灾难性冲突(博塞尔姆罗素Benson-Tilsen&Soares)。
  3. AI系亚博体育苹果app官方下载统可以比人类更聪明(博塞尔姆),可能会给AI系统在任意冲突中提供决定性的优势(亚博体育苹果app官方下载so布兰文)。
  4. 令人聪明的人类AI将开发时难以预测:它可能是15年距离,或150年(开放慈善项目)。此外,随着AI接近人类能力水平,进展可能加速,一旦终点线处于终点线(亚博体育官网伯格)。

斯图尔特罗素的剑桥谈话是对长期AI风险的一个很好的介绍。其他主要对普通AI表示关切的领先A亚博体育官网I研究人员包括弗朗西斯卡罗西(IBM),Shane Legg.(谷歌深度),Eric Horvitz.(微软),Bart Selman.(康奈尔),伊利亚·斯图克瓦(Openai),安德鲁·达维森(伦敦帝国学院),David Mcallester.(TTIC),和Jürgen.施密水(Idsia)。

我们的消除是我们应该优先考虑使用我们的兴趣对准未来的AI系统,如果我们能够找到学习的相关研究问题。亚博体育官网亚博体育苹果app官方下载AI对准可能很容易比AI本身更难以多次,在这种情况下,目前正在遗漏的研究努力。亚博体育官网

对齐研究可以涉及开发亚博体育官网正式和理论工具,用于构建和理解稳定和强大(“高可靠性”)的AI系统,找到了在AI系统(“价值规范”)中获得更好近似值的方法,并降低风险亚博体育苹果app官方下载from systems that aren’t perfectly reliable or value-specified (“error tolerance”).




Miri对这些问题的方法

Miri如何尝试在这个问题上取得进展?松散地说,我们可以想象所有智能比人类AI系统的空间作为一个极宽而异的空间,其中“可对准的AI设计”是一个小而窄的目标(和“对齐的AI设计”仍然较亚博体育苹果app官方下载小和更窄)。我们一般认为,最重要的是,最重要的对齐研究员今天可以做到的是有助于确保第一个普遍智能的系统人类设计在“可接定”区域。亚博体育官网亚博体育苹果app官方下载

我们预计这不太可能发生,除非研究人员对系统的发展方式有相当原则的理解,以及如何连接到预期目标。亚博体育官网亚博体育苹果app官方下载因此,我们的大部分工作都是针对播种领域的思想,这些思想可能会在附近激发更多的AI研究(我们期望的)可对准的AI设计。亚博体育官网当开发第一台通用推理机时,我们希望开发人员从一个设计和技术的空间采样,这些空间比今天在AI中的可能性更可理解和可靠。

我们专注于研究我们认为可亚博体育官网以帮助激发新的AI技术,这些技术比目前的技术更为理论上。在实践中,这通常涉及专注于我们当前理论中最大的差距,希望能够更好地发展更好地是底层后续工程工作的理论(so)。

其他因素设置我们的方法分开包括我们更多地关注AI系统的推理和规划,而不是系统的目标,他们的输入和输出通道,或其环境的功能。亚博体育苹果app官方下载这部分是因为先前提到的考虑因素,部分原因是我们预计推理和计划是使能干能力强有力的能力的关键部分。亚博体育苹果app官方下载为了利用这些功能(并安全地这样做),很可能我们需要一个良好的模型,系统如何认知劳动,以及这种劳动如何联系在预期目标中。亚博体育苹果app官方下载

最后,我们通常还避免出现问题,我们认为学术和行业研究人员能够良好地解决,而是关注我们预期的是最忽视的研究线(亚博体育官网伯格)。




田野的目标

亚博体育官网Miri的研究人员通常非常不确定,AI领域将如何发展到未来几年,并且有许多不同的情景将我们与众不同。但是,在良好的结果上,我们对场景的概率相当多,更多或以下的概率跟随以下草图:

在短期内一项研究亚博体育官网界聚会,对相关问题的良好原则性了解,并产生了解决这些问题的正式工具。AI研亚博体育官网究人员对关于最佳实践的最小共识,对AI的长期社会影响更加开放讨论,一种风险意识的安全性心态(Muehlhauser.),并处理误差容忍度和价值规范。

在中期,研亚博体育官网究人员在这些基础上建立并发展更加成熟的理解。当我们走向更清晰的聪明的人的AI系统的感觉可能看起来像是更靠近可靠的路线图的东西 - 我们想象研究社区向加强协调和合作迈进,以劝亚博体育苹果app官方下载阻竞争动态(亚博体育官网so)。

在长期,我们希望看到AI授权的项目用于避免主要AI Mishaps的虽然人类朝着所需的科学和体制成熟度,以使持久决定是关于远期的必要科学和机构成熟(杜威)。为此目的,我们希望解决有限AI系统的对齐问题的弱版本 - 仅能够充当防止AI事故和滥用的有用杠杆的系统。亚博体育苹果app官方下载

在里面非常长期,我们的希望是,研究人员最终将解决高能亚博体育官网力,高度自主AI系统的“完整”对齐问题。亚博体育苹果app官方下载理想情况下,我们希望达到工程师和运营商能够花费时间点点的位置一世和十字架T.在我们冒着“锁定”之前,任何对未来具有大而不可逆转的效果的选择。

以上是一个模糊的草图,我们优先考虑我们认为在不太乐观的情景中有用的研究。亚博体育官网此外,这里的“短期”和“长期”是相对的,不同的时间线预测可以具有非常不同的政策影响。但是,素描可能有助于澄清我们希望看到研究社区进入的方向。亚博体育官网