嵌入式代理是Abram Demski和Scott Garrabrant的一篇文章,可以在AI对齐论坛上找到在这里.还有一个更短的版本手绘序列,以及一个轻微重写的版本在arXiv.
Embedded Agency首次发布于2018年,随后在2019年初发布了arXiv版本。2020年8月,Demski和Garrabrant全面更新了所有版本.
我们在下面列出了相关主题/章节中的链接和参考文献。
一般
(文本介绍- - - - - -说明介绍- - -米里博客后记- - - - - -LessWrong后记)
- 马库斯Hutter》2012。”全球人工智能十年”。在人工智能的理论基础4.
- 内特·苏亚雷斯。2017。”确保比人类聪明的智力有一个积极的结果.”美里的博客.
- 以利以谢Yudkowsky》2018。”火箭对准问题.”美里的博客.
决策理论
- Eliezer Yudkowsky和Nate Soares, 2017。”功能决策理论:一种新的工具理性理论arXiv: 1710.05060 (cs.AI)。
- 斯科特Garrabrant。2017。”逻辑感应器决策理论的两个主要障碍.”智能代理基础论坛.
- 帕特里克LaVictoire。2015.MIRI研究中的Löb定理简介亚博体育官网.MIRI技术报告2015-6。
- Rob Bensinger》2017。”决定是为了使坏的结果不一致.”美里的博客.
- 魏戴》2009。”走向新的决策理论.”更少的错误.
- 弗拉基米尔•Nesov》2009。”反事实的抢劫.”更少的错误.
嵌入式世界模型
- 亚伯兰Demski。2018。”技术解释的新技术解释.”更少的错误.
- 内特·苏亚雷斯。2015。形式化现实世界模型的两个问题.MIRI技术报告2015-3。
- 2016年1月Leike。。非参数广义强化学习.博士论文,澳大利亚国立大学。
- 劳伦特·奥索和马克·林,2012年。”时空嵌入式智能”。在人工智能,第五届国际会议.施普林格。
- Benja Fallenstein, Jessica Taylor和Paul Christiano, 2015。”反射神谕:经典博弈论的基础arXiv: 1508.04145 (cs.AI)。
- Jan Leike, Jessica Taylor, Benya Fallenstein。2016。”真理的实质问题的正式解决方案论文发表于第32届人工智能不确定性会议。
- Nate Soares和Benja Fallenstein, 2015。逻辑不确定性下的推理问题.MIRI技术报告2015-1。
- 亚伯兰Demski。2018。”《难以控制的数学家图解》.”更少的错误.
- 以利以谢Yudkowsky》2017。”一致的决策意味着一致的效用.”Arbital.
- 2016年,Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares和Jessica Taylor。”逻辑归纳arXiv: 1609.03543 (cs.AI)。
- 以利以谢Yudkowsky》2015。”本体标识.”Arbital.
- 彼得·德·勃朗,2011。”人工主体价值体系中的本体论危机亚博体育苹果app官方下载”。(cs arXiv: 1105.3821。人工智能)
- 卡斯帕Oesterheld》2017。”归化归纳法-对证据和因果决策理论的挑战.”更少的错误.
- Rob Bensinger》2013。”建筑现象学的桥梁.”更少的错误.
- 托马斯·内格尔》1986。不知从哪里来的风景.牛津大学出版社。
强大的代表团
- 斯图尔特·阿姆斯特朗和Sören Mindermann. 2017。”奥卡姆剃刀理论不足以推断非理性行为者的偏好arXiv: 1712.05812 (cs.AI)。
- Benja Fallenstein和Nate Soares, 2015年。Vingean反思:自我改进代理的可靠推理.MIRI技术报告2015-2。
- Eliezer Yudkowsky和Marcello Herreshoff, 2013。”用于自修改人工智能的Tiling代理,以及Löbian障碍”草案。
- David Manheim和Scott Garrabrant, 2018。”古德哈特定律的变体分类arXiv: 1803.04585 (cs.AI)。
- 内特·苏亚雷斯。2015/2018。”价值学习问题”。在人工智能安全保障.查普曼和大厅。
- Nate Soares, Benja Fallenstein, Eliezer Yudkowsky和Stuart Armstrong。2014/2015。”可订正论文发表于AAAI 2015伦理与人工智能研讨会。
- 保罗global。2016。”知情监督问题.”AI对齐.
- Dylan Hadfield-Menell, Stuart Russell, Pieter Abbeel和Anca Dragan, 2016。”合作反强化学习”。在神经信息处理系统进展亚博体育苹果app官方下载29(少量)。
- 斯科特Garrabrant。2017。”逻辑可更新性是一个健壮的委托问题.”更少的错误.
- 以利以谢Yudkowsky》2015。”价值的复杂性.”Arbital.
- 斯科特Garrabrant。2018。”优化放大.”更少的错误.
- 查尔斯·古德哈特。1981。《货币管理问题:英国的经验》在西方的通货膨胀、萧条和经济政策.罗曼和Littlefield。
- 詹姆斯·史密斯和罗伯特·温克勒,2006。”优化者的诅咒:决策分析中的怀疑和决策后惊喜”。在管理科学52:3。
- 杰西卡·泰勒。2016。”量化器:在有限优化中比最大化器更安全的选择论文发表于AAAI 2016人工智能,伦理与社会研讨会。
- 丹尼尔·杜威》2011。”学会重视什么”。在AGI 2011会议录.施普林格。
- 亚伯兰Demski。2017。”稳定指针值:嵌入在自己的实用函数中的代理.”智能代理基础论坛.
- Tom Everitt, Victoria Krakovna, Laurent Orseau, Marcus Hutter, Shane Legg。2017。”使用损坏的奖励渠道进行强化学习”。在第26届人工智能国际联合会议论文集.
- 保罗·克里斯蒂亚诺,巴克·施莱格里斯和达里奥·阿莫代。”通过放大弱专家来监督强学习者arXiv: 1810.08575 (cs.LG)。
子系统亚博体育苹果app官方下载对齐
- 以利以谢Yudkowsky》2017。”Non-Adversarial原则.”Arbital.
- 斯科特Garrabrant。2018。”鲁棒性规模.”更少的错误.
- 以利以谢Yudkowsky》2015。”人工智能安全全能测试.”Arbital.
- Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David ward - farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio。2014。”生成敌对的网”。在神经信息处理系统进展亚博体育苹果app官方下载(少量)27。
- 以利以谢Yudkowsky》2016。”优化守护进程.”Arbital.
- 2019年,Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant。”先进机器学习系统中学习优化的风险亚博体育苹果app官方下载arXiv: 1906.01820。之前在草稿中提到的"内部对齐问题"
- 达里奥·阿莫代、克里斯·奥拉、雅各布·斯坦哈特、保罗·克里斯滕诺、约翰·舒尔曼和丹Mané。2016.”人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
- 保罗global。2016。”学习与灾难。”AI对齐.
- 保罗global。2018。”优化最坏情况下性能的技术.”AI对齐.