嵌入式代理是Abram Demski和Scott Garrabrant在AI Alignment Forum上的一篇文章在这里.还有一个更短的版本是手绘序列,以及一个稍微重写的版本在arXiv.
Embedded Agency于2018年首次发布,随后于2019年初发布arXiv版本。2020年8月,Demski和Garrabrant大幅更新所有版本.
我们在下面包含了链接和参考文献,按照它们在相关主题/部分出现的顺序列出。
一般
(文本介绍- - - - - -说明介绍- - -米里博客后记- - - - - -LessWrong后记)
- 马库斯Hutter》2012。”通用人工智能的十年”。在人工通用智能理论基础4.
- 内特·苏亚雷斯。2017。”确保比人类聪明的智慧有一个积极的结果.”美里的博客.
- 以利以谢Yudkowsky》2018。”火箭对准问题.”美里的博客.
决策理论
- Eliezer Yudkowsky和Nate Soares, 2017。”功能决策理论:工具理性的新理论arXiv: 1710.05060 (cs.AI)。
- 斯科特Garrabrant。2017。”逻辑电感决策理论的两个主要障碍.”智能代理基金会论坛.
- 帕特里克LaVictoire。2015.MIRI研究中的Löb定理简介亚博体育官网.MIRI技术报告2015-6。
- Rob Bensinger》2017。”决策是为了让糟糕的结果不一致.”美里的博客.
- 魏戴》2009。”走向一个新的决策理论.”更少的错误.
- 弗拉基米尔•Nesov》2009。”反事实的抢劫.”更少的错误.
嵌入式世界模型
- 亚伯兰Demski。2018。”《技术解释》走向新的技术解释.”更少的错误.
- 内特·苏亚雷斯。2015。形式化现实世界的两个问题——模型.MIRI技术报告2015-3。
- 2016年1月Leike。。非参数一般强化学习.澳大利亚国立大学博士论文。
- 劳伦特·奥索和马克·林,2012。”时空嵌入式智能”。在人工通用智能,第五届国际会议.施普林格。
- Benja Fallenstein, Jessica Taylor和Paul Christiano。2015。”反思的神谕:古典博弈论的基础arXiv: 1508.04145 (cs.AI)。
- Jan Leike, Jessica Taylor和Benya Fallenstein。”谷物真理问题的形式解在第32届人工智能不确定性会议上发表的论文。
- Nate Soares和Benja Fallenstein。逻辑不确定性下的推理问题.MIRI技术报告2015-1。
- 亚伯兰Demski。2018。”插图:不可控制的数学家.”更少的错误.
- 以利以谢Yudkowsky》2017。”一致的决策意味着一致的效用.”Arbital.
- Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares和Jessica Taylor. 2016。”逻辑归纳arXiv: 1609.03543 (cs.AI)。
- 以利以谢Yudkowsky》2015。”本体标识.”Arbital.
- Peter de Blanc, 2011。”人工智能价值体系的本体论危机亚博体育苹果app官方下载”。(cs arXiv: 1105.3821。人工智能)
- 卡斯帕Oesterheld》2017。”归化归纳法——对证据和因果决策理论的挑战.”更少的错误.
- Rob Bensinger》2013。”建筑现象学的桥梁.”更少的错误.
- 托马斯·内格尔》1986。无处可见的风景.牛津大学出版社。
强大的代表团
- 斯图尔特·阿姆斯特朗和Sören Mindermann. 2017。”奥卡姆剃刀不足以推断非理性行为者的偏好arXiv: 1712.05812 (cs.AI)。
- Benja Fallenstein和Nate Soares。Vingean反思:自我改进代理的可靠推理.MIRI技术报告2015-2。
- Eliezer Yudkowsky和Marcello Herreshoff, 2013。”用于自修改AI的贴片代理,以及Löbian障碍”草案。
- David Manheim和Scott Garrabrant, 2018。”分类古德哈特定律的变体arXiv: 1803.04585 (cs.AI)。
- 内特·苏亚雷斯。2015/2018。”价值学习问题”。在人工智能安全与保障.查普曼和大厅。
- Nate Soares, Benja Fallenstein, Eliezer Yudkowsky, Stuart Armstrong. 2014/2015。”可订正这是AAAI 2015伦理与人工智能研讨会上发表的论文。
- 保罗global。2016。”知情监督问题.”AI对齐.
- Dylan Hadfield-Menell, Stuart Russell, Pieter Abbeel和Anca Dragan。”协同逆强化学习”。在神经信息处理系统的进展亚博体育苹果app官方下载29(少量)。
- 斯科特Garrabrant。2017。”作为健壮委托问题的逻辑更新性.”更少的错误.
- 以利以谢Yudkowsky》2015。”价值的复杂性.”Arbital.
- 斯科特Garrabrant。2018。”优化放大.”更少的错误.
- 查尔斯·古德哈特。1981。《货币管理的问题:英国的经验》在西方的通货膨胀、萧条和经济政策.罗曼和Littlefield。
- 詹姆斯·史密斯和罗伯特·温克勒,2006。”优化者的诅咒:决策分析中的怀疑主义和决策后的意外”。在管理科学52:3。
- 杰西卡·泰勒。2016。”量化器:有限优化中相对于最大化者更安全的选择论文发表于2016年AAAI AI伦理与社会研讨会。
- 丹尼尔·杜威》2011。”学习什么值得重视”。在AGI会议纪要2011.施普林格。
- 亚伯兰Demski。2017。”指向值的稳定指针:嵌入在其自身效用函数中的代理.”智能代理基金会论坛.
- Tom Everitt, Victoria Krakovna, Laurent Orseau, Marcus Hutter和Shane Legg. 2017。”用错误的奖励渠道强化学习”。在第26届人工智能国际联席会议论文集.
- Paul Christiano, Buck Shlegeris和Dario Amodei. 2018。”通过放大弱专家来指导强学习者arXiv: 1810.08575 (cs.LG)。
子系统亚博体育苹果app官方下载对齐
- 以利以谢Yudkowsky》2017。”Non-Adversarial原则.”Arbital.
- 斯科特Garrabrant。2018。”鲁棒性规模.”更少的错误.
- 以利以谢Yudkowsky》2015。”人工智能安全万能测试.”Arbital.
- Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David ward - farley, Sherjil Ozair, Aaron Courville和Yoshua Bengio. 2014。”生成敌对的网”。在神经信息处理系统的进展亚博体育苹果app官方下载(少量)27。
- 以利以谢Yudkowsky》2016。”优化守护进程.”Arbital.
- Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant. 2019。”高级机器学习系统中学习型优化的风险亚博体育苹果app官方下载arXiv: 1906.01820。之前引用的草案形式为“内部对齐问题。”
- 达里奥·阿莫代,克里斯·奥拉,雅各布·斯坦哈特,保罗·克里斯蒂安诺,约翰·舒尔曼和丹Mané。2016.”人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
- 保罗global。2016。”学习与灾难。”AI对齐.
- 保罗global。2018。”优化最坏情况性能的技术.”AI对齐.