嵌入式机构-机器智能研究所亚博体育官网

嵌入式代理是Abram Demski和Scott Garrabrant在AI Alignment Forum上的一篇文章在这里．还有一个更短的版本是手绘序列，以及一个稍微重写的版本在arXiv．

Embedded Agency于2018年首次发布，随后于2019年初发布arXiv版本。2020年8月，Demski和Garrabrant大幅更新所有版本．

我们在下面包含了链接和参考文献，按照它们在相关主题/部分出现的顺序列出。

一般

（文本介绍- - - - - -说明介绍- - -米里博客后记- - - - - -LessWrong后记）

马库斯Hutter》2012。”通用人工智能的十年”。在人工通用智能理论基础4.
内特·苏亚雷斯。2017。”确保比人类聪明的智慧有一个积极的结果．”美里的博客．
以利以谢Yudkowsky》2018。”火箭对准问题．”美里的博客．

进一步阅读:“安全心态和普通妄想症”;”将机器智能与人类兴趣相结合的代理基础”

决策理论

（文字版本- - - - - -插图版）

Eliezer Yudkowsky和Nate Soares, 2017。”功能决策理论:工具理性的新理论arXiv: 1710.05060 (cs.AI)。
斯科特Garrabrant。2017。”逻辑电感决策理论的两个主要障碍．”智能代理基金会论坛．
帕特里克LaVictoire。2015.MIRI研究中的Löb定理简介亚博体育官网．MIRI技术报告2015-6。
Rob Bensinger》2017。”决策是为了让糟糕的结果不一致．”美里的博客．
魏戴》2009。”走向一个新的决策理论．”更少的错误．
弗拉基米尔•Nesov》2009。”反事实的抢劫．”更少的错误．

嵌入式世界模型

（文字版本- - - - - -插图版）

亚伯兰Demski。2018。”《技术解释》走向新的技术解释．”更少的错误．
内特·苏亚雷斯。2015。形式化现实世界的两个问题——模型．MIRI技术报告2015-3。
2016年1月Leike。。非参数一般强化学习．澳大利亚国立大学博士论文。
劳伦特·奥索和马克·林，2012。”时空嵌入式智能”。在人工通用智能，第五届国际会议．施普林格。
Benja Fallenstein, Jessica Taylor和Paul Christiano。2015。”反思的神谕:古典博弈论的基础arXiv: 1508.04145 (cs.AI)。
Jan Leike, Jessica Taylor和Benya Fallenstein。”谷物真理问题的形式解在第32届人工智能不确定性会议上发表的论文。
Nate Soares和Benja Fallenstein。逻辑不确定性下的推理问题．MIRI技术报告2015-1。
亚伯兰Demski。2018。”插图:不可控制的数学家．”更少的错误．
以利以谢Yudkowsky》2017。”一致的决策意味着一致的效用．”Arbital．
Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares和Jessica Taylor. 2016。”逻辑归纳arXiv: 1609.03543 (cs.AI)。
以利以谢Yudkowsky》2015。”本体标识．”Arbital．
Peter de Blanc, 2011。”人工智能价值体系的本体论危机亚博体育苹果app官方下载”。(cs arXiv: 1105.3821。人工智能)
卡斯帕Oesterheld》2017。”归化归纳法——对证据和因果决策理论的挑战．”更少的错误．
Rob Bensinger》2013。”建筑现象学的桥梁．”更少的错误．
托马斯·内格尔》1986。无处可见的风景．牛津大学出版社。

进一步阅读:“AIXI的问题”

强大的代表团

（文字版本- - - - - -插图版）

斯图尔特·阿姆斯特朗和Sören Mindermann. 2017。”奥卡姆剃刀不足以推断非理性行为者的偏好arXiv: 1712.05812 (cs.AI)。
Benja Fallenstein和Nate Soares。Vingean反思:自我改进代理的可靠推理．MIRI技术报告2015-2。
Eliezer Yudkowsky和Marcello Herreshoff, 2013。”用于自修改AI的贴片代理，以及Löbian障碍”草案。
David Manheim和Scott Garrabrant, 2018。”分类古德哈特定律的变体arXiv: 1803.04585 (cs.AI)。
内特·苏亚雷斯。2015/2018。”价值学习问题”。在人工智能安全与保障．查普曼和大厅。
Nate Soares, Benja Fallenstein, Eliezer Yudkowsky, Stuart Armstrong. 2014/2015。”可订正这是AAAI 2015伦理与人工智能研讨会上发表的论文。
保罗global。2016。”知情监督问题．”AI对齐．
Dylan Hadfield-Menell, Stuart Russell, Pieter Abbeel和Anca Dragan。”协同逆强化学习”。在神经信息处理系统的进展亚博体育苹果app官方下载29(少量)。
斯科特Garrabrant。2017。”作为健壮委托问题的逻辑更新性．”更少的错误．
以利以谢Yudkowsky》2015。”价值的复杂性．”Arbital．
斯科特Garrabrant。2018。”优化放大．”更少的错误．
查尔斯·古德哈特。1981。《货币管理的问题:英国的经验》在西方的通货膨胀、萧条和经济政策．罗曼和Littlefield。
詹姆斯·史密斯和罗伯特·温克勒，2006。”优化者的诅咒:决策分析中的怀疑主义和决策后的意外”。在管理科学52:3。
杰西卡·泰勒。2016。”量化器:有限优化中相对于最大化者更安全的选择论文发表于2016年AAAI AI伦理与社会研讨会。
丹尼尔·杜威》2011。”学习什么值得重视”。在AGI会议纪要2011．施普林格。
亚伯兰Demski。2017。”指向值的稳定指针:嵌入在其自身效用函数中的代理．”智能代理基金会论坛．
Tom Everitt, Victoria Krakovna, Laurent Orseau, Marcus Hutter和Shane Legg. 2017。”用错误的奖励渠道强化学习”。在第26届人工智能国际联席会议论文集．
Paul Christiano, Buck Shlegeris和Dario Amodei. 2018。”通过放大弱专家来指导强学习者arXiv: 1810.08575 (cs.LG)。

进一步阅读:“完全更新的顺从问题”

子系统亚博体育苹果app官方下载对齐

（文字版本- - - - - -插图版）

以利以谢Yudkowsky》2017。”Non-Adversarial原则．”Arbital．
斯科特Garrabrant。2018。”鲁棒性规模．”更少的错误．
以利以谢Yudkowsky》2015。”人工智能安全万能测试．”Arbital．
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David ward - farley, Sherjil Ozair, Aaron Courville和Yoshua Bengio. 2014。”生成敌对的网”。在神经信息处理系统的进展亚博体育苹果app官方下载(少量)27。
以利以谢Yudkowsky》2016。”优化守护进程．”Arbital．
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant. 2019。”高级机器学习系统中学习型优化的风险亚博体育苹果app官方下载arXiv: 1906.01820。之前引用的草案形式为“内部对齐问题。”
达里奥·阿莫代，克里斯·奥拉，雅各布·斯坦哈特，保罗·克里斯蒂安诺，约翰·舒尔曼和丹Mané。2016.”人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
保罗global。2016。”学习与灾难。”AI对齐．
保罗global。2018。”优化最坏情况性能的技术．”AI对齐．

嵌入式代理

一般

决策理论

嵌入式世界模型

强大的代表团

子系统亚博体育苹果app官方下载对齐

搜索

浏览

订阅