嵌入式代理-机器智能研究所亚博体育官网

嵌入式代理是Abram Demski和Scott Garrabrant的一篇文章，可以在AI对齐论坛上找到在这里．还有一个更短的版本手绘序列，以及一个轻微重写的版本在arXiv．

Embedded Agency首次发布于2018年，随后在2019年初发布了arXiv版本。2020年8月，Demski和Garrabrant全面更新了所有版本．

我们在下面列出了相关主题/章节中的链接和参考文献。

一般

（文本介绍- - - - - -说明介绍- - -米里博客后记- - - - - -LessWrong后记）

马库斯Hutter》2012。”全球人工智能十年”。在人工智能的理论基础4.
内特·苏亚雷斯。2017。”确保比人类聪明的智力有一个积极的结果．”美里的博客．
以利以谢Yudkowsky》2018。”火箭对准问题．”美里的博客．

进一步阅读:“安全心态和普通偏执”;”机器智能与人类兴趣对齐的代理基础”

决策理论

（文字版本- - - - - -插图版）

Eliezer Yudkowsky和Nate Soares, 2017。”功能决策理论:一种新的工具理性理论arXiv: 1710.05060 (cs.AI)。
斯科特Garrabrant。2017。”逻辑感应器决策理论的两个主要障碍．”智能代理基础论坛．
帕特里克LaVictoire。2015.MIRI研究中的Löb定理简介亚博体育官网．MIRI技术报告2015-6。
Rob Bensinger》2017。”决定是为了使坏的结果不一致．”美里的博客．
魏戴》2009。”走向新的决策理论．”更少的错误．
弗拉基米尔•Nesov》2009。”反事实的抢劫．”更少的错误．

嵌入式世界模型

（文字版本- - - - - -插图版）

亚伯兰Demski。2018。”技术解释的新技术解释．”更少的错误．
内特·苏亚雷斯。2015。形式化现实世界模型的两个问题．MIRI技术报告2015-3。
2016年1月Leike。。非参数广义强化学习．博士论文，澳大利亚国立大学。
劳伦特·奥索和马克·林，2012年。”时空嵌入式智能”。在人工智能，第五届国际会议．施普林格。
Benja Fallenstein, Jessica Taylor和Paul Christiano, 2015。”反射神谕:经典博弈论的基础arXiv: 1508.04145 (cs.AI)。
Jan Leike, Jessica Taylor, Benya Fallenstein。2016。”真理的实质问题的正式解决方案论文发表于第32届人工智能不确定性会议。
Nate Soares和Benja Fallenstein, 2015。逻辑不确定性下的推理问题．MIRI技术报告2015-1。
亚伯兰Demski。2018。”《难以控制的数学家图解》．”更少的错误．
以利以谢Yudkowsky》2017。”一致的决策意味着一致的效用．”Arbital．
2016年，Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares和Jessica Taylor。”逻辑归纳arXiv: 1609.03543 (cs.AI)。
以利以谢Yudkowsky》2015。”本体标识．”Arbital．
彼得·德·勃朗，2011。”人工主体价值体系中的本体论危机亚博体育苹果app官方下载”。(cs arXiv: 1105.3821。人工智能)
卡斯帕Oesterheld》2017。”归化归纳法-对证据和因果决策理论的挑战．”更少的错误．
Rob Bensinger》2013。”建筑现象学的桥梁．”更少的错误．
托马斯·内格尔》1986。不知从哪里来的风景．牛津大学出版社。

进一步阅读:“AIXI的问题”

强大的代表团

（文字版本- - - - - -插图版）

斯图尔特·阿姆斯特朗和Sören Mindermann. 2017。”奥卡姆剃刀理论不足以推断非理性行为者的偏好arXiv: 1712.05812 (cs.AI)。
Benja Fallenstein和Nate Soares, 2015年。Vingean反思:自我改进代理的可靠推理．MIRI技术报告2015-2。
Eliezer Yudkowsky和Marcello Herreshoff, 2013。”用于自修改人工智能的Tiling代理，以及Löbian障碍”草案。
David Manheim和Scott Garrabrant, 2018。”古德哈特定律的变体分类arXiv: 1803.04585 (cs.AI)。
内特·苏亚雷斯。2015/2018。”价值学习问题”。在人工智能安全保障．查普曼和大厅。
Nate Soares, Benja Fallenstein, Eliezer Yudkowsky和Stuart Armstrong。2014/2015。”可订正论文发表于AAAI 2015伦理与人工智能研讨会。
保罗global。2016。”知情监督问题．”AI对齐．
Dylan Hadfield-Menell, Stuart Russell, Pieter Abbeel和Anca Dragan, 2016。”合作反强化学习”。在神经信息处理系统进展亚博体育苹果app官方下载29(少量)。
斯科特Garrabrant。2017。”逻辑可更新性是一个健壮的委托问题．”更少的错误．
以利以谢Yudkowsky》2015。”价值的复杂性．”Arbital．
斯科特Garrabrant。2018。”优化放大．”更少的错误．
查尔斯·古德哈特。1981。《货币管理问题:英国的经验》在西方的通货膨胀、萧条和经济政策．罗曼和Littlefield。
詹姆斯·史密斯和罗伯特·温克勒，2006。”优化者的诅咒:决策分析中的怀疑和决策后惊喜”。在管理科学52:3。
杰西卡·泰勒。2016。”量化器:在有限优化中比最大化器更安全的选择论文发表于AAAI 2016人工智能，伦理与社会研讨会。
丹尼尔·杜威》2011。”学会重视什么”。在AGI 2011会议录．施普林格。
亚伯兰Demski。2017。”稳定指针值:嵌入在自己的实用函数中的代理．”智能代理基础论坛．
Tom Everitt, Victoria Krakovna, Laurent Orseau, Marcus Hutter, Shane Legg。2017。”使用损坏的奖励渠道进行强化学习”。在第26届人工智能国际联合会议论文集．
保罗·克里斯蒂亚诺，巴克·施莱格里斯和达里奥·阿莫代。”通过放大弱专家来监督强学习者arXiv: 1810.08575 (cs.LG)。

进一步阅读:“完全更新的顺从问题”

子系统亚博体育苹果app官方下载对齐

（文字版本- - - - - -插图版）

以利以谢Yudkowsky》2017。”Non-Adversarial原则．”Arbital．
斯科特Garrabrant。2018。”鲁棒性规模．”更少的错误．
以利以谢Yudkowsky》2015。”人工智能安全全能测试．”Arbital．
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David ward - farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio。2014。”生成敌对的网”。在神经信息处理系统进展亚博体育苹果app官方下载(少量)27。
以利以谢Yudkowsky》2016。”优化守护进程．”Arbital．
2019年，Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant。”先进机器学习系统中学习优化的风险亚博体育苹果app官方下载arXiv: 1906.01820。之前在草稿中提到的"内部对齐问题"
达里奥·阿莫代、克里斯·奥拉、雅各布·斯坦哈特、保罗·克里斯滕诺、约翰·舒尔曼和丹Mané。2016.”人工智能安全的具体问题arXiv: 1606.06565 (cs.AI)。
保罗global。2016。”学习与灾难。”AI对齐．
保罗global。2018。”优化最坏情况下性能的技术．”AI对齐．

嵌入式代理

一般

决策理论

嵌入式世界模型

强大的代表团

子系统亚博体育苹果app官方下载对齐

搜索

浏览

订阅