更新
- 我们的2019年筹集资金12月31日结束。几周后,我们将在我们的筹款回顾中有更多要说的,但现在,非常感谢~240位捐赠者,他们总共捐赠了52.6万美元,包括在第一个20秒的67,484美元yabo体育官网下载ios周二给(不包括还未公布的匹配美元)。
- 1月15日是最后一天CFAR的年度筹款.CFAR也最近举办了一个AMA和是否在网上发布了研讨会参与者手册.
- 理解《深双血统》: MIRI研亚博体育官网究员Evan Hubinger描述了ML中一个迷人的现象,以及ML研究中一个有趣的案例研究,旨在加深我们的理解,而不仅仅是提高能力。在一篇后续文章中,埃文也考虑了这个问题对对齐研究的可能影响亚博体育官网.
- 安全探索和纠正Evan指出了一个重要的(与路线相关的)方式,即在深层RL中探索的概念已经发生了变化。
- ”通过评估假设行为来学习人类目标:加州大学伯克利分校(UC Berkeley)和Deep亚博体育官网Mind研究人员“提出了一种方法,可以在存在未知不安全状态时,通过人类反馈来训练强化学习代理”。
来自研究团队的链接亚博体育官网
这延续了我上个月的实验:让MIRI研究人员匿名挑选AI对齐论坛的帖子,并对其进行强调和评论。亚博体育官网
- 再保险在人工智能辩论中(什么时候)讲真话更受青睐?-“Vojtěch Kovařík和瑞安·凯里的一篇论文;很高兴看到辩论模式取得了一些进展!”
- 再保险神经网络理论的最新进展-“Noah MacAulay提供了另一个有趣的研究例子,试图解释神经网络发生了什么。”亚博体育官网
- 再保险当Goodharting是最佳选择时-“我喜欢斯图尔特·阿姆斯特朗的帖子,他系统地研究了我们为什么会害怕古德哈特。亚博体育苹果app官方下载开始的例子很有趣,因为看起来(至少在我看来)机器人真的应该来回移动(在两边停留很长时间,以最小化损失的效用)。但斯图尔特是对的,这个答案至少很难证明。”
- 再保险在mdp中,寻求权力是工具趋同和阐明权力追求和工具趋同-“很高兴终于有了一个正式的模型,这要感谢Alex Turner和Logan Smith。长期以来,工具性融合一直是讨论的一个非正式部分。”
- 再保险批评“失败是什么样子”-“我认为格鲁·斯林基的帖子是对保罗·克里斯汀诺的‘呜咽着走出去,强调了它作为一个具体的人工智能风险场景似乎存在的一些问题。特别是,我发现单纯形算法的类比很有说服力,因为它展示了,尽管我们目前最强大的工具在处理不同的问题时已经存在巨大的差异,那些没有被这些工具很好地服务的价值观似乎并没有因此而大量丢失。我仍然觉得在‘呜咽着离开’的道路上可能存在真正的风险,但我认为这篇文章对目前为止所描述的那种情况提出了真正的挑战。”
- 再保险反事实的归纳——亚历克斯·阿佩尔对逻辑反事实的建议。这需要一些更仔细的思考和批评;目前还不清楚它到底能实现多少目标。”
- 再保险平淡无奇的人工智能对齐进退两难——“丹尼尔Kokotajlo概述关键挑战平淡的对齐方式:“[…]现在我认为:问题是明显比竞争平淡的人工智能安全方案必须故意创建偏差mesa-optimizers然后(希望)找出如何使他们,使他们可以用于计划。”