美里更新
- MIRI的Abram Demski提出了三个问题:应用决策理论意味着什么?,GPT-3有多“诚实”?,如何判断人工智能辩论?
- MIRI研究员Scott Garrabrant亚博体育官网的记录:我该怎么办?简单算法中的自预测.
- MIRI研亚博体育官网究员Buck Shlegeris回顾了关于核武器的历史暗示了人类的协调能力.
- MIRI的Evan Hubinger说:学习先验和泛化和对齐建议和复杂性类.
- 拉斐尔念佛的内部对齐:解释就像我是12版总结了“学习优化带来的风险”。
- Issa大米回顾到目前为止的讨论关于MIRI的研究重亚博体育官网点,“在多大程度上有可能有一个精确的理性理论?”,以及两者之间的关系deconfusion亚博体育官网研究和安全成果。(加上一个简短的回复.)
- “网上学习奖赏功能的陷阱”(IJCAI纸展出,LW总结): FHI研亚博体育官网究员、MIRI研究助理斯图尔特·阿姆斯特朗(Stuart Armstrong)与DeepMind的简·莱克(Jan Leike)、劳伦特·奥索(Laurent Orseau)和谢恩·莱格(Shane Legg)一起探索如何阻止agents操纵奖赏信号,使其更容易优化。
新闻和链接
- 从保罗global:学习之前和更好的前科是一个安全问题.
- 从维多利亚Krakovna:在影响度量中基线选择的理想属性之间的权衡.
- 本的速度总结了克里斯蒂安诺“失败是什么样子”的帖子以及由此产生的讨论。
- Kaj Sotala收集了最近的例子使用GPT-3的人的经验.