更新
- 新研究帖亚博体育官网子:需要简化的首选项,简化的偏好充分;平滑和个人身份;示例人口伦理:订购折扣效用;人类价值理论;对抗性IDA的具体提案
- Miri收到了一套新补助金来自公开慈善项目和伯克利存在风险倡议。
新闻和链接
- 来自DeepMind安全团队和Alex Turner:设计代理激励措施以避免副作用。
- 来自Wei Dai:“足够优化的药剂看起来相干的三种方式可以是假的;这些类比对于理解知情监督和IDA有什么问题?;和AI风险的主要来源?
- 其他最近的写作:ISSA米决策理论的比较;保罗·克里蒂纳诺更现实的厄运故事;和Linda Linsefors'勒索博弈论。
- Openai的Geoffrey Irving通过辩论描述了AI安全在FLI的AI对齐播客。
- 网络信用是AI X-Risk概念:种子。