Evan Hubinger,Chris Van Merwijk,Vladimir Mikulik,Joar Skalse和Scott Garrabrant已发布前两个(五个)帖子“MESA优化“:
该序列的目标是分析学习型号的学习优化类型,当学习模型(例如神经网络)本身是优化器时 - 我们所指的情况MESA优化。
我们认为,MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。亚博体育苹果app官方下载首先,在什么情况下学习模型是优化的,包括当他们不应该?其次,当学习模型是优化器时,它的目标是什么 - 它将与损失函数不同,它在训练中训练 - 它可以是如何对齐的?
序列始于来自学位优化的风险:介绍并继续MESA优化的条件。(Lesswrong镜子。)
其他更新
- 新研究帖亚博体育官网子:纳什均衡可以任意差;自我确认的预测可以任意差;而且AI也会消失,如果......;不确定性与模糊性与外推vesiderata
- 我们已经发布了我们2018年度审查。
- 应用程序是开放的两个ai安全事件在英格兰布莱克浦的EA Hotel:逐步学习AI安全研讨会(16-19岁),以及技术AI安全局会议(8月22日至25日)。
- 讨论起飞速度,包括一些非常不完整和高级别的Miri评论。
新闻和链接
- 其他最近的AI安全帖子:Tom Sittler'sAI风险的论点转变和魏戴的“UDT2”和“反对UD + ASSA”。
- 来自Safeml ICLR研讨会的会谈现在在线提供。
- 来自Openai.:“我们正在实施两种机制,以负责任地发布GPT-2,并希望未来的发布:上演释放和基于伙伴关系的共享。”
- FHI的玉乐辩称“各国不适用于AI治理制度的形成阶段,”私人AI实验室最适合领导AI治理“。