|Rob Bensinger|新闻稿
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse和Scott Garrabrant在“mesa-optimization”:
这个序列的目标是分析当一个已学习的模型(例如神经网络)本身是一个优化器时发生的已学习的优化类型——我们称之为这种情况mesa-optimization.
我们认为台面优化的可能性对先进机器学习系统的安全性和透明度提出了两个重要问题。亚博体育苹果app官方下载首先,在什么情况下学习的模型会成为优化器,包括在什么情况下它们不应该成为优化器?第二,当一个学习过的模型是一个优化器时,它的目标是什么——它将如何不同于它所接受的损失函数,以及它如何对齐?
序列始于从已知优化中获得的风险:引言和继续Mesa-Optimization条件.(LessWrong镜子。)
其他的更新
- 新研究帖亚博体育官网子:纳什均衡可以是任意坏的;自我确认的预测可能是任意糟糕的;而且AI也会消失,如果......;不确定性、模糊性、外推性
- 我们发布的2018年度审查.
- 应用程序是开放的两个AI安全事件在英格兰布莱克浦的EA Hotel:逐步学习AI安全研讨会(16-19岁),以及技术AI安全局会议(8月22日至25日)。
- 关于起飞速度的讨论,包括一些非常不完整和高层次的MIRI评论。
新闻和链接
- 其他最近的人工智能安全帖子:汤姆·西特勒的人工智能风险论据的转变和魏戴笠的“UDT2”和“反对UD + ASSA”.
- 来自SafeML ICLR研讨会的谈话正在进行在线提供.
- 来自Openai.“我们正在实施两种机制来负责地发布GPT-2,并希望未来发布:分阶段发布和基于伙伴关系的共享。”
- 梁FHI的玉辩称“在人工智能治理机制的形成阶段,国家缺乏领导能力”,而“私人人工智能实验室最适合领导人工智能治理”。