新论文:“定义价值学习者的人类价值观”

||文件

定义值Miri 亚博体育官网Research Associatiate Kaj Sotala最近提出了一篇新论文,“定义价值学习者的人类价值观,“在AAAI-16 AI,社会和伦理研讨会。

摘要读:

假设的“价值学习”AIS学习人类价值,然后尝试根据这些价值观行事。然而,这种AIS的设计受到既有人类价值观的令人满意的定义的事实受到阻碍。在争论中,偏好的标准概念作为定义不足之后,我借鉴了加强学习理论,情感研究和道德心理学,以提供替代定义。亚博体育官网在这种定义中,人类价值观被概念化为单一的心理表现,可以通过用上下文敏感的情感光泽来编码大脑的价值函数(在增强学习意义上)。我讨论了这一假设对价值学习者设计的影响。

代理机构的经济处理标准假设偏好编码在代理人的选择中揭示的世界各州一致的订单。然而,现实世界的偏好具有在经济模型中并不总是捕获的结构。例如,一个人可以对哪个偏好是关于考试的偏差,以及他们最终制作的选择可能取决于复杂的,背景敏感的心理动态,而不是在一个代表一个人想要的两个数字的简单比较学习或不学习。

Sotala认为,在进化理论和强化学习方面,我们的偏好更好地理解。人类演变为追求可能导致某些结果的活动 - 倾向于改善祖先的健身。我们更喜欢那些结果,即使他们不再实际上最大化健康;我们还更喜欢我们学到的事件倾向于产生这种结果。

影响和情感,在Sotala的账户中,心理上调解我们的偏好。我们享受和渴望在我们进化的奖励功能中非常有益的国家。随着时间的推移,我们还学会享受和渴望似乎可能导致高奖励国家的国家。在此视图上,我们的偏好函数将导致期望的事件组合在一起,以出于类似原因的类似奖励结果;在我们的一生中,我们来到固有的价值国家,导致高奖励,而不是物理地重视这些国家。我们的偏好地图地图奖励的期望而不是直接映射到我们的奖励。

Sotala提出了这一点价值学习系统亚博体育苹果app官方下载通过这种人类心理学模型知情可以更可靠地重建人类价值。例如,在此模型中,我们可以预期人类偏好改变,因为我们找到了走向高奖励状态的新方法。新体验可以改变哪些状态,我的情绪被分类为“可能导致奖励”,他们可以修改我喜欢和欲望的国家。价值学习系统考虑到人类心理动态亚博体育苹果app官方下载的这些事实可能会更好地承担考虑到未来的偏好,而不是仅针对我们目前的偏好优化。