AlphaGo Zero和Foom辩论

||yabo app

alphano零它使用4个tpu,完全由神经网络构建,没有任何手工功能,无需预先训练与专家游戏或任何人类游戏对抗,在3天的自玩后达到超人水平,是目前最强的AlphaGo版本。

体系结构已经简化。之前的AlphaGo有一个预测好棋局的政策网络和一个评估位置的价值网络,两者都使用MCTS(随机概率加权的棋局到比赛结束)进行预测。AlphaGo Zero有一个神经网络来选择走法,这个神经网络是保罗-克里斯蒂安式训练的能力放大,播放游戏,以学习赢得胜利的新概率。

正如其他人也说过的,在我看来,这似乎是支持尤多科夫斯基观点而不是我和罗宾·汉森观点的证据AI-foom辩论

据我所知,

  • 汉森认为,与积累的领域知识或由专业公司构建的特殊用途组件等元素相比,他所称的“架构”并不重要,他认为这是为人工智能经济服务的公司生态。
  • 当我谈到在我看来,人类在结构上的改进比黑猩猩重要得多时,汉森回答说,在他看来,这似乎是允许知识的文化积累的一次性收获。

我强调了Go知识的所有强大人体大厦,乔塞基和策略在几个世纪地区发挥了几个世纪,专家教授早期的孩子,完全被alphago零丢弃,随后的性能改进。当我理解汉斯论文时,这些强大的人类知识的建立,应该是距离多个领域的AI功能迅速增长一次。我说,“人类智慧是废话,我们积累的技能是废话,”这似乎被承认了。

同样,像DeepMind这样的单一研亚博体育官网究实验室不应该远远领先于整体生态,因为让人工智能适应任何特定领域,应该需要由一个让其他公司可以使用这些组件的市场生态在各地开发大量组件。AlphaGo Zero要简单得多。在某种程度上,没有其他人能够用完并构建AlphaGo Zero,这要么是因为谷歌拥有通常不可用的张量处理单位(Tensor Processing Units),要么是因为DeepMind拥有能够真正利用ResNets等现有想法的专业知识,或者两者兼而有之。

在这里还应该强调能力增长的绝对速度。在Yudkowsky-Hanson的辩论中,我关于FOOM的大部分论点都是关于自我完善,以及当一个优化循环被折叠起来时会发生什么。尽管在我看来这并不是必要的,但是在过去的两年时间里,围棋游戏从“没有人能够打败职业棋手”变成了“超级超人,他们不会再为之烦恼”,这只是因为当你改进和简化架构时就会发生这种情况你甚至不需要自我改善来得到看起来像FOOM的东西。

是的,围棋是一个封闭的系统,允许玩家自我亚博体育苹果app官方下载游戏。人类花了几个世纪才学会如何玩这个游戏。也许,阻碍快速提高能力的新汉桑式壁垒可能是,环境中有很多经验的部分,这些部分被认为是很难学习的,即使在人工智能思维的极限下,它的速度也足以在3天内打破过去几个世纪的人类学习方式;经过几个世纪的文化积累,人类已经学会了这些重要的知识,尽管我们知道,当人类拥有所需的所有经验信息时,人工智能学习3天需要几个世纪的时间;并且,AIS无法使用“架构”非常快速地吸收这些知识,即使人类使用架构彼此学习.如果是这样,那么让我们写下这个新的世界毁灭假设(也就是说,如果这个假设是错误的,世界就会毁灭),并寻找进一步的证据来证明这个假设可能是错误的。

AlphaGo显然不是一般的人工智能。很明显,人类做的一些事情让我们比AlphaGo更通用,而AlphaGo显然不这么做。然而,如果即使使用了人类的特殊酱汁,我们也希望AGI能力是缓慢的、特定于领域的,并且需要来自一个巨大的市场生态的反馈,那么我们看到的没有人类等价的一般性特殊酱汁的情况不应该是这样的。

换句话说,在我的辩论中,我非常强调递归的自我完善,以及从灵长类智力到人类智力的普遍变化的显著飞跃。这并不意味着我们无法获得关于能力增长速度的信息没有自我提升。这并不意味着我们无法获得关于算法的重要性和普遍性的信息没有一般情报技巧。在我们甚至得到我所看到的好的部分之前,辩论可以开始满足于快速的能力。我不会预测alphaGo并损失金钱赌注,因为现实持有比在Yudkowsky-Hanson谱上的更极端的位置。

罗宾·汉森的回复。