神将的球员,他反过来。
但是上帝超越上帝开始了一轮
的尘埃和时间和睡眠和痛苦?

豪尔赫·路易斯·博尔赫斯

在我写这篇专栏文章时,一个计算机程序AlphaGo跳动的职业围棋选手李Sedol高调在首尔举行的比赛。Sedol是世界上排名前三的球员之一,到达最高等级的9个丹。战胜人性的一个最好的代表非常古老和传统的棋盘游戏是一个3比1,更多的游戏来。这个失败,电脑被虐的人最后的经典棋盘游戏,游戏以深度和简单。一个时代结束了,一个新的开始。底层AlphaGo方法,其最近的胜利,对机器智能的未来有惊人的影响。

出来的地方

提升AlphaGo的顶端去世界一直是惊人的和轨迹截然不同的机器下棋。在一段十年专用的硬件和软件工程师团队,最终由IBM雇佣,构建和编程一个专用的超级计算机,命名为深蓝色,做一件事,一件事只打国际象棋通过评估每秒2亿板的位置。在普遍预期发展,然后IBM团队挑战卫冕世界象棋冠军卡斯帕罗夫。在1996年6场比赛,卡斯帕罗夫胜了深蓝色三赢了,两个平,一个lossbut失去一年后在一个历史性的复赛2 - 1/2 3 - 1/2。

国际象棋是一种经典的游戏策略,类似于井字(“画圈打叉游戏”),跳棋(国际跳棋),黑白棋(奥赛罗)、西洋双陆棋,玩家轮流放置或移动。不像纸牌游戏,参与者只能看到自己以及大家的废弃的卡片,玩家有完全访问所有相关信息没有扮演任何角色的机会。

的规则是相当简单的比国际象棋。黑白双方每访问一碗黑色和白色石头,每个地方打开19通过19个网格。一旦放置,石头不要动。游戏的意图,起源于2500多年前,中国是完全环绕相反的石头。这种包围的石头被认为是捕获并退出董事会。纯粹简单的大美人arises-complex黑人和白人军队之间的争斗,跨度从角落到董事会的中心。

严格的逻辑游戏,比如国际象棋,可以表现为许多可能的位置如何出现,边界的复杂性。根据游戏的阶段,玩家必须选择一个少量的可能的行动,称为游戏的广度或分支系数b。如果是白色的,她需要选择之一b可能的举措;黑色可以应对这些b他自己的一些探讨。一转后,有了bbb2白色需要考虑移动策略。假设一个国际象棋的游戏持续平均d移动(称为游戏的深度),从任何一个完整的博弈树开始——所有的动作列表,由此counter-countermoves等等,直到一方或其他wins-containsbbb…,d次,或bd结束位置(所谓的终端节点或搜索树的树叶)。考虑到一个典型的国际象棋游戏的分支系数约为35和80移动,可能移动的数量是巨大的,大约3580年(或10123年),又名“香农号”后,贝尔实验室先锋克劳德·香农不仅发明了信息理论,还写了第一篇论文如何编程机器下棋,早在1950年。香农的号码,10点123年,是巨大的,特别是考虑到只有大约1080个原子在整个可观测宇宙的星系,恒星、行星、狗,树和人。但是去的复杂性大,大得多。广度的250种可能的移动每个转(去演奏相比19日19日董事会的规模小得多的八个八象棋字段)和一个典型的游戏深度150移动,大约有250人150年,或10360年可能的行动。这是一个超乎想象的数量和显示任何想到详尽评估,所有可能的行动完全不现实的。

鉴于这种几乎无限的复杂性,是比国际象棋,识别模式时出现的离合器的石头周围的空地。球员认为,有意或无意地将石头和组之间的关系讨论看似模糊的概念如“轻”和“重”形状的石头,和这个地方,这意味着潜在的可能性。这样的概念,然而,更难捕获算法比正式的游戏规则。因此,计算机程序去努力与国际同行相比,并没有击败过一个专业的常规比赛条件下的人类。这样一个事件被展望至少需要10年时间。

通过一篇文章然后AlphaGo闯入公众意识在世界上最受尊敬的科学杂志,自然,今年1月28日。它的软件是由一个20人的团队在昔日的象棋神童和神经学家AI先锋,黛米斯,从他的伦敦公司DeepMind技术,在2014年被谷歌收购。最有趣的是,自然文章透露,AlphaGo玩对获胜者的欧洲锦标赛,回族,2015年10月,获得5 0没有阻碍人类的球员,一个闻所未闻的事件。(新利18luck体育是蹦跳的自然的一部分。)

看下罩

值得注意的是,AlphaGo的算法不包含任何真正新颖的见解或突破。软件结合了老式的神经网络算法和机器学习技术和一流的软件工程运行在强大但相当标准hardware-48中央处理单元(cpu)的八个图形处理单元(gpu)发展呈现3 - d图形的游戏社区和极其强大的运行特定的数学运算。

神经网络计算的核心,遥远的神经元电路操作在生物的后代的大脑。层的神经元,安排在重叠层、过程输入位置的石头在19日19日去通过获得越来越多的抽象表示的各个方面使用所谓的卷积网络游戏。这种技术使得最近可能突破表演自动图像recognition-automatically标签,例如,所有图片发布到Facebook。

对于任何特定的板的位置,两个神经网络同步操作来优化性能。“价值网”减少了有效的深度搜索给定板位置估算可能导致赢得没有追踪搜索树的每个节点,和一个“政策网络”降低了游戏的广度,限制数量的特定板位置移动网络认为通过学习选择最好的那个位置移动。政策网络生成可能的举措,价值网络然后法官可能击败对手。

具有讽刺意味的最强大的技术完全确定的——这一举一动完全是早些时候决定基于概率,基于意识到,绝大多数的树的分支机构不能自觉的探索,最好是随机选择的一些最有前途的分支几乎和评估他们的,是一块板子的位置在一个或其他玩家获胜。游戏中的各个节点树可以偏重于那些最有可能导致一场胜利。做一遍又一遍,这样的伪随机抽样,称为蒙特卡洛树搜索,可以导致最优行为即使只有一小部分完整的博弈树是探索。蒙特卡罗techniques-born罪在洛斯阿拉莫斯国家实验室在1940年代末第一核武器设计广泛应用于物理学。这个蒙特卡洛树技术成功实现在疯狂的石头,最早的程序去玩在一个体面的业余水平。

然而蒙特卡洛树搜索本身不够好这些项目竞争在世界一流水平。需要给AlphaGo学习能力,最初由暴露在以前玩游戏的职业玩家,随后通过启用程序对本身数以百万计的游戏,在这个过程中不断提高其性能。

在第一阶段,神经网络开始作为一个空白的写字板13-layer政策完全没有接触过。然后训练3000万板头寸从160000年真实的游戏从一个数据库。这个数字代表了更多的游戏,任何职业球员都会遇到一生中。每个板位置与实际行动选择的球员(这就是为什么这种技术称为监督学习)和网络之间的连接是通过调整标准所谓深机器学习技术,使网络更容易选择更好的下一次。然后网络测试用板的位置从一个游戏此前从未见过。虽然远非完美,它准确地预测此举职业球员了

在第二个阶段,政策网络训练本身使用强化学习。这种技术是一个持久的遗产behaviorism-a学派主要的心理学和生物学上世纪上半年。表示将微生物从蠕虫,苍蝇和海蛞蝓的老鼠和人学习有关一个特定的行动之前对特定刺激。当他们这样做一遍又一遍,生物体建立一个刺激和反应之间的联系。可以完全无意识地使用死记硬背。

考虑训练你的狗滚动和“装死”命令。你这样做打破这个复杂的行为分成小actions-lie在地上,翻,延长爪子到空气中。一旦行动发生自发或因为你显示你的狗,她试图模仿你,这是奖励(或“钢筋”的术语)的表扬或少量的食物。做的次数足够多,狗最终会死在行动命令。

强化学习是实现年前在模仿动物神经网络行为和训练机器人。DeepMind演示了去年复仇当网络被教导如何49不同雅达利2600玩视频游戏,包括视频弹球,明星炮手,Robotank,道路跑步,乒乓球,太空入侵者,吃豆人女士,外星人和蒙特祖玛的复仇。(在的标志,雅达利日本是一个术语,表示即将捕获更多的石头之一。)

每次,DeepMind网络”看到“相同的视频游戏屏幕,包括当前的分数,任何人类玩家会看到。网络的输出是一个命令操纵杆移动屏幕上的光标。勒令后程序员游戏得分,最大化算法,求出了游戏规则在成千上万的试验。移动学习,达到外星船只和避免被摧毁了。对于一些游戏,它实现了超人的性能。同样强大的强化学习算法被AlphaGo部署,从监督学习后的政策网络的配置步骤。

在第三个和最后一个阶段的训练,价值网络,估计给定板位置的可能性有多大可能会导致一场胜利,是训练有素的自身位置,使用3000万政策网络的选择。self-play这个特性,不可能对人类复制(这需要玩家的头脑一分为二),,使得算法能够不断提高。

AlphaGo的特点是,它将选择一个策略,最大化赢得无论多少的概率。例如,AlphaGo宁愿赢得概率为90%比85%概率50两块石头石头。很少有人会放弃风险稍大的机会粉碎他们的对手赞成勉强狭窄但可靠的胜利。

最终的结果是一个程序,比任何竞争对手更好执行,击败了主扇回族。然而,回族不是世界300强企业行列——上层的球员,他们的能力的差异非常明显,甚至一生的训练不会使回族击败像李Sedol。因此,基于五公开游戏AlphaGo之间和回族,Sedol自信地预言他将主宰AlphaGo,赢得了五场比赛,没有或者,也许在一个糟糕的一天,四场比赛。他没料到的是,这个项目他是面临在首尔是一个大大改善了版本的一个回族遇到六个月前,被无情的self-play优化。

深蓝和AlphaGo一个有趣的区别是,评估发动机前,分配一个积极的(好)或负面(坏的)价值任何一个棋盘的位置,是显式地编程。这种区别使深蓝的程序员添加显式规则,比如“如果这个职位时,这样做,”的策略。这是不可能的深蓝色的神经网络后裔,AlphaGowhere所有知识编码隐式的“权重”网络。

下一个什么?

深蓝代表了机器布朗战胜一个人类大脑。它的成功是几乎完全建立在非常快的处理器,为此目的而建造的。尽管它战胜卡斯帕罗夫是一个历史事件,胜利没有导致任何实际应用或分拆。事实上,IBM机器不久之后退休。

同样的情况不太可能发生AlphaGo。现成的处理器上运行的程序。使它获得更多的计算能力(通过网络分发1200 cpu和gpu)只略微改善它的性能。功能,使不同的是AlphaGo一分为二的能力,与本身,不断提高其整体性能。现在还不清楚是否有任何限制AlphaGo能够改善。(如果只能说我们的老式的相同的大脑)。这可能构成任何智能系统的心脏,人工智能研究者pursuing-general的圣杯,堪比人类的智慧的力量和灵活性。

斯DeepMind团队很可能是考虑设计更强大的程序,如版本,自学可以从零开始,而无需依赖人类游戏的语料库作为例子,版本学国际象棋,程序同时下棋,下棋,在世界级的水平或那些可以解决不限注德州扑克或类似游戏的机会。

非常值得称道的,哈萨比斯和他的同事们在耗尽细节描述算法和参数设置DeepMind团队用于生成AlphaGo陪同自然出版。这进一步加速快节奏的AI在学术和工业研究实验室。强化,基于试验和错误学习算法可以应用于无数问题足够的带安全标签的数据时,他们是金融市场,医疗诊断、机器人、战争等等。一个新时代已经开始与未知但潜在的中长期影响就业模式、大规模监测和日益增长的政治和经济的不平等。

AlphaGo去本身的影响呢?尽管灾难预言者相反,无处不在的象棋程序的崛起,重振国际象棋,帮助训练的一代更强大的球员。同样的事情很可能发生的社区。毕竟,任何汽车或摩托车可以速度快于任何运动员消除转动,不是为了好玩。更多的人比以往任何时候跑马拉松。事实上,它可以辩称,通过消除需要不断地证明自己是最好的,人类可能现在更享受这无比的自然审美和智力游戏的简朴的光辉。的确,在中国古代四大艺术之一任何培养学者和绅士将主是围棋。

就像一个有意义的生活必须为自己的内在生活和正当的原因,所以应该是为其内在价值的快乐。正如哲学家马克•罗兰兹所说,这种快乐可以假设许多形式:

“有重点的喜悦,体验被完全沉浸在一个是做什么。有奉献的快乐,的经验致力于行动而不是结果,活动,而不是目标。有持久的快乐,玩这个游戏的经验你可以玩它,努力给所有你需要游戏,没有坦克,无论经验人数这付出代价。这是挑战的喜悦,野生和激烈:不,你不会打破我,不是这儿,不是今天。”

在对抗一个新的和优越的力量,李Sedol,代表所有人,表明这种快乐。这篇文章献给他。