本
文
摘
要
国际象棋隐喻战争,但实际上,它更像是其中一场战役。而围棋就好比一个全球性的战场。
黄士杰(Aja Huang)用食指和中指夹起一颗黑子,瞅准棋盘空旷处,落在一颗孤零零的白子左下角。拿围棋术语来讲,这是一手“尖冲”,侧边切入,避开主要阵地。
对面,近十年来称霸世界棋坛的李世乭突然不动了。他看看棋盘上37颗棋子,起身离开了座位。
“我觉得这步走错了,”英语解说员克里斯·加洛克(Chris Garlock)说。他是美国围棋协会副主席。
几分钟后,李世乭回到棋盘边,但没有取子,一分钟,两分钟……直到15分钟后,李世乭才举棋,落在刚刚那枚黑子的正上方。
那一手“尖冲”只是黄士杰本局走出的第37手,但李世乭再也没能挽回颓势。四小时20分钟之后,他投子认负。
但本局比赛的真正赢家并不是黄士杰,他只是奉命行事。传达命令的是他左手边的一个平板显示器,它连接到旁边的一间控制室,控制室设在首尔的四季酒店,与全球各地谷歌数据中心的数百台计算机联网。黄士杰只负责落子,幕后主脑是一个叫做AlphaGo的人工智能。
在场观赛的还有另一位围棋高手——三度夺得欧洲冠军的樊麾。一开始,他也被黑37手搅乱了思路。但他和AlphaGo交过手。没有人比他更当得起“陪练”的头衔。在五个月的时间里,樊麾和AlphaGo大战几百个回合,以便让谷歌找出AlphagoGo的缺陷。樊麾一次又一次输给机器,但他渐渐开始了解AlphaGo——比任何人都更了解。一开始他觉得,常人是不会走出这一手的。但沉思十秒后,他豁然开朗。“太漂亮了。”他感叹。
在这场五局三胜制的比拼中,AlphaGo已连胜两局,李世乭和他所代表的人类依然两手空空。黑37手向我们证明,AlphaGo没那么简单,它靠的不只是多年的编程积累,也不只是预测暴力算法。它向我们证明,AlphaGo是能“理解”的,就算不是真正意义上的理解,至少也把它模仿到了以假乱真的程度。站在李世乭的角度,AlphaGo展现出了所谓的“棋感”——它能打出一场漂亮的比赛,就像人类一样,但又胜过人类。
但不要为李世乭或全人类感伤。李世乭不是殉道者,黑37手也并不意味着机器崛起,从此走上奴役我们这些“次级智能”的道路。恰恰相反:从黑37手起,机器和人类终于走上了共同进化之路。
“在我眼里,这些比赛真是说不出有多激烈。我真不知道会发生什么。”——大卫·席尔瓦
大卫·席尔瓦(David Silver)15岁的时候,曾在英格兰东海岸的萨福克郡参加国际象棋比赛,当时有个无人能敌的小孩名叫德米斯·哈萨比斯(Demis Hassabis),是个名副其实的天才。哈萨比斯的母亲是新加坡华裔,父亲是希腊裔塞浦路斯人。他曾在14岁以下年龄组中排名世界第二,他会到处参加地方赛区的比赛,就当练手,顺便赢些奖金。“德米斯认识我之前,我就知道他了。”负责创建AlphaGo的席尔瓦说,“他会跑到我们镇上比赛,赢了就走。”
他们真正认识是在剑桥大学,两人都在计算机神经科学系读本科。这门学科的目的是理解人类思维,以及有朝一日,让机器也具有智能。但真正把他俩联系在一起的还是游戏,包括棋盘上的和计算机上的。
国际象棋隐喻战争,但实际上,它更像是其中一场战役。而围棋就好比一个全球性的战场。
那是在1998年,所以两人毕业后,很自然地就创办了一家电子游戏公司。哈萨比斯常和一名同事下围棋,于是在他的影响下,席尔瓦也自学起了围棋。“不管是什么事,只要能打败德米斯,就好像是莫大的荣耀。”席尔瓦说,“而我知道,他对围棋的兴趣越来越浓厚。”
他们加入了当地的围棋俱乐部,和二、三段棋手切磋棋艺。但除了下棋,还有一件事困扰着他们:为什么偏偏在这一种智力游戏上,机器还没有战胜人类?1995年,一个名叫Chinook的计算机程序在西洋跳棋中打败了一名世界级选手。两年后,IBM超级计算机“深蓝”打败了国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)。之后几年,机器又拿下了Scrabble拼字游戏、黑白棋,乃至智力问答节目《Jeopardy》。用博弈论的术语来说,围棋与国际象棋和西洋跳棋一样,也是一种完全信息博弈——不存在偶然因素,没有隐藏信息。通常,掌握这样的游戏对电脑来说并不很难。但围棋就是攻不下来。
人们说,国际象棋隐喻战争,但实际上,它更像是其中一场战役。而围棋就好比一个全球性的战场,或者说是地缘政治斗争。棋盘一角的动静可能波及全盘局势。在国际象棋比赛中,一步可以有35种不同的走法;而在围棋里,这个数字接近200。在一局比赛中,这种复杂性就上升到了全新的层次。哈萨比斯和席尔瓦常说,围棋中可能出现的局面,其数量比宇宙中原子数的总和还要多。
李世乭(右)在人机大战中连败三局
首尔四季酒店的媒体接待室挤满了记者
因此,与国际象棋不同,围棋玩家——不管是人还是机器——无法把每一个潜在走法的最终结果都预计出来。顶尖选手靠的是棋感,而不是单纯的计算。“好的位置看着感觉就很好。”哈萨比斯说,“它仿佛遵循某种审美。这就是它几千年来魅力不失的原因。”
2005年,哈萨比斯和席尔瓦的游戏公司停止运营,两人各奔东西。席尔瓦去了阿尔伯塔大学,研究一种名为强化学习的新型人工智能。哈萨比斯则进入伦敦大学学院,获得了认知神经科学的博士学位。
2010年,两人重新聚头。在伦敦,哈萨比斯参与创建了一家人工智能公司,名为DeepMind;席尔瓦加入其中。他们的野心可不小:构建通用的人工智能,一种能真正思考的人工智能。但再大的目标,总要有一个切入点。
这个切入点当然就是游戏。DeepMind开始将强化学习和深度学习结合起来,在庞大的数据集中寻找规律,这算是一个比较新鲜的做法。为了检验它是否奏效,研究人员教这些羽翼未丰的人工智能玩起了《太空侵略者》和《打砖块》等游戏。
结果,DeepMind在《打砖块》里的表现非常成功,甚至超过了人类。
为拉拢投资者,哈萨比斯在一场晚宴上主动接近了彼得·泰尔(Peter Thiel)——著名的PayPal联合创始人兼Facebook投资人。哈萨比斯只有几分钟时间来吸引泰尔的兴趣。他知道泰尔热衷国际象棋,于是投其所好,以这一话题作为切入点。泰尔让哈萨比斯第二天再来,做一场正式的自我推介。
要攻克围棋,光靠暴力算法是永远不够的。在围棋中,选项实在太多,你不可能把每个潜在走法的结果都计算出来,哪怕是计算机也做不到。
只要有一个硅谷亿万富豪知道了你的名字,消息就会不胫而走。通过泰尔,哈萨比斯认识了伊隆·马斯克(Elon Musk),马斯克又把DeepMind的事告诉了谷歌CEO拉里·佩奇(Larry Page)。没过多久,谷歌就斥资6.5亿美元,把DeepMind收入囊中。
加入这家搜索巨头之后,哈萨比斯在一场会议上展示了会玩雅达利(Atari)游戏的人工智能项目,当时,谷歌联合创始人谢尔盖·布林(Sergey Brin)也在场。后来他们发现,原来彼此对围棋竟有着共同的热情。
所以,两人一碰到,就聊起了围棋。“不出几年,也许DeepMind就能击败世界围棋冠军。”哈萨比斯对布林说,“如果我们用心做的话。”
“我还以为这是不可能的呢。”布林说。
有这一句话就够了。游戏正式开始。
棋技高超的李世乭被视为韩国的民族英雄
在DeepMind和AlphaGo之前,人工智能研究者在试图攻克围棋的时候,都采用了同一种做法,就是在比赛进行过程中,系统性地预测每一步的结果,也就是用粗暴的计算能力来解决问题。1997年时,IBM的“深蓝”就是这样打败了卡斯帕罗夫。说来也巧,“深蓝”也是在第二局比赛中,走出了人类无论如何都不会走的一步。卡斯帕罗夫和李世乭一样被杀了个措手不及,但他没有李世乭那股拼劲儿,因为不堪重负,几乎是当场认输。
但要攻克围棋,光靠暴力算法是永远不够的。在围棋中,选项实在太多,你不可能把每个潜在走法的结果都计算出来,哪怕是计算机也做不到。席尔瓦的团队选择了另一种做法:建造一台机器,让它在一场比赛都没打过的情况下,就基本学会下棋。
第二局比赛期间,首尔四季酒店的媒体招待室
AlphaGo与李世乭(报中人物)之战成为了韩国的重大新闻事件
在DeepMind办公室,团队将3000万个棋步馈入一个深度神经网络。神经网络的用途很广,Facebook用它来标记照片中的人脸,谷歌则用它识别Android智能手机收到的语音指令。如果你往一个神经网络中馈入你的照片,一旦数量足够多,它就能认识你。馈入足够量的语音,它就能听懂你的话。馈入3000万个棋步,它就能学会怎么下围棋。
但掌握规则不等于棋艺精湛。黑37手可不是从那3000万棋步里学来的。那么,AlphaGo是怎么学会这一招的呢?
AlphaGo也知道这是一步险棋。“它知道专业棋手是不会这么走的,但它思考地越来越深入,最后重写了最初的指导原则。”席尔瓦说。从某种意义上说,AlphaGo开始独立思考了。这个决定并不是来自于创造者编入其数字DNA的规则,而是基于它自学得到的算法。“这一步棋的确是它通过反省和分析,由它自己发现的。”
它甚至把人类顶尖棋手走出这一步的概率都算了出来:万分之一。但AlphaGo没管这些,径直落子。
AlphaGo从这些人类棋步中学会了怎么下围棋,随后,席尔瓦又让AlphaGo与另一个略有不同的神经网络版本对弈,一盘接一盘地下,看哪些走法的胜算更大。这就是席尔瓦在读研究生时学到的强化学习技术。从中,AlphaGo开始建立起自己的机器走法库。
但这只是其中一个方面。后来,席尔瓦的团队把这些机器走法馈入另一个神经网络,让它像卡斯帕罗夫(或深蓝)那样,预测比赛结果。它没法像玩国际象棋一样,计算出所有可能的走法——这是做不到的。但下过这么多盘棋以后,利用收集到的所有知识,AlphaGo渐渐能预测一盘棋的大致走向。
从一个前所未见的开局中预测结局,这种能力就叫棋感。在第二局比赛中,体现AlphaGo棋感的就是黑37手,就连最顶尖的人类棋手都没有料到会走出这一招。“在我眼里,这些比赛真是说不出有多激烈。”席尔瓦说,“我真不知道会发生什么。”
2010年,德米斯·哈萨比斯参与创建了人工智能公司DeepMind
你花6.5亿美元收购一家公司,不是光让它下围棋玩的。深度学习和神经网络支撑着十几项谷歌服务,包括其强大的搜索引擎。AlphaGo还有一个不那么神秘的武器,就是强化学习。在谷歌的实验室里,它正在教机器人捡起并移动各种物件。
比赛期间,我和哈萨比斯一同走过钟路区——拥有600年历史的首尔文化和政治中心。我们正聊着天,一个少女认出了哈萨比斯(他的脸在韩国电视和报纸上随处可见),她在惊讶之余做出眩晕状,就好像见到了泰勒·斯威夫特(Taylor Swift)或贾斯汀·比伯(Justin Bieber)一样。
“你看到了吗?”我说。
“看到了。”哈萨比斯面无表情地回答,“常有的事。”
他可能不是在开玩笑。电脑工程师通常不会有粉丝,但韩国有800万人下围棋,李世乭是他们的民族英雄。在中国,超过2.8亿观众收看了比赛直播。
很多从头到尾关注比赛的人都意识到,机器已经迈过一个门槛。它们已经凌驾于人类能力之上。
所以也不难想通,为什么李世乭连输两局之后,在哈萨比斯粉丝们的兴奋之情中,也夹杂着些许落寞。第二局比赛结束后,一名中国记者在解说室跟我聊了起来,他很高兴能找到一个将AlphaGo视为技术壮举而不仅仅是“围棋杀手”的人。
不过我问他,对李世乭的失败有何感受。他指指自己的心,“我很伤感。”他说。
我也有同感。一种原本由人类独享的东西,现在已经没那么稀奇了。很多从头到尾关注比赛的人都意识到,机器已经迈过一个门槛。它们已经凌驾于人类能力之上。如今,机器还不能进行真正的对话,它讲不出好笑的笑话,也猜不出哑谜,更不懂“常识”。但AlphaGo仍不留情面地把人类踩在脚下,这告诉我们,如今的机器已经能模拟出世界顶尖棋手的那种棋感,甚至超越人类棋手。
李世乭连负三局之后,AlphaGo 已经在本次的五番棋中取胜。在其后的新闻发布会上,李世乭坐在哈萨比斯身旁,他道歉说,他让全人类失望了。“我本应表现得更好,获得更好的成绩。”他说。
李世乭说着,哈萨比斯突然也觉得有些不是滋味。作为AlphaGo的创建者之一,他是骄傲的,甚至欣喜不已,他的机器做到了人们原以为不可能的事情。但就连他自己都感觉到了这种人性的撼动。他开始希望李世乭能扳回一局。
第二局赛后的新闻发布会上,评论人士在探讨赛况
第四局比赛进行到两个小时,李世乭又一次深陷困局。他采取了激进的战术,针对一些特定区域发起强攻。但AlphaGo采取着眼大局的策略。在该局第37手,AlphaGo将黑子置于一个空旷的区域,旁边只有一颗白子,远离主战区。机器再一次以神秘的方式掌控了局面。
或许是因为AlphaGo在这场五局三胜制的“人机大战”中已经取得了胜利,那一刻,李世乭扔下胜负的包袱,开始为人类而战。
下到第77手,他似乎停滞了。过了许久,他终于举起一颗白子,落在棋盘正中的天元附近,就在两颗黑子的中间。这就是本局比赛的第78手,掐断了AlphaGo的防线。机器大惊失色——当然,这是比喻说法。但它的下一步完全乱了阵脚。李世乭盯着黄士杰看了一眼,仿佛他的对手是黄士杰,而不是十亿个电路。
在AlphaGo的控制室,运行机器的人们停下手头的工作,一动不动地盯着显示器。在李世乭走出第78手之前,AlphaGo显示自己的胜算为七成。结果,八手棋之后,它就已经胜算无多。突然之间,AlphaGo似乎不再是“深蓝”的接班人,而成了卡斯帕罗夫第二。它根本无法相信人类会走出这样一招,因为这种可能性极低:还是只有万分之一。
就像人类一样,AlphaGo也会被杀个措手不及。比赛进行到四小时45分钟时,AlphaGo认输。就像我们一样,它也会输。
“之前AlphaGo所作的一切思考瞬间变得毫无用处。”哈萨比斯说,“它不得不重新开始。”
就像人类一样,AlphaGo也会被杀个措手不及,突然间就胜算无多。
最后一局比赛开始了,我本来要和哈萨比斯和他的团队一起观赛。刚要去找他们,一名谷歌员工来媒体接待室找到了我。“很抱歉。”她说,“团队改变了主意。最后一局不希望有记者在对局室。”
她走后,我转身跟摄影师说,“看出什么问题了吗?”我说,“AlphaGo觉得它要输。”
的确如此。比赛开局,AlphaGo就犯了一个低级错误:落子太靠近李世乭的黑子势力范围,导致一大片棋子被吃。AlphaGo的棋感出了错;就像人一样,机器也有盲点。
随着比赛进入第三个小时,AlphaGo又重整旗鼓杀了回来。到三个半小时,李世乭进入读秒,一分钟内要走出一步,否则判负。他一次又一次地踩着最后一秒钟落子。
接着,AlphaGo也进入读秒。双方开始以令人眼花缭乱的速度下子。棋盘上堆满了棋子。几场比赛下来,这是第一次有望下到最后,就是说双方都没有投子认负。但五个小时之后,由于双方差距实在是太大,李世乭投子认输。AlphaGo固然也会失误,但它仍然占了上风。
樊麾
在给AlphaGo做陪练的过程中,欧洲围棋冠军樊麾也变得更加强大了全世界或许只有一个人有资格说他懂得李世乭的感受,这个人就是樊麾——三度欧洲冠军,名副其实的AlphaGo陪练。去年10月,他在一场闭门比赛中0比5败给机器,这是首尔大战之前的演练。随后,樊麾加盟DeepMind,担任专职陪练,跟机器一局又一局地对弈——并一局又一局地输给机器。
但随着樊麾输得越来越多,有趣的事情发生了。他开始以一种全新的视角看待围棋。在与其他人对弈时,他赢的次数越来越多,在对阵顶尖选手的比赛中连胜四场,排名一路飙升。在训练AlphaGo的同时,他也得到了AlphaGo的训练。
比赛期间,我问樊麾,李世乭表现如何?
“不要太苛责李世乭了。”他说。
与谷歌的人工智能对弈重新点燃了李世乭对围棋的热情。
近年来,世界上最大、最富有的科技公司正在利用AlphaGo所用到的那些技术,来建立各自的竞争优势。哪些应用可以更好地识别照片?哪些能更好地响应语音指令?也许过不了多久,在这类系统的推动下,机器人就能更加逼真地与真实世界互动。
但在AlphaGo的“机器人性”面前,这些实际用途都显得索然无味。社会上已经出现了一种围绕AlphaGo的亚文化。在德国杜塞尔多夫,一位教授开通了一个以“第37手”为主题的Twitter帐号。更有甚者,佛罗里达州一名45岁的程序员将AlphaGo的“第37手”和李世乭的“第78手”作为纹身,分别纹在了两个手臂上。
第四场比赛结束后,李世乭与哈萨比斯聊了起来。作为曾经的棋界神童,哈萨比斯告诉李世乭,他能理解这种压力,也能理解李世乭的创造力,以及驱动他前进的动力。“我也是一名棋手。”哈萨比斯说,“要是我选择了别的人生道路……我知道,要达到这样的水平,需要付出多少努力,需要做出多大的牺牲。”
李世乭回答说,与机器对弈重新点燃了他对围棋的热情。就像樊麾一样,他也因为AlphaGo而开拓了眼界,看到了围棋中新的疆域。“我已经得到了提升。”李世乭说,“它给了我新的思路。”他后来就再没输过一场比赛。
赛前,哈萨比斯曾预言,AlphaGo的人工智能技术也许能推动一种全新的科学研究,使人类在机器的指引下取得下一次重大突破。当时,在没有证据可循的情况下,这种说法显得有些空洞——典型的科技炒作。但现在不一样了。在一种和人 *** 息相关的棋盘游戏中,机器的表现竟比人类更胜一筹。但在此过程中,它也让人类变得更加出色。你固然可以认为,黑37手意味着机器开始凌驾于它的人类创造者之上,但你也可以把它看作一粒种子:没有它的第37手,就没有我们的第78手。
翻译:雁行
来源:《Wired》
造就:线下剧院式的演讲平台,发现最有创造力的思想
信【xingshu100】