在太平洋这头的中国,谷歌(微博)旗下DeepMind研发的阿尔法狗(AlphaGo)刚刚披着“Master”的马甲战胜了“当今围棋第一人”柯洁,宣告着人工智能在围棋领域的胜出,在太平洋那头的加拿大,人类在德扑领域也要失守了?来自加拿大和捷克的10位科学家近日在预印本网站arXiv上载了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注德扑中击败人类玩家的新算法DeepStack。
在过去的20年里,我们见证了许多游戏领域在人工智能面前纷纷“沦陷”,比如西洋双陆棋、跳棋、国际象棋和围棋。人工智能在这些领域发挥的难度,主要取决于这些游戏需要作出的决策点(decision points)数量。一盘围棋游戏约包含有10的170次方个决策点。
但是,围棋等棋类游戏是完美信息游戏,也就是说,所有玩家在游戏中能获得的确定性信息是对称的。但除此之外,人类生活中还要面临更多非完美信息的情景,正如计算机之父冯·诺依曼所说,“现实世界与此不同,现实世界包含有很多赌注、一些欺骗的战术,还涉及你会思考别人会认为你将做什么。”
德扑就是这样一种包含了欺骗、推测的非完美信息游戏,玩家只能掌握自己手上的牌,通过这种非对称的信息与对手进行博弈。
因此,虽然一对一无限注德扑游戏中包含10的160次方个决策点,要少于围棋,但它对人工智能的推理能力提出了更高的要求。
在过去,研究人员往往采用一种压缩型的策略来开发算法,即通过把原始版本游戏中的设计和行为转移到一个被压缩了的情境下推理。但在压缩的过程中,信息会出现丢失,造成此前人工智能从未在扑克领域击败人类玩家。
而这个加拿大和捷克的合作团队开发的新算法DeepStack,则注重培养人工智能出牌时的“直觉”。在运用深度学习,反复自我博弈之后,DeepStack学会了在每一个具体情境出现时进行推理。这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的感觉,并作出相应的决策。
该团队邀请了来自17个国家的33名专业扑克选手挑战DeepStack,在2016年11月7日到12月12日之间共进行了44852次较量。DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blinds per game,一般职业玩家认为50mbb/g是个门槛)。