人工智能Libratus是如何擊敗德州撲克頂級玩家的?


編者按: 1 月 30 日,賓夕法尼亞州匹茲堡Rivers賭場,耗時20天的德州撲克人機大戰塵埃落定。卡耐基梅隆大學(CMU)開發的AI程序Libratus 擊敗人類頂級職業玩家,贏取了20萬美元的獎金。儘管之前Google DeepMind的AlphaGo在與李世石的5番棋圍棋大戰以及在網絡上跟頂級圍棋選手的60番棋大戰中出盡了風頭。但相對而言德州撲克對於AI卻是更大的挑戰,因為AI只能看到遊戲的部分信息,遊戲並不存在單一的最優下法。那麼CMU的Libratus是如何擊敗人類頂級的職業玩家的呢?《連線》雜誌的這篇文章為我們揭祕



在幾乎3個星期的時間裏,Dong Kim都呆在匹茲堡的一個賭場內跟一台機器玩撲克。但Kim不是普通的撲克玩家。跟他對壘的也不是普通的機器。而這場比賽也不是普通的撲克遊戲。

28歲的Kim是全世界最好的撲克玩家之一。而那台由卡內基梅隆大學的兩位計算機科學研究人員開發的機器,是一套運行在匹茲堡的一台超級計算機的人工智能系統。在整整20天的時間內,他們都在玩無限制德州撲克比賽,這是一種尤其複雜的撲克遊戲形式,其投注策略往往要經過很多手。

這場比賽剛剛結束不久。大概賽程過半的時候,Kim開始覺得Libratus好像能看到他的牌。不過他説:“我不是指責它作弊。而是説它有那麼好。”實際上好到擊敗了Kim及其他的3名全球頂級人類玩家——這是人工智能的第一次。

在這次比賽期間,Libratus的創造者對這套系統的運作方式顯得遮遮掩掩,大家不清楚它是如何設法取得如此成功的,如何以其他機器前所未有的方式模仿了人類直覺的。但結果證明,該AI能達到如此高度是因為它不僅僅只是一個AI。

Libratus依靠了3套不同的系統的協作,這提醒我們現代AI並不是由一項而是多項技術驅動的。這段時間以來深度神經網絡抓住了大多人的眼球,當然這也有很好的理由:它們為一些全球最大型的技術公司從圖像識別到翻譯乃至於搜索的一切提供了動力。但神經網絡的成功也為大量其他幫助機器模仿甚至超越人類天才的AI技術注入了新生命。

比方説,Libratus就沒有使用神經網絡。它主要靠的是強化學習,這是人工智能的一種,一種極其強調試錯的方法。其實質就是自己跟自己玩大量的遊戲。Google的DeppMind實驗室利用強化學習來開發AlphaGo,這套系統攻克圍棋的時間比預期早了10年,但這兩套系統之間有一個關鍵的不同。AlphaGo是通過分析人類玩家的3000萬份棋譜來學習遊戲的,然後才通過自己跟自己下棋來改進自己的技能。相對而言,Libratus卻是從零開始學的。

通過一種名為反事實遺憾最小化(counterfactual regret minimization)的算法,它先是隨機地玩,然後最終在經過幾個月的訓練以及玩了上萬億手撲克之後,它也達到了能挑戰最好人類玩家的高度,不僅如此,它的玩法還是人類所不能的——它下注的範圍要大得多,而且會對這些賭注隨機化,這樣對手就更難猜自己手上都有什麼牌了。跟導師Tuomas Sandholm一起開發了這套系統的CMU研究生Noam Brown説:“我們只是向AI描述了這個遊戲,但沒有告訴它怎麼玩。它完全是獨立於人的玩法形成自己的策略的,而且它的玩法跟人的玩法會非常不一樣。”

但這只是第一階段。在匹茲堡的比賽期間,第二套系統會分析遊戲狀態並聚焦於第一套系統的注意力。這套系統屬於一種“殘局解算器(end-game solver)”,上週一Sandholm 和Brown發表的論文詳細描述了它的細節。在第二套系統的幫助下,第一套系統再也不需要像過去那樣跑完所有可能的場景了。它可以只試探其中的一些場景。也就是説,Libratus不僅僅是在在比賽前學習,而且還能在比賽中學到東西。

光靠這兩套系統就已經很有效率了。但Kim等其他玩家仍然能夠找出機器玩法的一些模式然後設法加以利用。為此,Brown和Sandholm開發了第三套系統。每天晚上Brown都會跑一個算法來識別出那些模式然後從策略中剔除掉。他説:“一個晚上它就能計算完然後在次日把一切準備就緒。”

如果這似乎不公平的話,好吧,AI就是這麼幹。這並不僅僅是AI跨越了許多技術。人類往往也頻繁加入進來,積極地改進AI、跑AI或者增強AI。Libratus的確是個里程碑,展示了一種新型的AI,從華爾街的交易到網絡安全乃至於拍賣和政治談判,這種AI都可以從中扮演一定的角色。曾幫助Google設立中心AI實驗室,現為百度首席科學家的吳恩達説:“撲克曾經是AI最難攻克的遊戲之一,因為關於遊戲狀態你只能看到部分信息。撲克並沒有單一的最優下法。相反,AI玩家必須讓自己的行動隨機化,這樣它詐唬時才能讓對方無法確定真假。”

Libratus把這一點做到了極致。它的下注非常的隨機化,甚至超過了人類最好玩家的水平。而且如果這個方法不奏效的話,Brown晚上跑的算法就會彌補它的不足。金融市場交易員也可以採取相同的做法。外交官亦然。這是一個強大且相當令人不安的想法:機器可以用大賭注嚇退人類。


資料來源:36Kr

如果喜歡我們的文章,請即分享到︰