AI 能在圍棋上碾壓世界冠軍,為什麼卻玩不好卡牌遊戲?
從 AlphaGo 戰勝世界圍棋冠軍柯潔,到 Libratus 在賭場大勝多位德州撲克頂尖高手,人工智能似乎已經在棋牌類遊戲領域所向披靡了。
不過這不意味着人工智能就能成為新的「賭神」,因為就算 AI 能在棋盤更快計算出各種可能性,但面對看似更加簡單的紙牌類遊戲,反而沒那麼得心應手了, 研發出 AlphaGo 的 DeepMind 就把下一個挑戰的目標放在了一款卡牌遊戲花火(Hanabi)上。
圖自:《華爾街日報》
最近 DeepMind 和 Google Brain 團隊在一篇論文中披露了這項研究的進展,與之前訓練過的圍棋和撲克等遊戲不同, Hanabi 這款遊戲要求 AI 更加深入了解其他玩家的心理,進行更高層次的推理,這也是 AlphaGo 這類 AI 目前面臨的瓶頸。
AI 為什麼玩不好紙牌遊戲,在回答這個問題有必要先簡單了解一下 Hanabi 這款卡牌遊戲。
Hanabi 是一款 2-5 人的合作類型卡牌遊戲,包含 5 種花色的牌組 。只有將不同花色的卡牌按照一定順序的組合排列才能達成「花火」。
在牌局中玩家不能看自己的牌,只能看別人的牌,玩家只能有限的提示進行推理,或者和其他玩家進行戰略性合作,才有機會在遊戲中勝出。
從遊戲規則就能看出,這款遊戲對於溝通和推理能力的要求比較高,AI 需要讀懂其他玩家提示字面意思外的隱藏信息,並推斷出對手的意圖。
▲ 圖片來自:《賭聖》
研究人員很快就發現這並不容易。DeepMind 團隊曾用在其他博弈遊戲驗證過了海量數據來進行訓練,讓算法利用自身副本進行 200 億次「有效無限」的動作,按照玩家每次移動需要 30 秒計算,這相當於一個人在遊戲中進行了 3 億次操作或者玩了 1.66 億小時遊戲。
這種訓練的效果在雙人遊戲中十分有效,然而在 Hanabi 這種有 4 人或 5 人蔘與的遊戲中,AI 的表現卻始終還是比專業玩家要差得多。
研究團隊指出,算法要在不同環境的更好的交流需要高效的編碼和適應性。比如不同玩家表述的風格和用語可能都不一樣,但即便是最先進的 AI 也無法像人一樣快速適應新的玩家,AI 只能遵循複雜但相對固定的規則,比如圍棋。
目前 DeepMind 還沒有很好的辦法來攻破 Hanabi 這款遊戲,他們 Github 上發佈了一個開源平台,讓人們可以測試和完善這個算法。
▲ 德州撲克專業玩家在與 AI 對決 . 圖片來自:pittsburghmagazine
前兩年人工智能 Libratus 在德州撲克大賽戰勝人類,曾引起很大轟動。這就是因為相比起圍棋響起等全信息遊戲(雙方牌面都相互知道),撲克的變化更多,往往也無規律可循,甚至要用到虛張聲勢等手段來影響對手。前百度首席科學家的吳恩達曾表示:
引用撲克曾經是 AI 最難攻克的遊戲之一,因為關於遊戲狀態你只能看到部分信息。撲克並沒有單一的最優下法。相反,AI 玩家必須讓自己的行動隨機化,這樣它詐唬時才能讓對方無法確定真假。
相比起撲克,Hanabi 這種卡牌遊戲的難度更上一層樓,有着更多的變量和不確定性,不僅要分辨迷惑人的假象,還要與其他玩家進行溝通和協作。就像在電影《賭博默示錄》中,即便是石頭剪刀布,隨着規則變動和參與人數的增加,也能變成一項高智商遊戲。
卡內基梅隆大學人工智能研究員 Noam Brown 曾指出,不限注的德州撲克單挑比賽中有 10 的 163 次方種情況,即使地球上最強的計算機也無法計算出所有的可能性。
因此 Libratus 用了 3 套不同的策略進行協作,沒有用人們熟知的神經網絡,而是用了其他基於心理理論的算法,能夠隨機化自己的行為,使對手難以看出它是否是在虛張聲勢。
如果 AI 徹底攻破了 Hanabi ,將會是比 AlphaGo 戰勝柯潔更重要的突破。這意味着 AI 更懂人類,有能力作出更復雜的決策,比如在自動駕駛等場景能更好地與人類溝通,目前類似的 AI 技術已經開始被美國美國器官移植中心用於決定哪位病人能獲得腎臟移植了。
▲《2001 太空漫遊》中的人工智能 HAL 9000
同時也可能讓我們進入強人工智能時代(Artificial General Intelligence),像《流浪地球》中那種能為人類未來作出理性判斷的人工智能真的有可能出現了。
引用編者注:強人工智能在各方面都能達到人類的水平,包括能以批判性思維和抽象思維思考問題,但目前還沒有人工智能可以做到。
題圖來自:《賭神》
資料來源:愛範兒(ifanr)