AI別笑,1v1的DotA比賽其實比圍棋簡單
雷鋒網消息,關於OpenAI的DotA 2遊戲人工智能在The International比賽上擊敗了人類玩家的消息,就像當時的AlphoGo一樣,又一次刷屏了。我們彷彿看到了AI又在得意地笑。
這次比賽重要的是,像DotA這樣的MOBA多人在線戰術競技遊戲,以及星際爭霸這樣的RTS即時戰略遊戲,一直被視為超越了當前AI技術的能力,遠非AI能掌握及擊敗人類的。這些遊戲需要在比賽中有長時間的戰略決策和多人合作,並具有比國際象棋、圍棋等更復雜的狀態和行動空間,後面的幾種棋類遊戲在過去幾十年裏,都逐一被AI技術攻略了。
雷鋒網此前報道,DeepMind已經研究星際爭霸2有一段時間了,前不久也發佈了一些研究成果。國內的阿里巴巴也與倫敦大學合作,研究過AI與星際。但到目前為止,研究人員還沒有取得重大突破,而且一般認為,我們距離讓AI在星際爭霸2中戰勝人類還有至少1-2年。
這也是為什麼OpenAI的消息如此震驚的原因。
但如果更多了解DotA 2的AI是怎麼樣的,它是如何訓練的,它用了什麼樣的遊戲環境,就會發現,它取得了不少令人印象深刻的研究成果,但不是想像中那樣的突破性的AI技術。前Google大腦團隊成員Denny Britz就在hacker news上發起了討論,從他的分析和其他討論中也可以看出不少端倪。
不久後OpenAI就會公佈具體的研究細節。不過先來看看DotA 2的AI解決的問題在現實中有多難,以及它與AlphaGo比又怎麼樣。
1v1的難度與5v5沒法比
一般玩DotA 2遊戲,都是5v5的對局。這種玩法需要用到高級的策略制定,團隊溝通和協調能力,通常會是45分鐘左右一局。1v1遊戲的限制就很多了,兩名選手基本上沿着單線行動,試圖殺死對方,遊戲時間通常在幾分鐘內。1v1比賽需要的是機械技能和短期戰術,不需要長期規劃或協調,而後者才是對當前AI技術最具挑戰性的。事實上,在1v1中可以採取的有用行動數量是少於圍棋的。有效狀態空間,即玩家對遊戲中正在發生的情況的想法,如果以更有效的方式進行表徵的話,應該比圍棋要小。
AI可以得到更多信息
OpenAI的人工智能很可能是在遊戲AI的API上開發的,這樣它可以訪問人類無法訪問的各種信息。而且,即使OpenAI研究者限制了訪問某些類型的信息,AI比起人類仍然可以得到更準確的信息。例如,一項技能只能在一定範圍內擊中對手,而人類玩家必須看屏幕來估算與對手的距離。這需要練習,但AI就知道確切的距離信息,然後立即決定使用技能。獲得各種精確的數據信息會帶來很大的優勢,比如在這次的遊戲過程中,AI就有好幾次是在最遠距離上發動了技能。
反應時間優勢
AI可以做到立即反應,但人類不行。如果反應優勢再加上上面説的數據優勢,就會形成另一大優勢。比如,一旦對手逃出特定技能的使用範圍,AI就可以立即取消使用,避免無效的技能施放,也不會耽誤回覆時間。
僅使用特定的遊戲角色
DotA中有100多介角色,每個都有不同的能力和優勢。這次比賽中,OpenAI的人工智能學習玩的唯一角色是影魔,當然影魔也是中路solo的常用英雄。它的技能一般直接攻擊,而不是更復雜的讓技能持續一段時間,這樣就更容易從距離數據和快速反應時間這兩個優勢中獲益,這正是AI擅長的。
部分規則寫死
這次的遊戲AI也不是一切從零開始訓練的,它對遊戲算是有一些“了解”。裝備選擇是寫死的,押兵線這種技術也是,這些對比賽來説也很重要。根據現在的消息,AI學習的是與對手的互動。
總體來説,鑑於1v1比賽主要是機械技能的比拼,那人類玩家被擊敗也就不奇怪了。而且由於比賽環境有限制,加上人為限制了一系列可能的行動,以及幾乎沒有必要進行長期的規劃或協調,結論也就顯而易見了,即在這場1v1的DotA比賽中,AI擊敗人類冠軍要解決的問題,實際上比圍棋要更簡單。
AI技術本質上沒有出現突然的突破,它的成功是算法的成功,也是研究者的成功。研究者聰明地設置了問題,並用正確的方式避開了當前技術的限制,取得了想要的成果。
據稱,OpenAI的人工智能的訓練時間大概是2周左右。AlphaGo當時需要在Google的GPU集羣上進行幾個月的高度分佈的大規模培訓。自那以來技術上已經取得了一些進展,但還不足以將計算要求降低一個數量級。
或許不明真相的新聞討論有些過度了,不過實際上這次的研究還有不少非常令人驚訝的成果。
完全通過自我對抗進行訓練
這次AI不需要任何訓練數據,它也不用從人類的演示中學習,而是完全從隨機開始,並且不斷與自己對戰。雖然這種技術並不新鮮,但令人驚訝的是,AI學到了一些人類玩家已經在使用的技術,這已經很厲害了。或許AI會學會其他人類不曾用過的技術,就像我們在AlphaGo與人類的對局中看到的那樣,人類玩家已經開始從AI不那麼容易理解的下法中學習了。
AI加電子競技有了很大進步
用DotA和星際這樣具有挑戰性的環境來測試AI技術,是很重要的。如果電子競技社區和遊戲開發商也對AI技術應用於遊戲的價值很感興趣,那在得到他們的支持抂,AI技術很可能會有進一步的進展。
部分可觀察的環境
雖然OpenAI用遊戲API開發的細節尚不清楚,但從人類玩家的角度來看,遊戲中只能看到屏幕上顯示的內容,玩家的視角受到了限制,比如説在上坡這樣的地形上,就無法看清坡上的狀況。這意味着,與圍棋或象棋不同,對戰遊戲是處於一種部分可觀察的環境中,無法了解有關當前遊戲狀態的完整信息。這些問題AI很難以解決,屬於需要進行積極研究的領域。目前還不清楚1v1的DotA比賽中,環境的可觀察性有多重要。
其實對於很多乍聽起來聳人聽聞的技術,都需要有清醒的認識。不出意料的,雷鋒網(公眾號:雷鋒網)發現馬斯克也在Twitter對這一事件作了評價。
他説,“OpenAI第一次在電子競技中擊敗了人類頂級選手,難度比象棋和圍棋都要大得多”,隨後開始談論AI的危害,“沒人喜歡被監管,但一切(汽車、飛機、食品、藥品等)可能給公眾帶來危害的都受到了監管,AI也應如此”。
這些炒作當然不是OpenAI研究者的錯,研究者對自己成果的侷限一直有非常清晰和明確的認識。過度解讀AI的進步反而會帶來一些危害,我們期待OpenAI公佈他們研究的技術細節,避免錯誤的猜測。
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網