我和三個最強王者,在《王者榮耀》裏被 AI 打得抱頭鼠竄
引用那一天,《王者榮耀》玩家們終於回想起,曾一度被 AI 集火殺死的恐怖,和被連續擊飛冰凍嘲諷加暈眩四連控的那份屈辱。
在山的那邊海的那邊,王者峽谷裏面,有一羣 AI 機器人寶寶,他們的主要作用是被《王者榮耀》玩家練手,吊打,獲取經驗值和活躍度,幾乎沒有還手之力。他們每天貢獻的人頭數,可以繞地球兩圈。
終於,創造他們的騰訊爸爸看不下去了,做出了兩套 AI,一套是現在版本遊戲裏面的「困難」人機模式,一套是在電競領域的「絕悟」AI。
AI 居然這麼強?
作為一名休閒玩家,秉着一個賽季上一個大段位的步驟,本賽季不慌不忙地上了星耀段位,然後就玩匹配和邊境突圍模式去了,看到遊戲裏面上了「困難」人機模式之後,就抱着試一試的心態去玩了一下。
匹配的第一場裏面,隊友有三個最強王者(遊戲裏最高的段位),還有一個星耀段位(遊戲裏第二高的段位),基本上説明了這五個人都是熟手,操作意識不會有太大問題。在騰訊公佈的數據裏,王者段位和星耀段位玩家加起來,佔整個玩家數量的 10% 出頭,可以認為大家都是水平靠前的玩家。
由於是人機模式,大家都是抱着娛樂的心態,選英雄階段也沒考慮陣容和配合,基本上都是隨便選。在以往的經驗裏,人機模式就是用腳操作都能隨便贏的。
然而,遊戲沒開始多久,「困難」人機模式就打得大家懷疑人生了。於是聊天頻道就不停地出現這樣的對話:
引用這他喵的是人機?
怎麼這麼厲害?
這支援速度也太快了吧?
居然會反野(注:進入地方區域掠奪資源的行為,高風險高收益)?
我擦,配合怎麼這麼厲害?
兄弟們別單帶了,打團吧,單帶打不過。
哎呀,別送了,別送了。
這人機得有王者段位了吧?
在有限的 6 局對戰裏,我取得了四敗兩勝的戰績,雖然説都是以練新英雄為主,在玩自己不擅長的英雄,不過遊戲裏面,「困難」人機的支援速度和配合默契,還是遠遠超出隨機路人的。這也是大家一致被打得抱頭鼠竄的原因:個人操作再強,一個人也打不過兩個,兩個人也打不過四個。
於是,在王者榮耀貼吧裏,有一個帖子討論這個「困難」人機模式的強度,每個人的感知不太一樣,多數人認為,水平在星耀和王者之間,如果抱着去虐人機的心態去打的話,肯定會被教做人。
其實,被 AI 教做人的,也不僅是普通玩家。還有前職業選手和職業解説。
前幾天是《王者榮耀》職業聯賽 KPL 2018 年秋季賽的決賽日,在決賽兩支隊伍對決之前,有一場是騰訊的 AI 戰隊和兩名前職業選手加三名職業遊戲解説(保守估計,平均水平超 99% 的玩家)的比賽。
在比賽的前半段,人類戰隊取得了不小的領先優勢,但是打着打着就不知道怎麼着,被 AI 戰隊把局勢一點點逆轉了。這種感覺就像當年很多頂尖棋手評價 AlphaGo 對戰李世石的表現一樣,也沒有感覺 AI 有多強,但是不知不覺就贏了。
比賽結束後,人類戰隊的一名隊員被打倒掩面無語,而另一位,則只能露出尷尬而不失禮貌的笑容。
確實,在某些時候,AI 展現出了極佳的操作水平和意識(比如下面的達摩蹲草一套連招打到趙雲殘血,然後接閃現秒殺),不過整體而言,AI 給人的感覺是潤物細無聲的強,即便前期被人類打出了大劣勢,但後面依靠各種入侵地方野區掠奪資源,經濟上並沒有落後,絕對算是順風不浪,逆風不投。
上一次我在遊戲的人機模式裏面被虐到死去活來還是《守望先鋒》,不過在這款射擊遊戲裏,「困難」模式人機的主要表現是射擊準操作好,但是大局觀差配合差。而到了《王者榮耀》裏面的 AI,明顯可以感覺到,它們是有大局觀和配合的。
所以這個 AI 是什麼?
其實在王者榮耀的公眾號上,騰訊就已經給這個 AI 做了簡要的介紹了:
引用策略協作型 AI 是攻克 AI 終極研究難題——通用人工智能(Artificial General Intelligence,下稱 AGI)的關鍵一步。AGI 代表研發能在通用系統中執行多種複雜命令,達到或超越人類水平的 AI ,從擔任中國國家圍棋隊訓練專用 AI 的「絕藝」,到寓意擁有「絕佳領悟能力」的「絕悟」。
「絕悟」首先通過監督學習方法,深度模仿 KPL 職業玩家的數據;其次,會進行大量自我對戰,每天的訓練強度最高能達到人類 150 年的訓練量…
對戰中,在龐大且有不完備信息的地圖上,10 位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇,形成了極為複雜的局面,預計有高達 10 的 20000 次方種操作可能性。
實際上,這還不足以解釋我們心中的疑惑,好在騰訊 AI 實驗室會時不時地公佈他們發表的論文,其中就有一篇是關於王者榮耀的。這篇論文名為《Hierarchical Macro Strategy Model for MOBA Game AI》(《MOBA 遊戲中人工智能的分層宏觀策略模型》)。《王者榮耀》就是 MOBA(多人在線戰術競技)遊戲的一種,此外,《英雄聯盟》和 DoTA 也是玩家眾多的 MOBA 遊戲。
簡言之,這個論文有一個核心思想:MOBA 遊戲中的 AI 微觀操作已經不是什麼難題,難題是讓這些 AI 有宏觀的大局觀和彼此之間的溝通協作,然後我們怎麼去解決這個問題。
相比於你下一子我下一子的圍棋象棋,MOBA 遊戲的局勢瞬息萬變,遲疑哪怕是 0.2 秒,一個關鍵技能放錯,就可能導致滿盤皆輸。而一局王者榮耀一般在 15 到 20 分鐘,有許多個 0.2 秒,另外加上英雄走位、技能、血量、等級、經濟、位置,還有王者榮耀地圖的面積(分辨率 130000×130000 像素,英雄的大小是 1000 像素)等等因素疊加,以王者榮耀為代表的 MOBA 遊戲有着遠超圍棋複雜度的動作空間和狀態空間。
「絕悟」為了釐清這種千頭萬緒,採用了雙層宏觀戰略架構,也就是論文的標題意思,雙層分為階段層和注意力層:階段層旨在識別當前遊戲階段,這樣注意力層就能更清楚地知道應該將注意力放在哪裏;注意力層旨在預測地圖上適合派遣英雄的最佳地點。
簡單講,就是在王者榮耀對戰中,有五個位置,每個位置的主要職責,活動範圍都是有規律的,並且,在遊戲的不同階段,會有不同的側重點,AI 根據當前的階段情況來調整注意力,而注意力又會指導行動。
遊戲的開局階段,各個位置基本上都是各司其事,在自己的區域活動(如上圖所示)。
隨着遊戲進程,AI 的注意力會開始細化到入侵敵方野區,爭搶河道小野怪,壓制敵方下路一塔這些事情上,到後面就是要爭搶小龍,壓制敵方中塔等小目標上。
可以看到,AI 把注意力的重心,其實是放在了「核心資源」上的,防禦塔和大龍小龍的爭奪,是左右遊戲走勢的最重要因素,反而擊殺數和死亡數,並不是絕對重要的位置。許多人類玩家因為心態緣故,會更重視擊殺敵方玩家,獲取愉悦感,但 MOBA 遊戲本質上是個推塔遊戲,故有的時候,我們可以發現,AI 其實並不糾結於擊殺數。
上圖反映的是遊戲時間和 AI 英雄走位區域的變化,可以看到,隨着遊戲進程的深入,AI 英雄們的走位會越來越集中,越來越傾向於在敵方區域。這也是跟上面的注意力層相關,越往後,AI 的注意力就越往敵方深入,這個其實解決的是另外一個問題:AI 之間如何溝通協作。
為了印證這個策略的有效程度,「絕悟」AI 分別和沒有宏觀策略的 AI,人類頂尖選手,沒有交流協作機制的 AI,以及沒有階段層策略的 AI 進行了四組對戰,上圖顯示的勝率還是比較能説明「分層宏觀策略模型」是行之有效的。
説實話,我覺得這個 AI 還有個好的用處,那就是在有隊友掉線掛機的時候,AI 來接管玩家的操作,以免造成其他玩家的心理傷害。
資料來源:愛範兒(ifanr)