兩個 AI 一起工作,它們會合作還是互鬥?Google 給出了答案


兩個或者多個 AI 在工作時,如果有利益相關,或是目標出現衝突,它們會選擇鬥爭還是合作?

隨着人工智能 AI 的不斷髮展,人們對它能力的擔憂和期待也越來越多。Google 旗下的 Deepmind 也在研究不同環境中 AI 們的具體行為。

2 月 10 日,Google Deepmind 部門公佈了一項研究結果,人工智能在測試後出現了這樣一種情況:AI 會根據其所在環境來改變自己的行動,這與人類的一些社會行為相似。

Google 通過兩個不同的遊戲來測試 AI 的個體行為,一個遊戲名為“Gathering”,另一個名為“Wolfpack”。

“Gathering” 是一種“雙人遊戲”,需要參與者收集足夠多的蘋果。在遊戲裏,AI 玩家都可以選擇對對方做激光標記點,一旦被標註,則被標記者在當局裏無法收集蘋果。標記對手不會有額外獎勵。

另一個遊戲“Wolfpack” 是一個捕獵遊戲,玩家要在到處都是障礙的環境裏捕捉獵物,當兩個 AI 獵人都接近獵物並最終捕獲獵物時,他們都可以得分。

Deepmind 部門的研究員讓 AI 來參與這兩個遊戲,並重復實驗上千次來避免結果的隨機性。

結果表明,在“Gathring”遊戲裏,如果蘋果數量夠多,兩個計算能力相近的 AI 玩家會選擇和平相處,各自不斷拿走蘋果;一旦蘋果數量減少,AI 們就變得好鬥了,它們會用激光標記對方,為自己贏得更多搶蘋果的機會。


遊戲視頻截圖,綠色代表蘋果,數量少時 AI 會發出黃色光束標記對方

並且,如果兩個 AI 的計算能力不同,能力較強者好鬥性更強,不論蘋果數量多少,它都傾向於選擇標註對方,增加自己的勝算。
這一結果與博弈論裏的囚徒困境理論中的多種情境相近(囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。或者説在一個羣體中,個人做出理性選擇卻往往導致集體的非理性。)

Deepmind 的研究員認為,不管是和平共處共同收集蘋果,還是通過阻礙對手贏取更多蘋果,AI 都會在具體情境下學會更符合它們“期待”的行為。當剩餘資源減少,AI 會採取更為激進的策略,通過把對手擊敗踢出局來贏得所有蘋果。

在 “Wolfpack”遊戲裏,AI 則傾向於通過合作來完成狩獵行動,且計算能力更強者選擇這種做法的情況更多。這與“Gathring”遊戲的情況是相反的。

遊戲視頻截圖,紅色的捕獵者 AI 會通過合作抓捕獵物

在 Deepmind 看來,人工智能會根據具體情境改變行為方式,這與人類類似。而人工智能也可以在某些具體任務裏,特別是合作能帶來更大收益的情況下,達成合作,從而取得行動的最佳效果。


蘋果越少,好鬥性越強;獨狼抓住獵物的比例越大,羣體利益越低

在 Deepmind 的博客內容裏,科學家喬爾·Z·勒博(Joel Z Leibo)説:“這類研究將幫助我們更好地理解和控制複雜多人工智能系統的行為,例如在解決經濟、交通和環境問題的過程中。”

題圖自:businessinsider


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰