Google AI 「看」了幾萬部電影,為的是有一天能看穿人類的行為


上週, AlphaGo 「終極版」 AlphaGo Zero 再次讓世人驚訝,自學 3 天完勝李世乭,40 天登頂「世界圍棋冠軍」。

但這並不意味着人工智能有能力取代人類,套用機器人界的一句話:

引用五歲以上的人類能夠做的事情,機器人都能輕鬆勝任,但學會走路,辦不到。

簡單來説,要 AI 識別人類的行為動作至今仍是一個難題,而四個月大的嬰兒就能識別各種面部表情了。

Google 正在讓自家的 AI 克服這個難題,最近 Google 發佈了新的人類動作數據庫集體 AVA(atomic visual actions),可以精準標註視頻中的多人動作,而其學習的對象則是來自 Youtube 的海量視頻。


(圖自:Youtube

Google Research Blog 介紹,AVA 的分析樣本主要是 Youtube 中的影視類視頻。Google 先從這些視頻中收集大量不同的長序列內容,並從每個視頻中截取 15 分鐘,並將這些 15 分鐘片段再平均分成 300 個不重疊的 3 秒片段,同時在採樣時讓動作順序和時間順序保持一致。


(3 秒片段邊界框標註示例,示例中只顯示一個邊界框)

接下來則需要手動標記每個 3 秒片段中間幀邊界框中的每個人,從 80 個原子動作(atomic action)中選擇合適的標籤(包括行走、握手、擁抱等)給這些人物行為進行標註。

(sit)


(watch)


(kiss)

Google 把這些行為分成了三組,分別是姿勢/移動動作、人物交互和人與人互動。目前 AVA 已經分析了 570000 個視頻片段,標記了 96000 個人類動作,並生成了 21000 個動作標籤。


在 AVA 的數據分析中,會對每個視頻片段的每個人物動作進行識別,也發現了人類的的行為往往不是單一的。

統計至少帶有兩個動作標籤的人物數據,就可以分析人類不同動作一起出現的頻率,在 AVA 的文檔中稱之為共現模式(co-occurrence pattern) 。

從 AVA 的數據可以看到,打架和武術、親吻和擁抱、唱歌和彈奏樂器,這些都是比較常見的共現模式。

同時為了儘可能覆蓋更大範圍的人類行為, AVA 的所分析的電影或劇集,採用了不同國家和類型的影片,這也可能是為了避免出現性別歧視和種族歧視。早在 2015 年,Google Photos 就曾因為誤把兩名黑人標註為「大猩猩」(Gorilla)而備受詬病。


(圖自: Twitter)

Google 還將對外開放這一數據庫,最終目的是提高 AI 系統的「社交視覺智能」,從而了解人類正在做什麼,甚至預測人類下一步要做什麼。

當然目前距離這個目標還很遙遠,正如 Google 軟件工程師 Chunhui Gu 和 David Ross 在介紹 AVA 的文章中寫道
引用教會機器去識別視頻中的人類行為是發展計算機視覺的一大基本難題,但這對於個人視頻搜索和發現、體育分析和手勢界面等應用至關重要。

儘管過去幾年在圖像分類和查找物體方面取得了令人激動的突破,但識別人類行為仍然是一個巨大的挑戰。

雖然柯潔稱「對於 AlphaGo 的自我進步來説人類太多餘了」,可人腦有 800 億個神經元細胞、100 萬億個連接,AI 神經網絡要想達到大腦的認知水平也絕非易事。

目前計算機視覺技術的發展也主要集中在靜態圖像領域。


Google 從 2006 年開始用深度學習算法代替人工識別,Google Photos 現在已經可以識別出貓狗的照片並自動分類。


(從 a 到 b 分別是 Google Creatism 系統從街景圖到最終作品的全過程)

Google 的人工智能實驗室 DeepMind 正在利用人工智能將 Google 街景圖製作成專業的攝影作品,其水準甚至已經可以媲美專業攝影師。


(圖自:Motherboard

而 iPhone X 上的 Face ID 技術,也許會讓面部識別技術在智能手機上變得更為普及。就連全球最大的色情網站 Pornhub ,也宣佈將引入人工智能技術對網站上成人影片的內容和表演者進行自主檢測,讓 AI 算法為成人影片的內容和演員進行標籤分類。


(圖自:The New Yorker

相比而言,計算機對於人類動態行為的識別則要困難得多。最近在《紐約客》新一期的封面在美國的社交媒體火了起來,封面文章《黑暗工廠:歡迎來到未來機器人帝國》(Dark Factory)描述了越來越多人類的工作逐漸被機器人取代。

雖然機器人能做的事越來越多,但在該文中也可以看到機器人對很多看起來簡單的工作依然無能為力,比如打開一個盒子和解開一個結,美國布朗大學人機實驗室的 Winnie 機器人前不久才剛剛學會了摘花瓣。

(圖自:The New Yorker

而 Google 這次的人類動作數據庫集體 AVA,目前最直接的作用可能就是幫助旗下的 Youtube 處理和審核每天上傳的大量視頻,同時也能更好地服務廣告主。

過去 Google 就曾因為無法對視頻內容精準識別而吃過大虧,《連線》雜誌的一篇文章曾披露, Google 在視頻中植入廣告的自動系統,將一些廣告放置在了宣傳仇恨和恐怖主義的視頻旁邊,已經讓沃爾瑪和百事可樂等大客户放棄了 Google 的廣告平台。


對於 90 % 收入來自廣告業務的 Google 來説,這個問題當然不能怠慢,此前 Google 主要通過聘請一大羣臨時工去監測和標記各種視頻內容,並以此作為 AI 的訓練數據。

這樣的做法除了需要高昂的人力成本,也有觀點認為這些臨時工不穩定的工作狀態和與 Google 的缺乏溝通,將會影響到 AI 識別的精確度。

由此可見,如果 Google 這個 AI 的學習能力足夠強,那不久的將來,這些臨時工也將統統失業,而將來這項技術的應用當然也不侷限於此。

隨着 AI 對人類認知越來越深,對於人工智能倫理的討論也許會變得更加激烈。

題圖和部分配圖來自:Google Research Blog


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰