閉着眼睛也可讀懂圖片,Facebook 開源了一項次世代技術


Facebook 在當地時間週四宣佈開源了一系列 AI 軟件,可以識別出照片裏物體的種類和形狀。

這些軟件由 Facebook 的 AI 研究團隊(FAIR)打造,軟件包括 DeepMask,SharpMask 和 MultiPathNet,這三個軟件共同分解和識別圖片內容。

這些軟件雖然目前在 Facebook 用户產品上還不能被積極使用,但類似於今年四月 Facebook 發佈的 AI 軟件“自動替代文字(automatic alternative text)”,用來為盲人描述圖像內容。

AI 怎樣“分割”圖像?

DeepMask 和 SharpMask 作為 Facebook 的實驗研究項目,其重點在於 FAIR 團隊稱的“分割(segmentation)”。

人類可以在幾秒內迅速識別一張照片中的組成元素,但是電腦要做到這樣很難,需要去感知一系列根據顏色差異用數字標記出來的像素。接着,還要讓電腦搞明白圖像的主體和背景,或者前景部分如何打散成可區別的各個物體。最後,還要讓電腦準確地識別出該物體是什麼,這些都很難做到。


(圖:The Verge

而通過機器學習,Facebook 用算法讓電腦學會演繹人類如何認知事物。團隊也經過了無數個實驗來研究人類神經網絡中怎樣理解現實世界中的物體和環境特性。

舉個例子,FAIR 的算法就是讓電腦接收一隻羊的多張照片,並告訴算法一隻羊看起來應該是什麼樣子的,電腦就會學會在照片中辨別出這隻羊。


(圖:The Verge

神經網絡辨別物體的過程就稱為“分割”,通過詢問電腦一系列“是或不是”的問題來將內容分類,這就是 DeepMask 需要做的事情。

SharpMask 進一步優化 DeepMask 篩選出來的物體來達到更準確的答案。MultiPathNet 則將物體區分開來並將其歸類。

這個 AI 有什麼用?

這個 AI 技術讓使用者不用鍵入標籤就可以輕鬆找到所需的圖像,幫助殘疾人接收到他們看不見的信息。

FAIR 的研究成員 Piotr Dollar 表示:

引用我們的目的是提供更浸入式的體驗,用户只要用手指點擊圖像,系統就會描述出用户觸碰到的內容。不需要用雙眼,用户就能得知圖像有什麼東西。

另一方面,該技術也可以進一步完善汽車的自動駕駛技術。


(圖:INVERSE

Facebook 為什麼要開源這個 AI?

一位 Facebook 發言人接受 The Verge 的採訪

引用我們開源我們的編碼,將研究發現作為學術論文發表在公眾網站上,是想鼓勵他人來共同分享這些技術。我們希望其他人也能加入我們團隊來提升我們的軟件技術。

實際上,微軟和 Google 等公司也在做相關的研究。Google 已經將這樣的技術應用在 Google 圖片搜索上,也開源了它的技術,如 TensorFlow AI-training 軟件。Facebook 這次開源也感受到一定的壓力。

接下來,Facebook 想要挑戰一下識別視頻中的事物,這項技術相比在靜態的圖像上難非常多,但卻是有必要的。


(圖:Forbes

馬克·Mark Zuckerberg表示,以視頻為中心的媒體形態,是未來五年內除了 VR 和更厲害的 AI 技術,社交網絡最大機遇。

題圖:cnBeta


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰