Google 人工智能技術新突破：可初步識別視頻中的人在做什麼運動

http://a.36krcnd.com/nil_class/f816ef95-8478-4103-bfc7-e6d465da96f8.jpg

圖片來源：a.36krcnd.com

人工智能要想理解真實世界發生的事，可以先從讀取視頻中的信息開始。Google、Facebook等大公司都在進行圖像和語音的分析研究。Google卷積神經網絡（Convolutional Neural Networks，CNNs）技術的兩位軟件工程師在博客上公佈了一些研究成果，其中很重要的一個突破是，能夠初步辨識出動態視頻的內容。
他們認為，由於動態視頻增加了時間這個維度，運動軌跡等信息豐富，這方面視頻反而比圖片更易識別和分類。但是，對視頻而言，不僅要分辨出圖像中的物體或人，還要搞清楚他們在幹什麼。如果想要完整地分析一整段視頻（如一場足球賽），從建模角度來説是個挑戰，因為其中很多參數需要調試，計算量大。

為了解決這些問題，他們會先提取圖像中的大致框架，如下圖所示，處理這種相對簡單的數據可以降低計算的複雜性。為了防止誤差過大，他們以光流法（Optical Flow）的形式觀察，也就是相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動來判斷，如下圖所示。

http://a.36krcnd.com/nil_class/7ea12310-b6bd-4962-9b5b-02e8cfa455c2.png

圖片來源：a.36krcnd.com

判斷效果可以看看下面這段視頻，雖然還比較原始，但是左上角的幾行信息就是AI判斷出的不同運動的概率，隨着視頻的推進，分析的概率也在變化。所以視頻末尾指出，每一幀出現的概率並不那麼準確，應以視頻結束後系統的判斷為準。這項研究學術論文已發表，感興趣的話，可以移步這裏。

資料來源：36Kr

標籤: Google 人工智能

Google 人工智能技術新突破：可初步識別視頻中的人在做什麼運動

如果喜歡我們的文章，請即分享到︰