深度學習這個大招,放到VR上會是什麼樣的?
隨着Google人工智能AlphaGo與李世石的五局人機大戰落下帷幕,阿法狗最終以4:1大比分戰神李世石,人們對於阿法狗的好奇心被推向了高潮。阿法狗也將深度學習神經網絡即DNN的強大能力展示在了人們面前。
什麼是DNN?
那到底什麼是DNN呢?DNN是近年人工智能領域的熱門,在語音識別、自動駕駛、筆跡識別等方面的應用都極為成功。在人工智能領域,神經網絡是一種模擬生物神經系統的模型,由許多單向連接的神經元組成,可根據鏈接神經元的各種參數將輸入信號轉換為輸出信號。相比於普通的神經網絡,深度神經網絡(DNN)使用隱含的多層複雜結構,以及非線性變換,來表達對數據的高度抽象。這些特徵更接近於人類大腦,更容易實現人類大腦的某些功能,例如下圍棋所需要的腦功能。
阿法狗應用了兩種深度學習神經網絡,即“策略網絡”和“價值網絡”來擬合局面策略函數和評估函數,可以説這就是阿法狗的兩個大腦。阿法狗的勝利引爆了DNN這一概念,在大數據當道的今天,深度學習神經網絡已經被應用到非常多的領域,成為了揭示科學原理、升級現有產業商業模式的重要工具。
| DNN如何應用在手勢識別中呢?
那麼如此炫酷的DNN能否應用在大熱的VR行業?答案是肯定的。目前VR領域中應用到DNN技術的包括語音識別、手勢識別等方面,筆者在這裏主要介紹一下手勢識別算法中的DNN。
而基於計算機視覺的手勢識別方法以其不依賴於設備,更自然的人機交互效果,更好的沉浸感成為當今研究的熱點。基於計算機視覺手勢識別從攝像機中得到手勢圖像信息,經過適當的數據預處理之後從圖像中分割出手勢,對分割得到的手勢進行特徵提取後,利用已經建立好的手勢模板進行分類。
傳統的分類方式有模板匹配、基於指尖檢測方法等,但這些方法都需要人工從圖像提取出目標特徵,編寫模板來匹配。隨着深度學習神經網絡被提出,基於深度學習神經網絡(DNN)的手勢識別也應運而生,這種手勢識別算法相比於傳統手勢識別算法在各個方面均有非常大的優勢。
深度學習神經網絡的工作方式來自於同人腦視覺機理的類比學習,這種從原始輸入開始向更高層次不停抽象迭代的過程賦予了該模型高度抽象的能力,使得深度學習神經網絡能夠非常有效地從大量有標籤數據中深度提取數據的特徵信息,充分挖掘數據的內在屬性和有價值的表徵數據,然後組合低層特徵為更加抽象的高層特徵,而高級特徵則是數據更高級、更本質的描述,由此可以在分類問題上得到更優的結果。
眾所周知,VR行業面臨的一大技術難題就是海量數據的處理,對於手勢識別技術更是如此,手部有非常多的關節,需要非常強的識別能力才可以準確的識別每個精細動作。而深度學習模型的多隱藏層結構使得模型能有效利用海量數據進行訓練,所使用數據越多模型性能越高,非常適合在VR環境下做手勢識別。
基於計算機視覺的手勢識別中,傳統算法無法直接有效地從圖像中提取出對目標有用的信息。而深度學習的學習能力卻異常強大,即使是複雜低分辨率圖像也能夠很好的提取出目標深度特徵。基於DNN的手勢識別所需的圖像背景並不需要固定,算法甚至在一定範圍內允許運動背景的存在,從而提高了識別的環境耐受力和精細度。
| DNN在手勢識別中如何實現?
接下來筆者將介紹一下具體的實現方法。
傳統的識別系統流程大體上可以分成檢測、識別、跟蹤這三個步驟,具體實現流程是:傳感器獲取信息,預處理,特徵提取,特徵選擇,再到最後的推理、預測或者識別。通常認為最後一部分是屬於機器學習的部分,這部分是整個系統的精髓所在,它能否從數據中學到有效的知識直接關係到整個系統能否按照人們期望的那樣工作,但同時也存在前期特徵提取或者選擇不好的情況,這樣會影響系統性能。
而基於DNN的手勢識別就是讓機器自己去提取特徵,不需要手工特徵提取,強大的學習能力使得模型在複雜背景下也能取得理想效果,其手勢識別過程如下:
首先創建手勢識別採集系統,做運動目標檢測,並在檢測的同時提取出前景的即運動目標的部分信息,獲得手勢圖像。採集到手勢圖像之後根據不同應用場景選擇合適的網絡協議,把數據傳輸到計算平台利用深度學習算法進行復雜背景手勢識別,並最終給出手勢識別結果。
| 基於DNN實現的VR會是什麼樣的?
基於DNN算法的思想實現的VR產品,並使用單機GPU方法來加速深度網絡的訓練和識別工作。手勢識別模組可以使用深度攝像頭實現手部近距離3D成像,結合DNN自主研發了一套數據處理算法,實現了高精度實時手部動作識別,既能跟蹤單個手指,識別每個手指細微的動作,也可擴展至跟蹤多隻手。
這樣的VR產品的手勢識別具有捕捉精度高,響應速度快,靈敏度高,可以不受環境光線強弱影響,室內室外都可以使用。
不過目前市面上幾乎沒有基於DNN的手勢識別產品。筆者所知的G-Wearables自主研發的StepVR產品就是基於DNN算法實現的,但還未見到實物,可以期待一下。
資料來源:雷鋒網
作者/編輯:airuoxuan
什麼是DNN?
那到底什麼是DNN呢?DNN是近年人工智能領域的熱門,在語音識別、自動駕駛、筆跡識別等方面的應用都極為成功。在人工智能領域,神經網絡是一種模擬生物神經系統的模型,由許多單向連接的神經元組成,可根據鏈接神經元的各種參數將輸入信號轉換為輸出信號。相比於普通的神經網絡,深度神經網絡(DNN)使用隱含的多層複雜結構,以及非線性變換,來表達對數據的高度抽象。這些特徵更接近於人類大腦,更容易實現人類大腦的某些功能,例如下圍棋所需要的腦功能。
阿法狗應用了兩種深度學習神經網絡,即“策略網絡”和“價值網絡”來擬合局面策略函數和評估函數,可以説這就是阿法狗的兩個大腦。阿法狗的勝利引爆了DNN這一概念,在大數據當道的今天,深度學習神經網絡已經被應用到非常多的領域,成為了揭示科學原理、升級現有產業商業模式的重要工具。
| DNN如何應用在手勢識別中呢?
那麼如此炫酷的DNN能否應用在大熱的VR行業?答案是肯定的。目前VR領域中應用到DNN技術的包括語音識別、手勢識別等方面,筆者在這裏主要介紹一下手勢識別算法中的DNN。
引用傳統的手勢識別方法主要有兩種:基於數據手套的手勢識別方法、基於計算機視覺的手勢識別方法。
而基於計算機視覺的手勢識別方法以其不依賴於設備,更自然的人機交互效果,更好的沉浸感成為當今研究的熱點。基於計算機視覺手勢識別從攝像機中得到手勢圖像信息,經過適當的數據預處理之後從圖像中分割出手勢,對分割得到的手勢進行特徵提取後,利用已經建立好的手勢模板進行分類。
傳統的分類方式有模板匹配、基於指尖檢測方法等,但這些方法都需要人工從圖像提取出目標特徵,編寫模板來匹配。隨着深度學習神經網絡被提出,基於深度學習神經網絡(DNN)的手勢識別也應運而生,這種手勢識別算法相比於傳統手勢識別算法在各個方面均有非常大的優勢。
深度學習神經網絡的工作方式來自於同人腦視覺機理的類比學習,這種從原始輸入開始向更高層次不停抽象迭代的過程賦予了該模型高度抽象的能力,使得深度學習神經網絡能夠非常有效地從大量有標籤數據中深度提取數據的特徵信息,充分挖掘數據的內在屬性和有價值的表徵數據,然後組合低層特徵為更加抽象的高層特徵,而高級特徵則是數據更高級、更本質的描述,由此可以在分類問題上得到更優的結果。
眾所周知,VR行業面臨的一大技術難題就是海量數據的處理,對於手勢識別技術更是如此,手部有非常多的關節,需要非常強的識別能力才可以準確的識別每個精細動作。而深度學習模型的多隱藏層結構使得模型能有效利用海量數據進行訓練,所使用數據越多模型性能越高,非常適合在VR環境下做手勢識別。
基於計算機視覺的手勢識別中,傳統算法無法直接有效地從圖像中提取出對目標有用的信息。而深度學習的學習能力卻異常強大,即使是複雜低分辨率圖像也能夠很好的提取出目標深度特徵。基於DNN的手勢識別所需的圖像背景並不需要固定,算法甚至在一定範圍內允許運動背景的存在,從而提高了識別的環境耐受力和精細度。
| DNN在手勢識別中如何實現?
接下來筆者將介紹一下具體的實現方法。
傳統的識別系統流程大體上可以分成檢測、識別、跟蹤這三個步驟,具體實現流程是:傳感器獲取信息,預處理,特徵提取,特徵選擇,再到最後的推理、預測或者識別。通常認為最後一部分是屬於機器學習的部分,這部分是整個系統的精髓所在,它能否從數據中學到有效的知識直接關係到整個系統能否按照人們期望的那樣工作,但同時也存在前期特徵提取或者選擇不好的情況,這樣會影響系統性能。
而基於DNN的手勢識別就是讓機器自己去提取特徵,不需要手工特徵提取,強大的學習能力使得模型在複雜背景下也能取得理想效果,其手勢識別過程如下:
首先創建手勢識別採集系統,做運動目標檢測,並在檢測的同時提取出前景的即運動目標的部分信息,獲得手勢圖像。採集到手勢圖像之後根據不同應用場景選擇合適的網絡協議,把數據傳輸到計算平台利用深度學習算法進行復雜背景手勢識別,並最終給出手勢識別結果。
| 基於DNN實現的VR會是什麼樣的?
基於DNN算法的思想實現的VR產品,並使用單機GPU方法來加速深度網絡的訓練和識別工作。手勢識別模組可以使用深度攝像頭實現手部近距離3D成像,結合DNN自主研發了一套數據處理算法,實現了高精度實時手部動作識別,既能跟蹤單個手指,識別每個手指細微的動作,也可擴展至跟蹤多隻手。
這樣的VR產品的手勢識別具有捕捉精度高,響應速度快,靈敏度高,可以不受環境光線強弱影響,室內室外都可以使用。
不過目前市面上幾乎沒有基於DNN的手勢識別產品。筆者所知的G-Wearables自主研發的StepVR產品就是基於DNN算法實現的,但還未見到實物,可以期待一下。
資料來源:雷鋒網
作者/編輯:airuoxuan