憑藉 Google 新算法,機器人自學行走平均只需 3.5 小時
雷鋒網注:圖為 Rainbow Dash 在鏤空門墊上運動
在機器人領域,讓機器人保持站立並進行平穩的運動一直是一個棘手的挑戰,因為這需要超高的專業知識和設計水平。儘管一些傳統的機器人能在人工控制的情況下完成站立和運動,但它們的活動範圍也充滿了各種侷限性。
為了解決這個問題,Google 近日和佐治亞理工學院以及加州大學伯克利分校的研究人員聯合發表了一篇論文,詳細介紹了他們如何成功地構建了一個通過 AI 以自學走路的機器人。他們給這隻四足小機器人起了個可愛的代號“Rainbow Dash”。
根據世界紀錄,嬰兒從爬行到學會行走的最快速度是 6 個月,而根據論文中的測試數據顯示,Rainbow Dash 平均只需要大約 3.5 小時來學習向前、向後和左右轉彎等運動——在堅硬平坦的地面上,該機器人學習走路需要 1.5 個小時,在由記憶海綿材質的床墊上大約需要 5.5 個小時,在鏤空的地毯上大約需要 4.5 個小時。
具體來説,該機器人使用深度強化學習,即結合了深度學習和強化學習兩種不同類型的 AI 技術。通過深度學習,系統可以處理和評估來自其身處環境的原始輸入數據;通過強化學習,算法可以反覆試驗,以學習如何執行任務,並根據完成的程度來獲得獎勵和懲罰。也就是説,通過上述的這種方式,機器人便可以在其不了解環境中實現自動控制策略。
在以往的此類實驗中,研究人員最初都會讓機器人通過模擬來學習真實世界的環境。在仿真環境中,機器人的虛擬體首先與虛擬環境進行交互,然後,算法接收這些虛擬數據,直到系統有能力對這些數據“應對自如”,一個搭載系統的物理形態的機器人才會被放置到現實環境中進行實驗。這種方法有助於避免在試錯過程中對機器人及其周圍環境造成損害。
不過,環境雖然容易建模,但通常耗時長,而且現實環境中充滿了各種意想不到的情況,因此,在模擬環境中訓練機器人的意義有限。畢竟,此類研究的最終目標恰恰是讓機器人為現實世界的場景做好準備。
Google 和佐治亞理工學院以及加州大學伯克利分校的研究人員並沒有“守舊”。在他們的實驗中,從一開始就在真實環境中對 Rainbow Dash 進行訓練,這樣一來,機器人不僅能夠很好地適應自己所處的環境,也能夠更好地適應相似的環境。
儘管 Rainbow Dash 能夠獨立運動,這並不代表研究人員可以對其“撒手不管”。在一個環境中學習行走的最開始,研究人員仍需要對 Rainbow Dash 手動干預上百次。為了解決這個問題,研究人員限定了機器人運動的環境,讓其一次性進行多重動作訓練。
在 Rainbow Dash 自學行走之後,研究人員可以通過連入控制手柄來操控機器人實現理想的運動軌跡,將機器人控制在設定的環境內。此外,機器人在識別到環境的邊界後,也會自動往回走。在特定的環境之外,機器人可能會重複摔倒導致機器損壞,那時候就需要另一個硬編碼算法來幫助機器人站起來。
Google 在該研究中的負責人 Jan Tan 告訴媒體,這項研究花費了大約一年的時間才完成。他説道:
雷鋒網(公眾號:雷鋒網)了解到,接下來,研究人員希望他們的算法能適用於不同種類的機器人,或適用於多個機器人在同一環境中同時進行學習。研究人員相信,破解機器人的運動能力將是解鎖更多實用機器人的關鍵——人類用腿來走路,如果機器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機器人在人類世界中行走是一個至關重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區,比如太空。但由於該機器人依賴於安裝在其上方的動作捕捉系統來確定位置,該裝置暫時還不能直接用於現實世界。
雷鋒網注:本文參考 Business Insider
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:Adios
在機器人領域,讓機器人保持站立並進行平穩的運動一直是一個棘手的挑戰,因為這需要超高的專業知識和設計水平。儘管一些傳統的機器人能在人工控制的情況下完成站立和運動,但它們的活動範圍也充滿了各種侷限性。
為了解決這個問題,Google 近日和佐治亞理工學院以及加州大學伯克利分校的研究人員聯合發表了一篇論文,詳細介紹了他們如何成功地構建了一個通過 AI 以自學走路的機器人。他們給這隻四足小機器人起了個可愛的代號“Rainbow Dash”。
根據世界紀錄,嬰兒從爬行到學會行走的最快速度是 6 個月,而根據論文中的測試數據顯示,Rainbow Dash 平均只需要大約 3.5 小時來學習向前、向後和左右轉彎等運動——在堅硬平坦的地面上,該機器人學習走路需要 1.5 個小時,在由記憶海綿材質的床墊上大約需要 5.5 個小時,在鏤空的地毯上大約需要 4.5 個小時。
具體來説,該機器人使用深度強化學習,即結合了深度學習和強化學習兩種不同類型的 AI 技術。通過深度學習,系統可以處理和評估來自其身處環境的原始輸入數據;通過強化學習,算法可以反覆試驗,以學習如何執行任務,並根據完成的程度來獲得獎勵和懲罰。也就是説,通過上述的這種方式,機器人便可以在其不了解環境中實現自動控制策略。
在以往的此類實驗中,研究人員最初都會讓機器人通過模擬來學習真實世界的環境。在仿真環境中,機器人的虛擬體首先與虛擬環境進行交互,然後,算法接收這些虛擬數據,直到系統有能力對這些數據“應對自如”,一個搭載系統的物理形態的機器人才會被放置到現實環境中進行實驗。這種方法有助於避免在試錯過程中對機器人及其周圍環境造成損害。
不過,環境雖然容易建模,但通常耗時長,而且現實環境中充滿了各種意想不到的情況,因此,在模擬環境中訓練機器人的意義有限。畢竟,此類研究的最終目標恰恰是讓機器人為現實世界的場景做好準備。
Google 和佐治亞理工學院以及加州大學伯克利分校的研究人員並沒有“守舊”。在他們的實驗中,從一開始就在真實環境中對 Rainbow Dash 進行訓練,這樣一來,機器人不僅能夠很好地適應自己所處的環境,也能夠更好地適應相似的環境。
儘管 Rainbow Dash 能夠獨立運動,這並不代表研究人員可以對其“撒手不管”。在一個環境中學習行走的最開始,研究人員仍需要對 Rainbow Dash 手動干預上百次。為了解決這個問題,研究人員限定了機器人運動的環境,讓其一次性進行多重動作訓練。
在 Rainbow Dash 自學行走之後,研究人員可以通過連入控制手柄來操控機器人實現理想的運動軌跡,將機器人控制在設定的環境內。此外,機器人在識別到環境的邊界後,也會自動往回走。在特定的環境之外,機器人可能會重複摔倒導致機器損壞,那時候就需要另一個硬編碼算法來幫助機器人站起來。
Google 在該研究中的負責人 Jan Tan 告訴媒體,這項研究花費了大約一年的時間才完成。他説道:
引用我們有興趣讓機器人能夠在各種複雜的現實世界環境中運動。不過,要設計出能夠靈活處理多樣性和複雜性的運動控制器十分困難。
雷鋒網(公眾號:雷鋒網)了解到,接下來,研究人員希望他們的算法能適用於不同種類的機器人,或適用於多個機器人在同一環境中同時進行學習。研究人員相信,破解機器人的運動能力將是解鎖更多實用機器人的關鍵——人類用腿來走路,如果機器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機器人在人類世界中行走是一個至關重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區,比如太空。但由於該機器人依賴於安裝在其上方的動作捕捉系統來確定位置,該裝置暫時還不能直接用於現實世界。
雷鋒網注:本文參考 Business Insider
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:Adios