Google DeepMind AI學會了自己研究物理基本定律
通過深度學習與強化學習的雙管齊下,Google的DeepMind團隊最近取得了不少突破,比方説AlphaGo擊敗了人類的圍棋世界冠軍,不久前他們在《自然》雜誌上又披露了像人一樣有記憶會推理的DNC。近日,這支團隊聯合加州大學伯克利分校的研究人員又發表了一篇名為《通過深度強化學習學會執行物理實驗》的論文,論文稱他們已經可以訓練AI基於目標驅動與物體進行交互,在事先不掌握任何物理定律的情況下學會評估這些物體的特性。更重要的是,研究人員通過系統地操縱問題難度和信息收集的成本發現,AI還學會了用不同的策略來對收集信息的成本與在不同情況下犯錯的成本進行平衡。
這個實驗項目的靈感來自兒童的發育過程,他們訓練AI鏡像了人類跟物體交互的能力,讓人工智能學會了通過交互來推斷出諸如質量、摩擦以及韌性等特性。
談到研究背景,論文指出,儘管AI在複雜控制問題以及其他的任務處理方面取得了“人類所不能及的成績”,但機器仍然缺乏對我們這個實體世界的理解。甚至AI的水平 “在科學直覺方面能不能超過幼兒還不得而知。”
為了弄清楚AI是不是具備這方面的能力,首席研究員Misha Denil和他的團隊在不同的虛擬環境下設定了各種試驗,讓AI面對一系列的積木塊,然後讓AI去評估這些東西的特性。
比如其中一個仿真實驗叫做哪個更重。在這個實驗裏面,AI要面對四個尺寸一樣大小但是質量不一樣的積木塊。系統必須識別出哪一個積木塊最重。而為了避免AI通過視覺或者其他特性來完成這個任務,積木塊的質量是隨機分配的。這樣AI就無法通過積木塊的顏色來判斷其質量了。
其唯一的手段是反饋。如果AI確定出來了最重的積木塊,就會受到獎勵,而如果回答不正確,得到的就是負反饋。通過這種強化技術,AI就會了解到,獲得質量方面信息的唯一辦法只有通過跟積木塊進行交互,然後觀察這些積木塊的響應。
研究進行的第二個實驗是塔。這個塔由5個積木塊組成,不過其中一些積木塊是隱藏在AI看不到的地方的。AI必須同樣在強化學習的框架下判斷出來一共使用了多少個積木塊。最終AI也學會了必須跟塔這個構造交互並且把零部件取出來才能獲得正確的數字。
通過這項研究,該團隊宣稱,AI是有能力在事先不了解物理特性或者物理定律的前提下解決被動感知以外的問題的。
對該研究感興趣的讀者可以到此處下載他們的論文。
資料來源:36Kr
這個實驗項目的靈感來自兒童的發育過程,他們訓練AI鏡像了人類跟物體交互的能力,讓人工智能學會了通過交互來推斷出諸如質量、摩擦以及韌性等特性。
談到研究背景,論文指出,儘管AI在複雜控制問題以及其他的任務處理方面取得了“人類所不能及的成績”,但機器仍然缺乏對我們這個實體世界的理解。甚至AI的水平 “在科學直覺方面能不能超過幼兒還不得而知。”
為了弄清楚AI是不是具備這方面的能力,首席研究員Misha Denil和他的團隊在不同的虛擬環境下設定了各種試驗,讓AI面對一系列的積木塊,然後讓AI去評估這些東西的特性。
比如其中一個仿真實驗叫做哪個更重。在這個實驗裏面,AI要面對四個尺寸一樣大小但是質量不一樣的積木塊。系統必須識別出哪一個積木塊最重。而為了避免AI通過視覺或者其他特性來完成這個任務,積木塊的質量是隨機分配的。這樣AI就無法通過積木塊的顏色來判斷其質量了。
其唯一的手段是反饋。如果AI確定出來了最重的積木塊,就會受到獎勵,而如果回答不正確,得到的就是負反饋。通過這種強化技術,AI就會了解到,獲得質量方面信息的唯一辦法只有通過跟積木塊進行交互,然後觀察這些積木塊的響應。
研究進行的第二個實驗是塔。這個塔由5個積木塊組成,不過其中一些積木塊是隱藏在AI看不到的地方的。AI必須同樣在強化學習的框架下判斷出來一共使用了多少個積木塊。最終AI也學會了必須跟塔這個構造交互並且把零部件取出來才能獲得正確的數字。
通過這項研究,該團隊宣稱,AI是有能力在事先不了解物理特性或者物理定律的前提下解決被動感知以外的問題的。
對該研究感興趣的讀者可以到此處下載他們的論文。
資料來源:36Kr