GoogleDeepMind最新突破:讓機器像人腦一樣保留學習記憶,向類人智能更進一步
首發於大數據文摘微信公眾平台(ID:BigDataDigest),轉載請註明來源
翻譯 | 姜範波,Aileen
引用導讀:和人腦不同,計算機程序學習執行一項任務後,通常也會很快地忘記它們。而DeepMind這項最新研究通過修改學習規則,程序在學習一個新任務時,還能記得起老任務。這樣的程序,能夠持續地、自適應地學習,無疑這是程序邁向更加智能化的重要一步。
計算機程序學習執行一項任務後,通常也會很快地忘記它們。相比之下,我們的大腦以非常不同的方式工作。我們能夠逐步學習,一次獲得一個技能,並在學習新任務時運用我們以前的知識。作為起點,DeepMind在最近的PNAS文章裏,提出一種方法來克服神經網絡中的災難性遺忘。靈感源自神經科學關於哺乳動物和人類大腦鞏固化既往獲得的技能和記憶的理論。
神經科學家已經發現,在大腦中有兩種固化方法:系統固化和突觸固化。系統固化是指將我們大腦的快速學習過程獲取的記憶印記到緩慢學習過程。這種印記由有意識的和無意識的回憶所介導的——例如,這可能在夢中發生。第二種機制突觸固化,則是指那些在既往學習任務中扮演重要角色的神經元之間的連接,不太可能被重寫。我們的算法,就是從這種機制中得到靈感,來解決災難性忘記的問題。
一個神經網絡由多個連接組成,其連接方式與大腦的神經元之間的連接方式相同。某個學習任務完成後,我們計算每個連接對該任務的重要性。當我們學習下一個新的任務時,按照每個連接對舊任務的重要性的比例,保護它們免受修改。因此,可以學習新任務而不重寫在先前任務中已經學習的內容,並且不會引起顯著的計算成本增加。用數學術語來説,我們可以認為在一個新任務中每個連接所附加的保護比作彈簧,彈簧的強度與其連接的重要性成比例。為此,我們稱之為“彈性權重固化”( Elastic Weight Consolidation , EWC)。
為了測試我們的算法,我們讓程序依次學習一個Atari遊戲。當DeepMind在2014年突破性地教它的機器學習系統如何玩Atari遊戲時,系統可以學會擊敗遊戲,並且得分高於人類,但不記得它是如何做到的。單單從得分來學習一個遊戲是一項具有挑戰性的任務,但是依次學習多個遊戲更具挑戰性,因為每個遊戲需要單獨的策略。如下圖所示,如果沒有EWC,程序會在每個遊戲停止後(藍色)會快速忘記它。這意味着,平均來説,它幾乎沒有學會任何遊戲。 然而,如果我們使用EWC(棕色和紅色),程序不會輕易忘記,並可以一個接一個地學會玩好幾個遊戲。
“以前,我們有一個系統,可以學習玩任何遊戲,但它只能學會玩一個遊戲,”James Kirkpatrick,DeepMind的研究科學家,並且其新研究論文的主要作者告訴WIRED。 “在這裏我們展示一個可以學習玩很多個遊戲的系統”。
“我們只允許它們在遊戲之間的變化非常緩慢,”他説。 “這種方式有學習新任務的空間,但我們應用的更改不會覆蓋我們以前學習的算法”。
為了測試算法,DeepMind使用深層神經網絡,稱為Deep Q-Network (DQN),它以前曾用來征服Atari遊戲。然而,這次使用EWC算法來“增強”DQN。它測試了算法和神經網絡上隨機選擇的十個Atari遊戲,這時AI已經證明可以像一個人類玩家一樣好。每個遊戲播放2000萬次之前系統自動移動到下一個Atari遊戲。
使用EWC算法的深層神經網絡能夠學習玩一個遊戲,然後轉移它學到的玩一個全新的遊戲。
然而,系統絕不完美。 雖然它能夠從以前的經驗中學習並保留最有用的信息,但是它不能像只完成一個遊戲的神經網絡那樣表現得好。“目前,我們已經展示了順序學習,但我們還沒有證明它是對學習效率的改進,”Kirkpatrick説。 “我們的下一步將嘗試和利用順序學習來改進現實世界的學習”。
連續學習任務而不忘記的能力是生物和人工智能的核心組成部分。今天,計算機程序還不能自適應地、實時地從數據學習。然而,DeepMind已經證明災難性地遺忘並不是神經網絡的不可逾越的挑戰。這項研究也推進了我們對固化過程在人類大腦中如何發生的理解。事實上,我們的工作所基於的神經科學理論主要在非常簡單的例子中得到證實。通過將這個理論應用在更現實和複雜的機器學習環境中,我們希望進一步加強對突觸固化在記憶保留中的作用及其機制的研究。
資料來源:36Kr