Google 會思考的深度學習系統
上週五在舊金山舉行的機器學習會議上,Google軟件工程師Quoc V. Le講解了Google的“深度學習”系統是如何運作的。
“深度學習”需要用到大型計算機集群來吸收數據(如圖片)對其進行自動分類。 Google的Android語音控制搜索、圖像識別及Google翻譯等均採用了這項技術。
2012年6月,紐約時報曾報導了Google如何通過向“DistBelief”提供數百萬份YouTube視頻來讓該虛擬神經網絡系統學習貓的關鍵特徵。這套系統的創新之處在於,它可以在未事先獲取“貓的特徵描述”信息的情況下自行總結出貓這個概念的特徵!也就是說,DistBelief具有自學習能力。當然,這套系統的運算能力也非常的龐大,由1000台機器組成,共包括16000個內核,處理的參數高達1000000000個。
這套系統採用分層機制工作,神經網絡的最底層可偵測圖像顏色變化,再上一層則可識別特定類型的輪廓。在增加若干後續分析層之後,系統不同的分支會為臉部、搖椅、計算機等對像生成檢測方法。
不過令Quoc V. Le震驚的是機器學會了辨認連人類都很難分辨的東西—如碎紙機,我們知道那東西是碎紙機是因為我們見過,但是Google的這台怪物可沒見過。
Quoc V. Le解釋說,學習如何歸納出碎紙機特性是件非常複雜的事情,他自己想了很久也沒想出來。
甚至當Quoc向自己的許多同事展示碎紙機的照片時他們也在辨認上遇到了麻煩。反而這套系統的識別成功率更高,Quoc本人都不能確定自己能否寫出程序來做到這一點。 Quoc解釋說,這是因為人需要靠數據而不是自己來歸納特性。
也就是說,這件事情意味著現在Google的研究人員已經無法說清楚究竟這套系統是如何識別出特定對象的了,因為程序看起來已經有了獨立思考的能力,其複雜的認知過程是不可預測的,雖然這種“思考”能力仍局限在非常狹隘的範疇。
不過,Google並不指望深度學習系統會自行發展成為一套成熟的新興人工智能係統。研究總監今年早些時候曾說過:
引用 AI(人工智能)會自己產生?我是非常實用主義的—我們得做了才會讓事情發生。
不過Google負責AI的Peter Norvig相信,對於可靠語音識別及理解等棘手問題來說,Google採用的此類密集統計數據模型是最好的希望,這點與Noam Chomsky的觀點不一致。
深度學習對Google很有吸引力,因為它能夠解決該公司自己的研究人員無法解決的問題,還能夠讓Google少僱一些不稱職的人。我們知道,Google以招聘人中龍鳳著稱。
放權給機器這件事Google以前沒少干。像Google眾多數據中心的資源管理就是由Brog及Omega負責的。這些集群管理系統能像“生物”一樣分配工作負載。
考慮到Google的抱負是“組織全世界的信息”,當然是僱用的人越少越好。 Quoc說,通過開發這些“深度學習”系統Google可以少僱一點人類專家。
他補充道:
引用機器學習是很困難的,因為哪怕從理論上來說可以運用邏輯回歸等算法,但實際上我們在數據處理挖掘特性等事情上花費了大量時間。每一個問題都得僱用領域專家。 ……所以Google希望機器能做那些事情。
通過努力工作,賦予機器更大的能力,以及局部的、有限的智能,Google可解決人類專家無法解決的分類問題。會不會發展成天網呢?答案是否定的。但它可以發展成專家型機器。幸運的是,機器目前還是合作的。
資料來源:36Kr