一張圖解讀《財富》人工智能萬字長文，關於深度學習的前世今生

圖片來源：pic.36krcnd.com

本文來自“百度大腦”（ID：baidubrain），36氪經授權發佈。
導讀：

自然語言處理、語音識別、用户畫像、無人駕駛……這些和深度神經網絡（即深度學習）相關的技術在最近幾年突然火了起來，但深度學習並不是憑空冒出來的。它從最初的概念誕生，到現今備受技術和資本的青睞，歷經了幾十年的起起伏伏。讀完這篇文章，你將弄清楚深度學習的前世今生。

這篇文章主要解讀的是美國《財富》雜誌（Fortune）近期發佈的一篇名為「為何深度學習將突然改變你的生活」（Why deep learning is suddenly changing your life）的文章。這篇文章翻譯成中文有上萬字，但我們將只用一張圖表和 10 分鐘向你拆解這篇長文，講述深度學習是如何成長為今天的樣子的。

神經網絡最早的概念誕生於 20 世紀 50 年代，而一些關鍵的算法突破則是在 80 至 90 年代才出現，今天深度神經網絡能夠得到廣泛應用，得益於計算機硬件性能的大幅提升，以及海量數據的產生。
用百度首席科學家吳恩達的話來説，深度學習的進展和計算能力的提高和數據的增長密不可分。通俗地講，我們可以把它類比於建造太空火箭：「你需要大功率火箭發動機，你也需要大量的燃料。如果你有許多燃料但只擁有小功率發動機，你的火箭大概無法飛離地面。如果你擁有大功率發動機但只有一點點燃料，你的火箭即使飛上天也無法進入軌道。」

計算能力的提高相當於發動機功率的提高，而數據就像是燃料。

圖片來源：pic.36krcnd.com

上世紀 50 年代，神經網絡的研究潮流才剛剛在計算機科學家們之間流行起來。

1958 年，在一項受美國海軍支持的項目中，康奈爾大學的心理學家 Frank Rosenblatt 搭建了神經網絡的原型並給它取名為 Perceptron，它利用的是佔據了整整一個房間大小的穿孔卡片計算機。經過 50 次測驗，Perceptron 能夠區分兩種不同的卡片，其中一種左側帶有記號，另一種右側帶有記號。
Perceptron 軟件結構和神經元類似，但和人腦神經的多層結構相比，只具有單層神經元的 Perceptron 能力有限，於是人們開始研究如何開發多層神經網絡，也就是我們現在所説的深度神經網絡。

神經網絡先驅 Geoffrey Hinton 舉了個例子：深度神經網絡辨認圖片裏的一隻鳥的過程。

它會先對輸入的像素進行分析，如果其中的一些線條兩側亮度相差很大，它會判斷出這可能是鳥的輪廓，並把數據傳遞給下一層神經網絡。後者繼續沿着線條去尋找一些和鳥類貼合的特徵，比如線條轉折交匯處形成的角度是不是和鳥類的喙的尖角相似。如果得到確認，數據會進入下一層，神經網絡尋找更加複雜的外型，比如同樣的線條有沒有大致地圍成一圈，形狀和鳥類頭部的相似性。再下一層，神經網絡確定類似鳥嘴的形狀和頭部的形狀是不是以恰當的方式接合在一起，如果是的話它就有相當充分的證據來説明這是一隻鳥的頭部了。

深度神經網絡以類似的方式來對數據進行分析，每一層神經網絡都基於上一層極的判斷去分析更加複雜和抽象的特徵，直到最高一層形成對整體形象的判斷。

在 Hinton 提出他的想法之前，60 年代末乃至整一個 70 年代，人們都懷疑深度神經網絡的可行性，例如著名的人工智能科學家 Marvin Minsky。直到 Hinton 和其他科學家找到了訓練深度神經網絡、糾正其錯誤的方法時，深度神經網絡才重回人們的視野。
改變深度學習的這個關鍵過程就是，除了像前面描述到的那樣將信息層層推進分析，如果最後得出的結果是不匹配，深度神經網絡還需要把這一信息逐層返回給更低一級的類神經元，以便它們調整激活來優化最後的結果，這就是深度神經網絡學習的過程。

1986 年，Hinton 和他的兩位同事發表了一篇論文，其中他們提供了一種算法來解決這種錯誤修正難題，深度神經網絡學習能力的質疑得到了解決，神經網絡的第二波潮流由此開始。

之後直到 20 世紀 90 年代中期，圖像識別、手寫數字辨識、自然語言處理等系列技術都取得了奠基性的成果，這些技術成果至今仍然在廣泛應用。

20 世紀最後的幾年裏，受限於當時的計算能力，深度學習還不是機器學習中最高效的工具，這種有點超前的技術不可避免地再次遇冷。1997 年，IBM 著名的人工智能深藍打敗了當時的國際象棋冠軍 Garry Kasparov，但它採用的並非深度神經網絡技術。

直到 2007 年，斯坦福大學教授李飛飛成立了 ImageNet 並開始組建一個有標記圖片的數據庫，兩年後該數據庫組建完成，1400 萬張經過標記的圖片免費開放給機器學習研究者使用。此時硬件的計算性能也已提高到了足夠處理這些數據的程度，火箭需要的發動機和燃料都有了，是時候試飛了。
這裏我們需要解釋一點，為什麼 ImageNet 出現之前互聯網上大量的開放數據不能被應用於深度學習？這也是目前深度學習面臨的侷限，大部分深度學習創造的價值仍然來自於監督學習技術。監督學習技術需要基於系統曾經接受過的其他實例輸入，來學習對東西進行分類或對結果進行預測。

例如前面提到的，給你一張圖片，請你把鳥從圖片裏找出來。或者像給你一封郵件，請你判斷它是不是垃圾郵件。在監督學習的過程中，深度神經網絡先前接受的這些輸入信息需要有一個標記信息，它相當於我們做訓練題時的參考答案，深度神經網絡把自己的分析結果和它進行對比，從而優化分析過程和糾正錯誤。如果輸入的信息中沒有關於實際上圖片裏有沒有鳥的標記，或者關於這封郵件實際上是不是垃圾郵件的標記，它就無從學習。這就像我們做完練習題卻並不知道自己答得對不對，這對於我們下一次碰到類似的題目大概毫無助益。因此，ImageNet 這樣「有參考答案的習題」就顯得十分關鍵。

當然我們還知道另一種深度學習技術：無監督學習。

2012 年 6 月，Google推出的「貓實驗」項目就是對無監督學習的一次探索。在「貓實驗」中，Google大腦開發的一個大規模神經網絡憑藉 1000 萬張來自 YouTube 的未標記圖片學會了分辨貓。吳恩達當時正是Google大腦的負責人，他當時發現經過無監督學習的神經網絡對人臉也有辨識，但也有一些神經網絡辨識出來的特徵他們沒能找到對應的詞彙，無監督學習方面的算法在很大程度上仍然處於搖籃期。
隨後的幾年裏深度神經網絡技術被運用到Google的語音識別、圖片搜索乃至前一陣子的Google中英文互譯當中。它最耀眼的時刻仍然是配備神經網絡的 AlphaGo 擊敗韓國世界級棋手李世石的那一刻。

而在商用方面，能夠將深度學習進行商業應用的仍然是幾家掌握了海量數據的公司，例如百度、Google、微軟和 Facebook。目前百度大腦已經將深度神經網絡技術應用到語音識別、翻譯、圖片搜索以及百度無人車等領域中，並且取得了一些驚人的成就。

以語音識別為例，來自斯坦福、百度以及華盛頓大學的數據科學家們在今年進行了一項研究，對語音識別輸入效率和打字輸入效率做了對比，該研究採用的深度學習技術來自百度深度網絡語音識別系統 Deep Speech 2，其對中文（普通話）和英文的語音識別輸入速度比打字快 3 倍左右，錯誤率則明顯少於後者。參與其中的一位斯坦福計算機科學博士表示，儘管他們有過大概的預期，但實驗結果還是讓人吃驚。

「在過去，許多標普 500 指數公司的 CEO 希望自己能早點意識到互聯網戰略的重要性。我想從現在開始的今後 5 年也會有一些標普 500 指數公司的 CEO 後悔沒有早點思考自己的 AI 戰略。」這是吳恩達對人工智能戰略地位的概括，人工智能技術的重要性已不言而喻，而深度學習也許是其中最值得期待的一項。

資料來源：36Kr

一張圖解讀《財富》人工智能萬字長文，關於深度學習的前世今生

如果喜歡我們的文章，請即分享到︰