Google放大招:如何追趕人工智慧硬體的浪潮

在今年的GoogleI/O大會上,除了安卓P之外,Google還發佈了非常重要的硬體:TPU3.0。這是這家科技巨頭第三次發佈新版本的機器學習專用處理器。

AI開銷大,Google已All in

人工智慧需要大量的計算資源進行訓練。但是這個規模有多大?很多人是沒概念的。對於大公司來說,對資源的要求非常高,尤其是神經網路,比如GoogleI/O大會大放異彩的安卓電池節約模式和自動亮度調整,就是Deepmind的產品,Deepmind在官方新聞並未透露讓手機學習這些行為需要多少資源,但是在圍棋專案上可以窺探一下。


2000個P100運行兩三周才能訓練出強大的圍棋程式Deepmind訓練AlphaGoZero的時候,2000個TPU跑了40天。AlphaZero訓練則是調用了5000個TPU。寫成論文之後,Facebook在重現論文的時候,則是使用了2000個GPU運行了兩三周的時間,這個GPU都是英偉達的P100,一個8GPU的學習伺服器英偉達就要賣到上百萬人民幣。

TPU:每小時6.5美元,訓練AlphaGo要數百萬美元

讓巨頭們狠下心來自己搞AI硬體的動力來自多個方面,一來Google自己做針對TensorFlow優化的TPU效果好,二來現在Google雲都可以租賃分時使用TPU資源了,對於擅長硬體或是雲計算的科技巨頭們來說,是時候發展自己的AI硬體了,這正在成為大公司的遊戲。

CPU在任務處理器裏出現兩個核心,可以追溯到十多年前的奔騰四時代,剛剛出現的HyperThreaing技術。不過很多年過去,由於CPU的單個核心任務繁重,所以就算是伺服器的版本,核心數也不過20多個就基本到頭了。


GPU更多的核更適合機器學習和AI在神經網路出現之後,要用電腦系統去模擬更多的人大腦的神經元,這樣神經網路在訓練的時候對資源的開銷非常大。因為神經網路的特點是節點多,這對於核心不多的CPU來說就需要非常大的伺服器集群。但是當時人們發現了顯卡,單個顯卡上面有很多個單元,正好適合訓練人工智慧的神經網路。

在TitanV當中,英偉達加入了640個張量單元用來加速AI訓練速度

英偉達的股票過去幾年成為投資熱點,暴漲了數倍而神經網路單個節點並不需要多高的計算能力,這讓顯卡企業英偉達迅速的推出了針對神經網路、機器學習專用的GPU,過去幾年英偉達的股價暴漲數倍。科技巨頭們採購的GPU往往以萬計,只有這個規模才能滿足他們對於探索的需求。

DGX-2可以支持單機16個V100GPU現在英偉達成為了業內最大的機器學習GPU的供應商,並且英偉達自己也提供DGX系列機器學習伺服器,今年的新款可以單機支持16個GPU,過去是8個。可以說英偉達是AI時代最大硬體贏家也不為過。

贏家自信的微笑這裏我們回到開頭,Facebook訓練圍棋程式ELF用了多少個GPU?2000個!英偉達總裁黃仁勳還可以笑很久很久。

Google最早的GoogleBrain搞機器識圖的時候,就是大規模的GPU集群。據說曾經用力上萬張GPU來進行學習訓練。因為GPU並沒有針對性的對Google的TensorFlow框架進行優化。而到了和李世石下圍棋的版本,則已經開始使用自己的TPU,但是多達50個。

Google完整經歷了從CPU到GPU再到TPU的流程到了與柯潔下棋的時候,可以看到機器已經變成了只要一個4U左右的4TPU伺服器就可以,這就是專用晶片的威力,對於AI和神經網路,專用晶片的效率提升是指數式的,而不是線性的幾個機架縮小到1個。

TPU2.0:四個一張PCB,算力可以達到180TFlopsGoogle的TPU全稱叫做TensorProcessingUnit,張量處理單元,它針對Google的深度學習框架TensorFlow定制開發,TPU推出只有8位的低精度計算,並且有不小的板載記憶體以減少對內存的訪問,但是優化後可以極大的提高機器學習的效率。


TPU3.0的高功耗不得不用上水冷散熱

圖片下有8個互聯機架有每秒1000萬億次的能力與柯潔下棋的是TPU二代,四個TPU有180TFlops的計算能力。而這兩天的GoogleI/O上則推出了TPU3.0版本,功耗進一步加大,使用了水冷。根據GoogleCEOPichai的話說,要比過去快十倍以上:這其實說的是一整個集群模組,可以達到100PFlops,也就是所說的每秒1000萬億次。

TPU只是對TensorFlow優化當然TPU不是萬能的,它針對的是Google的學習框架,而Facebook的學習PyTorch框架基本就沒法用,所以目前來說還只是針對性的硬體。

Google的TPU本質上是ASIC,當然機器學習不止一條路,微軟就在5月7日的Build2018大會上,宣佈了ProjectBrainwave的預覽版,這其實比Google的I/O還早了幾天。

微軟押寶FPGA

微軟ProjectBrainwave團隊負責人DougBurger展示FPGA模組微軟押寶的是FPGA(現場可編程門陣列FieldProgrammableGateArray,簡稱FPGA),微軟始終認為FPGA更靈活,可以適應多種機器學習的類型。微軟還聲稱,FPGA可以使用圖形識別模型每1.3毫秒就識別一張圖片,而根據微軟CEOSatyaNadella的演講,FPGA的延遲要比TPU低5倍。

近看FPGA,可以插在全高的PCIE伺服器模組上加速AI和深度學習計算微軟的FPGA靈活性在於不僅僅支持TPU支持的TensorFlow,也支持微軟自己的人工智慧認知工具包,前面說的識別圖片就是最基礎的人工智慧應用之一。與Google雲支持TPU差不多,微軟也即將在Azure雲中支持FPGA的人工智慧、機器學習加速。

undefined

最近關於國產半導體的事情鬧得沸沸揚揚。其實半導體這種成熟的工業,要追趕的路還很長,不要妄自菲薄,也不要有點成績就沾沾自喜嚷嚷趕英超美才是正確的態度,路是一步一步走出來的。最近國內的晶片領域的領軍企業、具有深厚中國科學院背景的寒武紀就推出了MLU。

寒武紀的成品模組與晶片MLU造型上和英偉達標准版的顯卡有點像,也是在PCB後部用一個渦輪風扇橫向吹風散熱的結構,這種結構成熟,可以很容易的放到機箱裏面。當然我們更關心的是性能。根據寒武紀官方公佈的數字,INT8模式下最高可以達到166.4TFLOPS,大概和Google的TPU2.0性能相當。

寒武紀會成為中國的英偉達嗎?MLU和GPU一樣,都相當靈活,可以容易的放到機箱、伺服器裏面起到專門的AI加速作用,並且MLU的工藝是TSMC的16nm,估計未來國內很多AI領域的研究會圍繞MLU展開。

機器學習硬體的應用場景,分學習和應用推理兩部分

Google助手號稱已經通過了圖靈測試,分辨不出AI與真人的區別今天列舉的只是眾多的AI硬體當中的幾個,還有大量獲得千萬美元以上風投公司的AI硬體在路上,燒錢背後是人們意識到了AI同過圖靈測試之後展現的強大,尤其是GoogleI/O大會上的Google助手,讓人分辨不出就是是人還是機器。但無論如何,硬體越強大、AI越智能,越能解放我們的雙手和勞動力,讓真正的大腦投入到思考當中。


Google AIY Projects

如果喜歡我們的文章,請即分享到︰