性能提升 20 倍:英偉達 GPU 旗艦 A100 登場,全新 7nm 架構安培出爐
引用時隔三年,英偉達最強芯片 Tesla V100 有了繼任者,20 倍的性能提升着實讓人有些招架不住。
雖然因為新冠疫情爆發,今年的 GTC 2020 大會也在最後時刻宣佈轉為線上,不過人們期待 7 納米制程英偉達 GPU 的熱情並沒有消退。
英偉達當然理解我們的心情,在 GTC 正式開幕一天前,英偉達 CEO 黃仁勛提前放出了一段視頻——在老黃美國加州 Los Altos Hills 的家中,全球最大的 GPU 正式「出爐」了:
▲ 我們説的這個「出爐」,它可真是字面意思
事實上,黃仁勛今年的整個 GTC 大會的主 Keynote 環節都是在這個烤爐前進行的。他還表示,這是英偉達有史以來第一個「廚房 Keynote」。
▲ 和普通家庭一樣,黃老闆家的廚房裏也擺着「煤氣灶」,顯得樸實無華且枯燥。
黃老闆展示的安培(Ampere)架構 GPU 系統以最新英偉達 Tesla A100 芯片組成,被認為是迄今為止 GPU 算力最大的一步提升。
A100:面積最大,性能最強
具體提升了多少?還記得三年前推出、至今仍然業界領先的 Volta 架構芯片 Tesla V100 嗎?V100 用 300W 功率提供了 7.8TFLOPS 的推斷算力,有 210 億個晶體管,但 A100 的算力直接是前者的 20 倍。
「A100 是迄今為止人類製造出的最大 7 納米制程芯片,」黃仁勛説道。A100 採用目前最先進的台積電(TSMC)7 納米工藝,擁有 540 億個晶體管,它是一塊 3D 堆疊芯片,面積高達 826mm^2,GPU 的最大功率達到了 400W。
這塊 GPU 上搭載了容量 40G 的三星 HBM2 顯存(比 DDR5 速度還快得多,就是很貴),第三代 Tensor Core。同時它的並聯效率也有了巨大提升,其採用帶寬 600GB/s 的新版 NVLink,幾乎達到了 10 倍 PCIE 互聯速度。
隨着安培架構出現的三代 Tensor Core 對稀疏張量運算進行了特別加速:執行速度提高了一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統會自動將數據轉為 TF32 格式加速運算,現在你無需修改任何代碼量化了,直接自動訓練即可。
A100 也針對雲服務的虛擬化進行了升級,因為全新的 multi-instance GPU 機制,在模擬實例時,每塊 GPU 的吞吐量增加了 7 倍。
最終在跑 AI 模型時,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的訓練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。
▲ 圖 2. 相比 Tesla V100 和 Tesla T4,A100 GPU 在 BERT 訓練和推理上的性能
「放棄 CPU」的超級計算機
芯片能力的提升,是為了追上今天 AI 算力需求的爆炸性增長。在英偉達看來,自 2017 年 5 月 Volta 架構的 Tesla V100 推出後,今天人們對於 AI 模型訓練算力的需求竟增長了 3000 倍(從當年的 ResNet 發展到今天的 Megatron-BERT 等算法)。
看來製程、架構上的提升還是不夠。另一方面,對於雲服務廠商來説,人們用算力來做的事總在不斷變化,所以也難以設計專有優化的芯片架構。如何尋找一種可以適應更多應用方向的設計方案呢?
三年前英偉達設計 Volta 芯片時已經思考了這一問題。今天推出的安培架構除了性能提升 20 倍,還可以實現 1-50 倍的擴展。英偉達的體系不僅可以向更多 GPU 擴展(Scale-Up),還可以向外擴展(Scale-Out)以滿足人們永無止境的算力需求。
今天的人工智能任務包括模型的訓練和推斷,在原有人工智能系統 DGX-1 中,我們還在使用 GPU 負責訓練、CPU 負責推斷的分工方式。而有了 A100 芯片加持,第三代 DGX 可以把訓練與推斷全部交給 GPU 來完成,充分發揮先進架構的加速能力。
這就是黃仁勛「剛剛出貨」第三代 DGX:
這代 DGX A100 單節點包含 8 塊 GPU,可以輸出 5PetaFLOPS 的 FP16 算力(比 TFLOPS 又多了三個零,10 的 15 次方),今天就已開賣,售價 19.9 萬美元。該價格和上一代 DGX-2 基本持平(DGX-2 首發價 39.9 萬美元,但內含 16 塊 V100 GPU)。首批 OEM 廠商包括浪潮、聯想、惠普,上線的雲服務公司覆蓋 AWS、微軟、Google、阿里巴巴、騰訊、百度…… 大廠幾乎全都覆蓋了。
▲ 這是世界上最大的 GPU,重 50 磅(約合 22.7 千克,相當於一個六七歲孩子的體重)。
A100 使用了成本很高的新制程、新內存,使用起來效果如何?英偉達算了一筆賬:今天的數據中心假如使用 50 個 DGX-1 系統(基於 Tesla P100)用於 AI 算法的訓練,600 個 CPU 用於推斷,硬件成本是 1100 萬美元,需要使用 25 個服務器機架,消耗 630kW 功率。
使用最新的 DGX A100,我們只需要並聯 5 個 DGX A100 系統,GPU 同時用於 AI 訓練和推斷,成本 100 萬美元,1 個機架,使用 28kW 功率。
「現在,你只需要十分之一的硬件成本,二十分之一電力消耗就能做同樣的事。The more you buy, the more you save !」黃仁勛説道。
▲「The more you buy, the more you save」,語音請自行腦補(話説黃老闆不考慮註冊個音頻商標嗎?)。
英偉達還宣佈了 DGX A100 SuperPOD,面向更大的雲服務算力需求。它可以支持 140 個 DGX A100 系統(內含 1120 塊 A100),可通過 170 個 Mellanox Quantum 200G infiniBand 切換,實現 700PFLOPS 的 AI 算力。這樣一組服務器三週之內就可以建成。
英偉達自用的超級計算機「土星五號」,一直被用於醫療影像、自動駕駛任務的訓練,原版搭載 1800 個 DGX 系統,輸出 1.8ExaFLOPS 算力,現在加掛了四個 SuperPOD,最終可以實現 4.6ExaFLOPS 算力,成為了世界最強勁的超級計算機之一。
在今日的發佈會上,英偉達也發佈了 HGX A100,在性能上,憑藉第三代 Tensor Core,HGX A100 在 TF 32 精度上將 AI 負載的處理速度提高了 20 倍,而 FP64 精度的高性能計算速度提高了 2.5 倍。其中,HGX A100 4-GPU 可為最苛刻的 HPC 工作負載提供近 80 teraFLOPS 的 FP64 算力。HGX A100 8-GPU 版可提供 5 petaFLOPS 的 FP16 深度學習算力,而 16-GPU 的 HGX A100 提供驚人的 10 petaFLOPS,為 AI 和 HPC 創建了當前世界上最強大的加速擴展服務器平台。
▲ HGX A100 的特性。
如今,AI 應用已在語音、推薦系統、智能醫療、自動駕駛等任務上得到了實踐。除了算法技術的發展,人們對於算力的需求也有着瘋狂的增長。英偉達已不再把自己定義為芯片製造商,而是一家「數據中心擴展公司」(Data center scale company),這也指明瞭它未來重點的發展方向。
「在未來,人們使用的計算單元將會是整個數據中心。其背後不是數個 CPU,而會是並聯計算的 GPU 陣列。數據中心需要承載大量不同的計算任務,它們有不同的需求。我們需要訓練、推斷、科學計算、雲遊戲都能做的硬件,並對這些計算都進行加速,」黃仁勛説道。
這或許就是 GPU 的不可替代之處。
終端、自動駕駛全覆蓋
安培架構如此強大,英偉達這次也沒有讓數據中心以外的應用方向多等,直接放出了同樣使用新架構的端側芯片 Nvidia EGX A100。
英偉達還介紹了旗下最新技術的一些應用案例,其中包括 4 月底剛剛發佈的小鵬汽車 P7,以及寶馬集團採用英偉達解決方案全面提升工廠物流管理水平的例子。小鵬 P7 的 XPILOT 3.0 是國內首個搭載英偉達 Xavier 計算平台的自動駕駛量產方案,而且還搭載了兩套(硬件互相獨立,互為宂餘)。
在軟件方面,英偉達推出了自己的語音交互框架 Jarvis,Apache Spark 3.0 現在推出了針對英偉達 GPU 的機器學習支持。英偉達今日也更新了與 GPU 相匹配的軟件 CUDA 11,以支持最新的 Ampere GPU 架構、多實例 GPU(MIG)分區功能,併為任務圖、異步數據移動、細粒度同步和 L2 緩存駐留控制編程並提供 API。
英偉達還發布了深度學習超級採樣技術 DLSS 2.0 版,可以使用 540p 的原畫面渲染出 1080p 的效果。「神經網絡現在可以『腦補』出低畫質像素沒有表現出的光源,並通過前後幀的類似畫面推測出當前幀應該出現的更多細節,」黃仁勛説道。「現在 DLSS 2.0 的效果甚至好於採用常規抗鋸齒等技術渲染出來的高清晰度畫面。」
GeForce RTX 3080 Ti 還遠嗎?
最後,很多人關心的問題可能是:消費級顯卡 GeForce RTX 在哪裏?
GTC 大會之前,曾有爆料説英偉達今年三季度將會發布安培架構的 GeForce RTX 30 系列顯卡,其光追效果可以提升 4 倍,低端卡也可以秒殺當前版本的 RTX Titan,很多人都在期待 7 納米的英偉達 GPU 在遊戲上的表現。黃仁勛這次只是表示:「全新架構安培我們現在已經用在 DGX 上了,英偉達正在努力把新架構的芯片用在機器人、自動駕駛汽車等領域中。未來也會用在圖形計算上。」
▲ 光線追蹤技術非常誘人:這樣的小遊戲畫面,是由一塊 Quadro RTX 8000 實時渲染出來的。
黃仁勛的表達非常謹慎,不過至少英偉達在這次 GTC 上向我們展示了下一代光線追蹤技術在《我的世界》等遊戲中的效果,並將其標記為 RTX 30/20 系列專有:
我的世界中絕大多數建築都是由玩家自行建造的,這裏可沒有什麼可以「造假」的餘地,一切都需要依靠 GPU 和新技術進行實時渲染。
看來距離 7 納米制程的 Geforce 3080Ti 出世也已不遠了,等等黨永遠不輸。
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者李澤南,愛範兒經授權發佈。
資料來源:愛範兒(ifanr)