揭秘谷歌TPU:阿法狗用了一顆就把人類打哭!
如何用一件奇妙的技術連接谷歌服務,如谷歌搜索,街景,谷歌照片和谷歌翻譯?原來他們都使用谷歌的Tensor處理單元,也就是TPU,加速他們在幕后的神經網絡計算。我們去年宣布了TPU,最近對其性能和架構進行了詳細研究。
簡而言之,我們發現TPU的性能比現代CPU和GPU高15-30倍,每瓦性能提高30-80倍。 這些優勢有助于Google的許多服務大規模運行最先進的神經網絡并且價格合理。 在這篇文章中,我們將深入了解Google TPU內部的技術,并討論它如何提供如此出色的性能。
通往TPU的道路
雖然谷歌早在2006年就考慮過為神經網絡構建專用集成電路(ASIC),但2013年情況變得緊迫。那時我們意識到神經網絡快速增長的計算需求可能需要我們將數量增加一倍。 我們經營的數據中心。通常,ASIC開發需要幾年時間。 然而,就TPU而言,我們在短短15個月內就將處理器設計,驗證,構建并部署到我們的數據中心。 TPU項目的技術負責人Norm Jouppi(也是MIPS處理器的主要架構師之一)以這種方式描述了sprint:
‘我們做了一個非常快速的芯片設計。 這非常了不起。 我們開始發布第一個芯片,沒有錯誤修復或掩碼更改。 考慮到我們正在招聘團隊,因為我們正在構建芯片,然后雇用RTL(電路設計)人員并急于雇用設計驗證人員,這是忙亂的。’
TPU ASIC采用28nm工藝制造,運行頻率為700MHz,運行時功耗為40W。 由于我們需要盡快將TPU部署到Google的現有服務器,因此我們選擇將處理器打包為外部加速卡,該卡可插入SATA硬盤插槽以進行插入式安裝。 TPU通過PCIe Gen3 x16總線連接到主機,提供12.5GB / s的有效帶寬。
神經特定的架構
在本文中,我們已經看到TPU卓越性能的秘訣在于其對神經網絡推理的專注。 當我們決定專注于神經網絡推理時,量化選擇,CISC指令集,矩陣處理器和最小設計都成為可能。 谷歌有信心投資TPU,因為我們看到神經網絡推動了計算的范式轉變,我們預計未來幾年TPU將成為快速,智能和價格合理服務的重要組成部分。
由于CPU和GPU等通用處理器必須在各種應用程序中提供良好的性能,因此它們已經發展出了無數復雜的,以性能為導向的機制。 作為副作用,這些處理器的行為可能難以預測,這使得難以保證對神經網絡推斷的某些延遲限制。 相比之下,TPU設計是嚴格的最小和確定性的,因為它必須一次只運行一個任務:神經網絡預測。
此外,谷歌還發布了Edge TPU,特定用途 ASIC 芯片,專為在設備上運行 TensorFlow Lite ML 模型而設計。針對Edge TPU的新設備是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。
針對Edge TPU的新設備是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。
谷歌CLOUD TPU——以前所未有的速度訓練和運行機器學習模型
加速機器學習
機器學習 (ML) 能夠大大簡化我們的生活。 計算機視覺和自然語言處理能力的改善有助于我們每個人更自然地與技術產品互動。企業依靠機器學習來加強網絡安全并降低欺詐風險。機器學習帶來的醫學成像上的進步能夠提高醫療診斷的準確性并使更多人得到治療,最終挽救更多生命。
加快機器學習工作負載
這些革命性的 Cloud TPU 旨在加速 TensorFlow 機器學習工作負載。每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的性能,讓您有足夠的計算能力來訓練和運行最先進的機器學習模型。Cloud TPU 可以幫助您進行業務轉型或在研究上取得新突破。
按需使用的機器學習超級計算機
根據需要使用強大的機器學習加速器,而無需預先投入資本。無論您的任務需要使用 Cloud TPU 的時間是幾小時還是幾周,您都可以實現所需的機器學習加速,而無需建設自己的數據中心。
輕松遷移到云端
由于 TensorFlow 開放源代碼,因此您可以輕松地將已在 TensorFlow 中運行的機器學習工作負載遷移到 Cloud TPU 中小試牛刀。利用 TensorFlow 的高層級 API,您可以在 CPU、GPU 和 TPU 之間遷移模型,而無需更改太多代碼。如果您有圖片分類或機器翻譯需求,我們可以提供許多適合在 TPU 上運行的模型。您只需提供您的數據、下載參考 TensorFlow 模型并進行訓練即可。
借力于 Google 的 AI 創新
借助于 Google 也在使用的加速器,開發世界一流的機器學習產品。Cloud TPU 專為加速最尖端的機器學習工作負載(包括訓練和預測)而打造。
CLOUD TPU 特性
高性能
每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的計算性能以及 64 GB 的超高帶寬內存。
Google Cloud 的優勢
在 Cloud TPU 上運行機器學習工作負載,并從 Google Cloud Platform 領先業界的存儲、網絡和數據分析技術中獲益。
參考模型
使用 ResNet-50 和 RetinaNet 等模型在 Cloud TPU 上解決圖片分類和對象檢測問題。利用來自 Tensor2Tensor 的 Transformer 模型嘗試機器翻譯和語言建模。
集成
Cloud TPU 及 Google Cloud 的數據和分析服務與其他 GCP 產品在核心層面全面集成,所有服務都采用統一的訪問權限管理機制。
將 Cloud TPU 與自定義機器類型相關聯
您可以將 Cloud TPU 與自定義虛擬機類型相關聯,這有助于您根據具體工作負載以最優方式平衡處理器速度、內存和高性能存儲資源。
搶占式 Cloud TPU 測試版
為容錯式機器學習工作負載(例如設有檢查點、長時間運行的訓練,或者基于大型數據集的批量預測)使用搶占式 Cloud TPU,從而節省資金。搶占式 Cloud TPU 的價格比按需實例低 70%,從初次實驗到大規模超參數搜索,讓您一切工作的成本都比以往更加經濟低廉。
簡而言之,我們發現TPU的性能比現代CPU和GPU高15-30倍,每瓦性能提高30-80倍。 這些優勢有助于Google的許多服務大規模運行最先進的神經網絡并且價格合理。 在這篇文章中,我們將深入了解Google TPU內部的技術,并討論它如何提供如此出色的性能。
通往TPU的道路
雖然谷歌早在2006年就考慮過為神經網絡構建專用集成電路(ASIC),但2013年情況變得緊迫。那時我們意識到神經網絡快速增長的計算需求可能需要我們將數量增加一倍。 我們經營的數據中心。通常,ASIC開發需要幾年時間。 然而,就TPU而言,我們在短短15個月內就將處理器設計,驗證,構建并部署到我們的數據中心。 TPU項目的技術負責人Norm Jouppi(也是MIPS處理器的主要架構師之一)以這種方式描述了sprint:
‘我們做了一個非常快速的芯片設計。 這非常了不起。 我們開始發布第一個芯片,沒有錯誤修復或掩碼更改。 考慮到我們正在招聘團隊,因為我們正在構建芯片,然后雇用RTL(電路設計)人員并急于雇用設計驗證人員,這是忙亂的。’
TPU ASIC采用28nm工藝制造,運行頻率為700MHz,運行時功耗為40W。 由于我們需要盡快將TPU部署到Google的現有服務器,因此我們選擇將處理器打包為外部加速卡,該卡可插入SATA硬盤插槽以進行插入式安裝。 TPU通過PCIe Gen3 x16總線連接到主機,提供12.5GB / s的有效帶寬。
神經特定的架構
在本文中,我們已經看到TPU卓越性能的秘訣在于其對神經網絡推理的專注。 當我們決定專注于神經網絡推理時,量化選擇,CISC指令集,矩陣處理器和最小設計都成為可能。 谷歌有信心投資TPU,因為我們看到神經網絡推動了計算的范式轉變,我們預計未來幾年TPU將成為快速,智能和價格合理服務的重要組成部分。
由于CPU和GPU等通用處理器必須在各種應用程序中提供良好的性能,因此它們已經發展出了無數復雜的,以性能為導向的機制。 作為副作用,這些處理器的行為可能難以預測,這使得難以保證對神經網絡推斷的某些延遲限制。 相比之下,TPU設計是嚴格的最小和確定性的,因為它必須一次只運行一個任務:神經網絡預測。
此外,谷歌還發布了Edge TPU,特定用途 ASIC 芯片,專為在設備上運行 TensorFlow Lite ML 模型而設計。針對Edge TPU的新設備是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。
針對Edge TPU的新設備是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。
谷歌CLOUD TPU——以前所未有的速度訓練和運行機器學習模型
加速機器學習
機器學習 (ML) 能夠大大簡化我們的生活。 計算機視覺和自然語言處理能力的改善有助于我們每個人更自然地與技術產品互動。企業依靠機器學習來加強網絡安全并降低欺詐風險。機器學習帶來的醫學成像上的進步能夠提高醫療診斷的準確性并使更多人得到治療,最終挽救更多生命。
加快機器學習工作負載
這些革命性的 Cloud TPU 旨在加速 TensorFlow 機器學習工作負載。每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的性能,讓您有足夠的計算能力來訓練和運行最先進的機器學習模型。Cloud TPU 可以幫助您進行業務轉型或在研究上取得新突破。
按需使用的機器學習超級計算機
根據需要使用強大的機器學習加速器,而無需預先投入資本。無論您的任務需要使用 Cloud TPU 的時間是幾小時還是幾周,您都可以實現所需的機器學習加速,而無需建設自己的數據中心。
輕松遷移到云端
由于 TensorFlow 開放源代碼,因此您可以輕松地將已在 TensorFlow 中運行的機器學習工作負載遷移到 Cloud TPU 中小試牛刀。利用 TensorFlow 的高層級 API,您可以在 CPU、GPU 和 TPU 之間遷移模型,而無需更改太多代碼。如果您有圖片分類或機器翻譯需求,我們可以提供許多適合在 TPU 上運行的模型。您只需提供您的數據、下載參考 TensorFlow 模型并進行訓練即可。
借力于 Google 的 AI 創新
借助于 Google 也在使用的加速器,開發世界一流的機器學習產品。Cloud TPU 專為加速最尖端的機器學習工作負載(包括訓練和預測)而打造。
CLOUD TPU 特性
高性能
每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的計算性能以及 64 GB 的超高帶寬內存。
Google Cloud 的優勢
在 Cloud TPU 上運行機器學習工作負載,并從 Google Cloud Platform 領先業界的存儲、網絡和數據分析技術中獲益。
參考模型
使用 ResNet-50 和 RetinaNet 等模型在 Cloud TPU 上解決圖片分類和對象檢測問題。利用來自 Tensor2Tensor 的 Transformer 模型嘗試機器翻譯和語言建模。
集成
Cloud TPU 及 Google Cloud 的數據和分析服務與其他 GCP 產品在核心層面全面集成,所有服務都采用統一的訪問權限管理機制。
將 Cloud TPU 與自定義機器類型相關聯
您可以將 Cloud TPU 與自定義虛擬機類型相關聯,這有助于您根據具體工作負載以最優方式平衡處理器速度、內存和高性能存儲資源。
搶占式 Cloud TPU 測試版
為容錯式機器學習工作負載(例如設有檢查點、長時間運行的訓練,或者基于大型數據集的批量預測)使用搶占式 Cloud TPU,從而節省資金。搶占式 Cloud TPU 的價格比按需實例低 70%,從初次實驗到大規模超參數搜索,讓您一切工作的成本都比以往更加經濟低廉。