新聞中心

EEPW首頁 > 智能計算 > 產品拆解 > 有圖有真相:深度拆解谷歌TPU3.0,新一代AI協(xié)同處理器

有圖有真相:深度拆解谷歌TPU3.0,新一代AI協(xié)同處理器

作者: 時間:2018-05-21 來源:網絡 收藏

  在今年的年度 I/O 大會上,給人留下深刻印象。它不僅推出了一系列基于 TPUv2 芯片的云計算 TPU 實例的基準測試,還透露了一些有關其下一代 TPU 芯片即 ,以及其系統(tǒng)架構的簡單細節(jié)。TIRIAS Research 的頂尖技術專家和首席分析師 Paul Teich 近日在 nextplatform 發(fā)文,對 進行了深度揭秘。

本文引用地址:http://www.butianyuan.cn/article/201805/380204.htm

  將 TPUv2 版本升級為 TPU 3.0,但諷刺的是,據我們所知的種種細節(jié)表明,從 TPUv2 到 (下文稱之為 TPUv3)的跨度并沒有那么大;或許稱其為 TPUv2r5 或類似的東西會更合適。

  如果你對 TPUv2 還不太熟悉,可以了解一下我們去年所做的關于 TPUv2 的評測來增加這方面的知識結構。我們使用谷歌對云 TPU(Cloud TPU)的定義,云 TPU 是一塊包含四個 TPU 芯片的主板。谷歌目前的云 TPU 測試程序只允許用戶訪問單個云 TPU。除了其內部開發(fā)人員,其他人無法以任何方式將云 TPU 聯合使用。去年我們了解到,谷歌已經在其 TensorFlow 深度學習(DL)框架下抽取出云 TPU。除了谷歌內部的 TensorFlow 開發(fā)團隊和 Google Cloud 之外,沒有人可以直接訪問云 TPU 硬件,可能永遠也不能。

  我們還認為,谷歌已經資助了一項龐大的軟件工程和優(yōu)化工作,以實現其當前測試云 TPU 的部署。這促使谷歌在 TPUv3 中盡可能多地保留 TPUv2 的系統(tǒng)接口和行為,即硬件抽象層和應用程序編程接口(API)。關于何時提供 TPUv3 服務、將其置于云 TPU 或多機架 pod 配置中,谷歌沒有提供任何信息。它的確展示了基于 TPUv3 的云 TPU 板的照片和一些 pod 照片,并作出以下聲明:

  TPUv3 芯片運行溫度非常高,以致谷歌首次在其數據中心引入液體冷卻技術每個 TPUv3 pod 的功率將是 TPUv2 pod 的八倍每個 TPUv3 pod 性能將為每秒鐘運算 100 多千萬億次(petaflops)不過,谷歌也重申,TPUv2 pod 的時鐘頻率為 11.5 千萬億次每秒。8 倍的改進應該會使 TPUv3 pod 的基本頻率達到 92.2 千萬億次,但 100 千萬億次的運算意味著這幾乎是 TPUv2 的 9 倍了。谷歌的營銷人員應該四舍五入取整了,所以這個數字可能不太準確。

  POD

  從 TPUv3 pod 的兩張完整照片中可以明顯看出,谷歌的下一代產品已經升級:

  每個 pod 的機架數量是原來的兩倍。每個機架的云 TPU 數量是原來的兩倍如果沒有其他變化,光這兩點足以使 TPUv2 pod 的性能提高 4 倍。


  pod:TPUv2(上)和 TPUv3(下)

  機架

  TPUv3 pod 機架的間隔比 TPUv2 機架的間隔更小。但是,與 TPUv2 pod 一樣,TPUv3 pod 中仍然沒有明顯的儲存組件。TPUv3 的機架也更高,以適應添加的水冷裝置。


  機架:TPUv2(左)和 TPUv3(右)

  谷歌將不間斷電源從 TPUv2 機架底部移到 TPUv3 機架頂部。我們假設現在機架底部的大體積金屬盒中包含水泵或其他水冷相關裝置。



  現代超大規(guī)模數據中心不使用活動地板。谷歌的機架在加水之前就很重了,所以它們被直接置于混凝土板上,水從機架頂部進出。谷歌的數據中心有很多高架空間,如 TPUv3 pod 的照片所示。然而,懸掛重水管道和確定路徑一定是額外的操作挑戰(zhàn)。


  TPUv3 的水連接(左上)、水泵(左下,猜測)和機架上的數據中心基礎架構(右)

  注意地板上機架前的絞合線,就在機架底部的大金屬盒前面,可能是濕度傳感器。

  架子和主板

  谷歌不僅將計算機架密度提高了一倍,還將服務器主板與云 TPU 的比率從一對一降到了一對二。這將影響功耗估計,因為 TPUv3 pod 的服務器和云 TPU 將從同一機架電源中獲取電力。

  谷歌將當前云 TPU beta 實例所使用的服務器主板作為計算引擎 n1-standard-2 實例計入其云平臺公共云中,該云平臺公共云具有兩個虛擬 CPU 和 7.5 GB 內存。我們認為這很可能是一款主流雙插槽 X86 服務器。

  回想一下,TPUv2 pod 包含 256 個 TPUv2 芯片和 128 個服務器處理器。TPUv3 pod 將使服務器處理器增加一倍,TPU 芯片數增加三倍。


  我們認為谷歌在其 TPUv2 pod 中過度調配了服務器。這對于新的芯片和系統(tǒng)架構來說是可以理解的。在對 pod 軟件進行了至少一年的調整并對芯片進行了一次小的修訂以后,把服務器的數量減少一半對 pod 性能的影響可能微不足道。其中可能有諸多原因,或許是服務器沒有計算或帶寬限制,又或者谷歌可能部署了新一代具有更多核的 Intel Xeon 或 AMD Epyc 處理器。


上一頁 1 2 下一頁

關鍵詞: 谷歌 TPU3.0

評論


相關推薦

技術專區(qū)

關閉