AI業(yè)界，全球最大16核心GPU原理剖析

作者：時(shí)間：2018-08-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：前不久，一款超級(jí)計(jì)算機(jī)的發(fā)布，讓人嘩然，人們震驚的是其擁有16顆Volta GPU所展現(xiàn)的強(qiáng)大的計(jì)算能力，16核GPU可提供高達(dá)2PFLOPS的深度學(xué)習(xí)計(jì)算能力，成為目前AI業(yè)界的最強(qiáng)者。

　　隨著AI市場(chǎng)的興起，近年來各業(yè)界精英在GPU上持續(xù)發(fā)力，不斷推出全新的產(chǎn)品。新產(chǎn)品在計(jì)算能力提升的同時(shí)，其芯片面積也已經(jīng)屢創(chuàng)新高，甚至逼近了制程和成本的平衡極限。前不久，一款超級(jí)計(jì)算機(jī)的發(fā)布，讓人嘩然，人們震驚的是其擁有16顆Volta GPU所展現(xiàn)的強(qiáng)大的計(jì)算能力，16核GPU可提供高達(dá)2PFLOPS的深度學(xué)習(xí)計(jì)算能力，成為目前AI業(yè)界的最強(qiáng)者。

本文引用地址：http://www.butianyuan.cn/article/201808/390897.htm

　　這16顆Tesla V100的GPU連接在一起，并發(fā)揮出如此強(qiáng)大的計(jì)算能力的的核心當(dāng)屬NVLink 2和NVSwitch。

　　1、NVLINK

　　隨著開發(fā)人員在人工智能(AI)計(jì)算等應(yīng)用領(lǐng)域中越來越依賴并行結(jié)構(gòu)，各行各業(yè)中的多GPU 和多CPU系統(tǒng)愈發(fā)普及。其中包括采用PCIe系統(tǒng)互聯(lián)技術(shù)的4GPU和8GPU系統(tǒng)配置來解決非常復(fù)雜的重大難題。然而，在多 GPU系統(tǒng)層面，PCIe帶寬逐漸成為瓶頸，這就需要更快速和更具擴(kuò)展性的多處理器互聯(lián)技術(shù)。

　　a、更快速、更具可擴(kuò)展性的互聯(lián)技術(shù)

　　NVLink技術(shù)可以提供更高帶寬與更多鏈路，并可提升多GPU和多GPU/CPU系統(tǒng)配置的可擴(kuò)展性，因而可以解決這種互聯(lián)問題。通過提高可擴(kuò)展性，進(jìn)而實(shí)現(xiàn)超快速的深度學(xué)習(xí)訓(xùn)練。

　　NVLink技術(shù)首先將每個(gè)方向的信號(hào)發(fā)送速率從20GB/每秒增加到25GB/每秒。含此技術(shù)的產(chǎn)品可用于GPU至CPU或GPU至GPU的通信。

　　b、3層控制層，能更大限度提高系統(tǒng)吞吐量

　　NVLink控制器由3層組成，即物理層(PHY)、數(shù)據(jù)鏈路層(DL)以及交易層(TL)。下圖展示了P100 NVLink 1.0的各層和鏈路：

　　P100搭載的NVLink 1.0，每個(gè)P100有4個(gè)NVLink通道，每個(gè)擁有40GB/s的雙向帶寬，每個(gè)P100可以最大達(dá)到160GB/s帶寬。

　　V100搭載的NVLink 2.0，每個(gè)V100增加了50%的NVLink通道達(dá)到6個(gè)，信號(hào)速度提升28%使得每個(gè)通道達(dá)到50G的雙向帶寬，因而每個(gè)V100可以最大達(dá)到300GB/s的帶寬。

　　下圖是HGX-1/DGX-1使用的8個(gè)V100的混合立方網(wǎng)格拓?fù)浣Y(jié)構(gòu)，雖然V100有6個(gè)NVlink通道，但是實(shí)際上因?yàn)闊o法做到全連接，2個(gè)GPU間最多只能有2個(gè)NVLink通道100G/s的雙向帶寬。而GPU與CPU間通信仍然使用PCIe總線。CPU間通信使用QPI總線。這個(gè)拓?fù)潆m然有一定局限性，但依然大幅提升了同一CPU Node和跨CPU Node的GPU間通信帶寬。

　　2、NVSwitch

　　a、拓?fù)鋽U(kuò)展實(shí)現(xiàn)完全連接的NVLINK

　　類似于PCIe使用PCIe Switch用于拓?fù)涞臄U(kuò)展，使用NVSwitch實(shí)現(xiàn)了NVLink的全連接。NVSwitch作為首款節(jié)點(diǎn)交換架構(gòu)，可支持單個(gè)服務(wù)器節(jié)點(diǎn)中16個(gè)全互聯(lián)的GPU，并可使全部8個(gè)GPU對(duì)分別以 300GB/s 的驚人速度進(jìn)行同時(shí)通信。這16個(gè)全互聯(lián)的GPU(32G顯存V100)還可作為單個(gè)大型加速器，擁有 0.5TB統(tǒng)一顯存空間和2PetaFLOPS 計(jì)算性能。

　　由于PCIe 帶寬日益成為多GPU系統(tǒng)級(jí)別的瓶頸，深度學(xué)習(xí)工作負(fù)載的快速增長使得對(duì)更快速、更可擴(kuò)展的互連的需求逐漸增加。

　　NVLink實(shí)現(xiàn)了很大的進(jìn)步，可以在單個(gè)服務(wù)器中支持八個(gè)GPU，并且可提升性能，使之超越 PCIe。但是，要將深度學(xué)習(xí)性能提升到一個(gè)更高水平，將需要使用GPU 架構(gòu)，該架構(gòu)在一臺(tái)服務(wù)器上支持更多的GPU以及GPU之間的全帶寬連接。

　　b、首款節(jié)點(diǎn)交換架構(gòu)，加速深度學(xué)習(xí)和高性能計(jì)算

　　NVIDIA NVSwitch 是首款節(jié)點(diǎn)交換架構(gòu)，可支持單個(gè)服務(wù)器節(jié)點(diǎn)中16個(gè)全互聯(lián)的GPU，并可使全部8個(gè)GPU 對(duì)分別以300GB/s 的驚人速度進(jìn)行同時(shí)通信。這16個(gè)全互聯(lián)的GPU還可作為單個(gè)大型加速器，擁有0.5TB統(tǒng)一顯存空間和2PetaFLOPS計(jì)算性能。

　　NVIDIA NVLink將采用相同配置的服務(wù)器性能提高31%。使用NVSwitch的DGX-2則能夠達(dá)到2倍以上的深度學(xué)習(xí)和高性能計(jì)算的加速。

新聞中心

AI業(yè)界，全球最大16核心GPU原理剖析

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)