NVIDIA黃仁勛:GPU加速運算成為延展摩爾定律主要模式
在此次GTC Taiwan中,NVIDIA執(zhí)行長黃仁勛期未來10年內,每年對于運算需求的規(guī)模將成長100倍,同時預期在摩爾定律逐漸衰減之下,全球前50大超級電腦的GPU運算量將在未來5年內成長15倍率,同時以GPU加速運算的方式將成為延展摩爾定律的主要模式。
本文引用地址:http://butianyuan.cn/article/201805/380824.htm黃仁勛在GTC Taiwan再次強調過去NVIDIA創(chuàng)造CUDA運算模式所帶動加速效益,同時說明未來借由GPU加速運算的模式將會持續(xù)擴大,預期在2028年全球運算需求將等同1000萬組Volta架構GPU所推動效能,若以傳統(tǒng)通過多組CPU堆疊構成超級電腦等級運算能力,將會占據(jù)大規(guī)??臻g及高額電力花費,若以GPU替換的話,則可節(jié)省更多空間與電力損耗,同時帶來更高加速效果。
就目前超級電腦底經成為現(xiàn)代科學發(fā)展重要工具,分別在分子建構、量子化學、量子力學、天氣預報、氣象研究、能源探索、物理模擬、數(shù)據(jù)分析與人工智能技術發(fā)展扮演重要角色,并且提供百萬億次或百億等級運算效能。而就OpenAI統(tǒng)計顯示,未來5年內的人工智能運算模型將成長30萬倍,相比摩爾定律預期成長速度快3萬倍,借由GPU加速能力將可讓數(shù)據(jù)、演算程式復雜度大幅提升,借此解決過往人力無法解決運算需求。
去年宣布推出整合Tensor Core設計,并且整合32GB HBM2內存的Volta架構GPU,借此對應125 Tensor TFLOPS運算效能,分別對應7.5 FP64 TFLOPS或15 FP32 TFLOPS預算效能,相比過往采用GPU加速運算模式可提升10倍效率,同時進一步讓占用空間與電力損耗大幅降低。
而為了突破硬體架構限制,NVIDIA在今年的GTC 2018更進一步宣布推出NVSwitch,讓16組Volta GPU能共用高達512GB HBM2內存 (32GB x 16),總計可對應81920組CUDA核心、2000 Tensor Core TFLOPS運算效能,構成全球最高效能的GPU,并且不受傳統(tǒng)CPU架構限制GPU存取內存容量影響。借由NVSwitch的設計,NVIDIA更宣布推出全球最大 (并且可游玩游戲)的DGX-2 GPU,對應借由高達2PFLOPS運算效能,并且特殊多孔纖維設計讓運作功率高達10000W的機盒維持低溫運作,相比半年前正式推出的DGX-1運算效能提升10倍。
相比過往必須借由300組雙核心CPU構成、必須消耗180000W功率能耗運作的服務器,通過單組DGX-2 GPU即可對應相同運算效能,但整替價格僅需1/8與1/18功率能耗,同時相比過往Alex 練Alex Krizhevsky通過兩張NVIDIA GTX 580 GPU,花費6天時間完成訓練AlexNet,借由DGX-2 GPU僅需18分鐘即可完成。同時DGX-2 GPU也分別打破每秒分析1075個影像,成為最快單晶片運算速度,以及每秒可在每個節(jié)點處理15500個影像,并且可在14分鐘內完成擴充,推論延遲時間僅在1.1毫秒,每秒更可推論演算6250個影像。
通過DGX-2的運算能力與NVSwitch串接技術,NVIDIA也宣布推出以DGX-2建構的服務器平臺設計HGX-2,并且與廣達、云達、富士康、英業(yè)達、緯創(chuàng)、緯穎、華碩、技嘉、華擎、泰安、宏碁等臺灣在地廠商合作,同時強調全球約有90%服務器源自臺灣,而NVIDIA也與更多臺灣在地廠商持續(xù)合作。
借由GPU運算能力,配合與Adobe等軟體廠商合作的影像處理技術,將可實現(xiàn)即時修改影像中不必要物件,或是重建影像中缺乏內容,甚至能進一步呈現(xiàn)“美顏”效果。同時通過與Google提出的kubernetes容器集群管理系統(tǒng)合作,將可讓更多人工智能系統(tǒng)能因應不同運算需求動態(tài)調整運算效能,借此讓GPU架速運算效能有更彈性配置效益,將與阿里巴巴、百度、eBay、HIKVISION、IBM、小米等廠商合作。
在與臺灣合作部分,NVIDIA表示目前富士康將借由人工智能技術檢測制作生產效率,中國醫(yī)藥大學附設醫(yī)院通過人工智能技術協(xié)助醫(yī)師分析預測癌癥腫瘤轉移情況,臺灣大學則通過人工智能區(qū)分鼻咽癌危及器官,而臺灣人工智能實驗室也通過人工智能技術協(xié)助臺南市政府監(jiān)測橋梁結構預防臺風損害,桃園市政府則計劃在2020年前讓30%固定行駛路線的公車能配置Level 3自動駕駛功能。
如同先前在GTC 2018期間以“PLASTER”作為主題演講結尾,黃仁勛也強調分別借由可編程 (Programmability)、低延遲 (Latency)、高精準度 (Accuracy)、規(guī)?;?(Size)、數(shù)據(jù)吞吐量 (Throughput)、能耗效率 (Energy Efficiency),進而推動學習訓練效率 (Rate of Learning),讓人工智能能以更快速度成長。
評論