這是AI的時代，也是英偉達的時代

作者：ZongYu 時間：2023-03-29 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在剛剛過去的3月21日，英偉達如期舉辦了今年的GTC大會（全稱為GPU Technology Conference），作為英偉達主辦的最重要的 GPU 技術(shù)交流活動，從 2019 年開始每年舉辦一屆。在本次大會上，英偉達CEO 黃仁勛就目前大熱的生成式AI做了題為《切勿錯過 AI的決定性時刻》的主題演講，同時發(fā)布了英偉達為ChatGPT專門研發(fā)的全新超高性能GPU——NVIDIA H100 NVL。

本文引用地址：http://www.butianyuan.cn/article/202303/445043.htm

NVIDIA H100 NVL

在AI領(lǐng)域所向披靡的英偉達

許多讀者了解英偉達是在其游戲GPU領(lǐng)域，GTX、RTX系列顯卡對于廣大消費者來說已經(jīng)是相當(dāng)熟悉了，但本次大會的重點似乎是AI領(lǐng)域，難道看到近期 AI 大火后也要來分一杯羹了？實則不然，英偉達與AI可以說有著相當(dāng)深的淵源，實際上自2012年，在深度學(xué)習(xí)框架剛剛提出的伊始，AI便與英偉達綁定在了一起，當(dāng)時，Alex Krizhevsky、Ilya Suskever，以及 Hinton 在英偉達的顯卡 GeForce GTX 580 上使用了 1400 萬張圖完成了訓(xùn)練，可處理 262 千萬億次浮點運算。而十年之后，生成式AI里程牌式的模型Transformer橫空出世，OpenAI團隊就是使用了英偉達提供的GPU A100訓(xùn)練AI，由此，創(chuàng)造出了令全世界震驚的目前最強AI——ChatGPT。

可以說，沒有英偉達強悍的硬件支持，那么就不會有今天的ChatGPT，這個被稱為“下一次工業(yè)革命元年”的2023年，不知要推遲多久才能到來。在本次英偉達GTC大會上，英偉達CEO黃仁勛難掩其激動的心情，連連重復(fù)了三遍：“我們正處于 AI 的 iPhone 時刻！”。是的，對于手中擁有A100和H100兩款市面上獨一無二的超級“核彈”來說，ChatGPT的空前成功，已經(jīng)讓英偉達“贏麻了”。萬人空巷的ChatGPT已經(jīng)讓英偉達的股價又一次坐上了火箭，市值直接增加 700 多億美元，目前，英偉達市值為 6400 億美元。數(shù)錢數(shù)到手軟的黃仁勛也是放出豪言：英偉達就是要做 AI 圈的臺積電！

難掩喜悅的英偉達CEO黃仁勛

要知道，兩年前英偉達推出的A100其性能到現(xiàn)在也沒有對手，而去年GTC 2022所推出的H100更是一下子將最強GPU的標(biāo)準(zhǔn)整整提升了3倍！而本次GTC所推出的H100至尊版（H100 NVLINK）更是能將生成式AI（ChatGPT）的算力、提速 10 倍。可以說在AI計算上，英偉達所提供的硬件已經(jīng)完全壟斷了市場，其他廠商短期內(nèi)難以望其項背。

為ChatGPT而生的專用“核彈”

本次大會所推出的重量級產(chǎn)品H100 NVLINK是專門針對大型語言模型訓(xùn)練（LLM）設(shè)計，其搭載了兩個基于Hopper架構(gòu)的H100芯片，頂部配備了三個NVLink連接器，使用了兩個相鄰的PCIe插槽。其FP64計算性能為134 teraFLOPS，TF32計算性能為1979 teraFLOPS，F(xiàn)P8計算性能為7916 teraFLOPS，INT8計算性能為7916 teraFLOPS，是H100 SXM的兩倍。其具有完整的6144位顯存接口（每個HBM3堆棧為1024位），顯存速率可達5.1Gbps，意味著最大吞吐量為7.8GB/s，是H100 SM3的兩倍多。

基于此英偉達推出了DGX AI超級計算機，DGX配有8個H100 GPU模組，同時H100配有Transformer引擎，能夠處理ChatGPT這樣令人驚嘆的模型。8個H100模組通過NVLINK Switch彼此相連，實現(xiàn)了全面無阻塞通信。8個H100協(xié)同工作，就像是一個巨型的GPU。H100 NVL這樣的GPU，其應(yīng)用無疑可以給AI的迭代進化帶來更大的便利：

首先

超高性能的GPU可以加速訓(xùn)練速度，這使得研究人員和開發(fā)者能夠更快地訓(xùn)練出更加復(fù)雜的模型，從而推動AI的發(fā)展。

其次

隨著AI應(yīng)用領(lǐng)域的不斷擴展，處理的數(shù)據(jù)量也越來越大，而GPU的發(fā)展能夠處理大規(guī)模數(shù)據(jù)，并且在數(shù)據(jù)處理和分析中擁有更快的速度，因此能夠有效地處理大量的數(shù)據(jù)。

再次

由于GPU的高速計算能力，研究人員和開發(fā)者能夠更加深入地優(yōu)化模型，進一步提升模型的性能和精度。

最后

GPU的高速計算能力使得AI在各種應(yīng)用場景中都得到了廣泛的應(yīng)用，如自然語言處理、計算機視覺、語音識別等領(lǐng)域。這些應(yīng)用的發(fā)展離不開GPU的助力。

英偉達十幾年前就看到了AI在未來的潛力并一直在加速計算領(lǐng)域深耕，對此黃仁勛總結(jié)道：“短短十幾年，我們就從識別貓，跨越到了生成在月球行走的太空服貓的過程?，F(xiàn)在完全可以說，生成式 AI 就是一種新的計算機，一種可以用人類語言進行編程的計算機?！?/p>

計算光刻將提速40倍

本次GTC大會，英偉達還帶來另一項革命性的技術(shù)，或?qū)⒋蠓岣呦冗M光學(xué)光刻機的刻蝕速度，這就是NVIDIA cuLitho的計算光刻庫。

英偉達宣布，自己已經(jīng)于 ASML、臺積電及新思科技攜手推出了 CuLitho 軟件庫，能夠借助 AI 的能力和學(xué)習(xí)技術(shù)來輔助運算，從而提高半導(dǎo)體的微影技術(shù)，讓之后的芯片能夠擁有更緊湊的晶體管和布線。簡單來說，這項技術(shù)的應(yīng)用可以使先進制程芯片的制造速度大幅提升，并且將更加節(jié)能。英偉達CEO黃仁勛表示：“計算光刻是芯片設(shè)計和制造領(lǐng)域中最大的計算工作負(fù)載，每年消耗數(shù)百億CPU小時。而英偉達的新技術(shù)最終會應(yīng)用到計算光刻上，在這項技術(shù)的加持下，計算光刻的工作時長能從幾周直接降低到八小時左右，效率翻了幾番?！?/p>

據(jù)悉，生產(chǎn)一塊NVIDIA H100需要89塊掩膜板，在使用傳統(tǒng)CPU進行計算刻蝕的時候，處理單個掩模板，需要整整2周時間。而如果在GPU上運行cuLitho則只需8小時即可處理完一個掩膜板。不僅處理速度被大大加快，其需要的功耗也被大幅減低，對此黃仁勛說道：“臺積電可以通過在500個DGX H100系統(tǒng)上使用cuLitho加速，將功率從35MW降至5MW?！?nbsp;

英偉達不止于此

在英偉達對于未來的規(guī)劃中，它將參與到AI應(yīng)用的方方面面，甚至英偉達還計劃將AI引入量子計算領(lǐng)域。其推出的L4 Tensor Core GPU，專門針對AI生成視頻，其用于加速AI視頻，可以提供比CPU高120倍的性能，能效提升約99%?？梢詢?yōu)化視頻解碼與轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話等性能，一臺8-GPU L4服務(wù)器可以取代100多臺用于處理AI視頻的雙插槽CPU服務(wù)器；對于靜態(tài)AI生成圖像，英偉達也拿出了對應(yīng)的L40 GPU，其針對2D、3D圖像生成進行優(yōu)化，并可以結(jié)合Omniverse，直接生成3D內(nèi)容，甚至是元宇宙內(nèi)容。在未來，英偉達還將推出AI超級云計算，將出租針對AI的算力，讓每個企業(yè)都可以使用簡單的網(wǎng)絡(luò)瀏覽器訪問AI超算。這是AI的時代，也是英偉達的時代。

寫在最后

正如此次 GTC 的演講主題：" 切勿錯過 AI 的決定性時刻 "，不管我們目前對 AI 是何看法，但不可否認(rèn)的是未來 AI 的作用和戰(zhàn)略性地位會越來越高。但是目前，我國的AI發(fā)展情況不容樂觀，加上美國政府對于先進GPU的層層禁令，本次GTC所發(fā)布的H100 NVL要想出口給我國可謂是困難重重，頂級硬件的獲取受限，這對于本就處于競爭劣勢的我國來說無疑是雪上加霜。但是英偉達畢竟是家商業(yè)公司，絕對不會放棄中國這個龐大的市場，有業(yè)內(nèi)人士透露，后續(xù)英偉達會發(fā)布一些閹割特供版（暫定為 A800）給到國內(nèi)企業(yè)。

就目前來看，現(xiàn)在即將來到AI的時代，但更是英偉達的時代。