陳巍談芯：最新發(fā)布的壁仞GPU BR100參數(shù)深度對比和優(yōu)勢分析

作者：陳巍談芯時間：2022-09-01 來源：知乎專欄

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

從專業(yè)視角來看BR100的技術(shù)亮點，包括算力、能效比、多GPU互連、多實例GPU。架構(gòu)上做了優(yōu)化，特別是做了近存計算/存算一體優(yōu)化，芯片可圈可點，專利壁壘和生態(tài)上的挑戰(zhàn)才剛剛開始。

本文引用地址：http://www.butianyuan.cn/article/202209/437903.htm

清晰性能對比表在文末

作者：陳巍博士存算一體/GPU架構(gòu)和AI專家，高級職稱。曾任AI企業(yè)首席科學(xué)家、國內(nèi)首個3D NAND設(shè)計團(tuán)隊負(fù)責(zé)人。

無利益相關(guān)，歸納一下BR100已公開的可能弱項和亮點。

1，可能的弱項

（這里僅僅說可能，因為具體技術(shù)細(xì)節(jié)還需要由壁仞公開）

1）對于通用計算生態(tài)的支持有待觀察

畢竟針對AI計算進(jìn)行了流處理器優(yōu)化，因此有可能犧牲部分通用計算能力來強(qiáng)化與AI相關(guān)的矩陣計算。這種優(yōu)化是合理的但也可能導(dǎo)致客戶量減少。以致于有業(yè)內(nèi)人士將之形容為“大號的AI芯片”或者“昇騰的友商”?？梢哉f看起來是介于傳統(tǒng)GPGPU和AI芯片之間的一個形態(tài)，技術(shù)混血。

而且GPU之所以能成為主流的AI計算芯片，與GPU對AI的通用計算支持關(guān)系很大。畢竟絕大部分場景，除了AI計算外，還有很多非AI計算。生態(tài)是任何GPU芯片的根本。一般來說同樣算力的CUDA 核（通用流處理器的核心）面積和功耗是大于AI核的，所以不排除壁仞團(tuán)隊縮減通用流式處理器的硬件算子支持能力來提升AI算力的可能性。（當(dāng)然這類操作對AI專用場景的芯片也是合理的）

對于同為清華電子系的夏晶晶老師所說的：”全盤放棄FP16，梭哈BF16，部分BF16無法收斂的網(wǎng)絡(luò)用低一檔性能的FP32“，尊重其觀點，我暫時持保留意見：）

就我在AI企業(yè)擔(dān)任首席科學(xué)家期間，我看到的大部分Inference的model使用的是FP16定型，這也就意味著，對于大部分AI煉丹師和企業(yè)，F(xiàn)P16目前是其能夠reuse其寶貴算法資產(chǎn)的底褲。如果未來遷移到其他AI芯片，也是以FP16為準(zhǔn)。當(dāng)然以后這個底褲可能會變?yōu)锽F16，但這一遷移過程可能意味著已部署模型的重訓(xùn)練，幾乎足以抵消算力提升帶來的優(yōu)勢，甚至意味著AI企業(yè)管理層對煉丹師們的極大不解：”為什么都是支持16位浮點，部署換到BR100就必須要重新訓(xùn)練模型“。

我不清楚BR100的主架構(gòu)師犧牲FP16這個業(yè)內(nèi)使用最多的數(shù)據(jù)類型的最關(guān)鍵考量是什么，希望不是為了討好投資人，畢竟這一舉措有可能因此失去大量的潛在客戶。

2）算力遠(yuǎn)大于PCIe帶寬導(dǎo)致的算力利用率風(fēng)險

我們看到BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe5/HBM2e的帶寬，所以絕大部分?jǐn)?shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn)，這很可能導(dǎo)致在大部分情況下，GPU需要等待從PCIe和HBM2e傳回的數(shù)據(jù)。這樣再加上較大的片上SRAM，可能會導(dǎo)致有效算力的性價比稍低。因此BLink互連對這類大算力計算卡就變得尤為重要，通過互連來彌補(bǔ)數(shù)據(jù)帶寬的不足。

3）專利風(fēng)險

這也是國內(nèi)GPU企業(yè)所要面臨的共同問題。絕大部分的優(yōu)化，包括架構(gòu)，都是北美和國內(nèi)那些AI芯片企業(yè)已經(jīng)使用過的技術(shù)。當(dāng)然，這些技術(shù)應(yīng)用在GPU中，還是要做很多努力和創(chuàng)新的。但這也意味著，如果真的能跟NV抗衡，很可能受到北美的專利攻擊。

2，亮點梳理

祝賀壁仞團(tuán)隊取得的突破。

歸納一下BR100已公開的技術(shù)亮點（1-5）：

1）標(biāo)稱算力突破。使用TSMC N7工藝達(dá)到了NVIDIA 使用更先進(jìn)的N4工藝的標(biāo)稱算力。這應(yīng)是壁仞團(tuán)隊技術(shù)+數(shù)據(jù)流并行+Chiplet技術(shù) 的勝利。因為采用了數(shù)據(jù)流架構(gòu)，估計有效算力比率跟NVIDIA比不會差。

至于稀疏化嘛，相當(dāng)于只算模型權(quán)重中大的一半，通常會導(dǎo)致精度下降，不如模型壓縮效果好，實際的云計算用的少。個人認(rèn)為稀疏化的主要適用場景是對計算精度要求不高的端側(cè)場景，在云計算領(lǐng)域，稀疏化算力的實用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒啥問題，客戶不用標(biāo)再高也沒意義，所以不必糾結(jié)于與稀疏化算力的比較。