新聞中心

EEPW首頁 > 智能計(jì)算 > 新品快遞 > 陳巍談芯:最新發(fā)布的壁仞GPU BR100參數(shù)深度對(duì)比和優(yōu)勢(shì)分析

陳巍談芯:最新發(fā)布的壁仞GPU BR100參數(shù)深度對(duì)比和優(yōu)勢(shì)分析

作者:陳巍談芯 時(shí)間:2022-09-01 來源:知乎專欄 收藏

從專業(yè)視角來看的技術(shù)亮點(diǎn),包括算力、能效比、多GPU互連、多實(shí)例GPU。架構(gòu)上做了優(yōu)化,特別是做了近存計(jì)算/存算一體優(yōu)化,芯片可圈可點(diǎn),專利壁壘和生態(tài)上的挑戰(zhàn)才剛剛開始。

本文引用地址:http://butianyuan.cn/article/202209/437903.htm

清晰性能對(duì)比表在文末

作者: 陳巍 博士 存算一體/GPU架構(gòu)和AI專家,高級(jí)職稱。曾任AI企業(yè)首席科學(xué)家、國(guó)內(nèi)首個(gè)3D NAND設(shè)計(jì)團(tuán)隊(duì)負(fù)責(zé)人。

無利益相關(guān),歸納一下已公開的可能弱項(xiàng)和亮點(diǎn)。

1,可能的弱項(xiàng)

(這里僅僅說可能,因?yàn)榫唧w技術(shù)細(xì)節(jié)還需要由壁仞公開)

1)對(duì)于通用計(jì)算生態(tài)的支持有待觀察

畢竟針對(duì)AI計(jì)算進(jìn)行了流處理器優(yōu)化,因此有可能犧牲部分通用計(jì)算能力來強(qiáng)化與AI相關(guān)的矩陣計(jì)算。這種優(yōu)化是合理的但也可能導(dǎo)致客戶量減少。以致于有業(yè)內(nèi)人士將之形容為“大號(hào)的AI芯片”或者“昇騰的友商”??梢哉f看起來是介于傳統(tǒng)GPGPU和AI芯片之間的一個(gè)形態(tài),技術(shù)混血。

而且GPU之所以能成為主流的AI計(jì)算芯片,與GPU對(duì)AI的通用計(jì)算支持關(guān)系很大。畢竟絕大部分場(chǎng)景,除了AI計(jì)算外,還有很多非AI計(jì)算。生態(tài)是任何GPU芯片的根本。一般來說同樣算力的CUDA 核(通用流處理器的核心)面積和功耗是大于AI核的,所以不排除壁仞團(tuán)隊(duì)縮減通用流式處理器的硬件算子支持能力來提升AI算力的可能性。(當(dāng)然這類操作對(duì)AI專用場(chǎng)景的芯片也是合理的)

對(duì)于同為清華電子系的夏晶晶老師所說的:”全盤放棄FP16,梭哈BF16,部分BF16無法收斂的網(wǎng)絡(luò)用低一檔性能的FP32“,尊重其觀點(diǎn),我暫時(shí)持保留意見:)

就我在AI企業(yè)擔(dān)任首席科學(xué)家期間,我看到的大部分Inference的model使用的是FP16定型,這也就意味著,對(duì)于大部分AI煉丹師和企業(yè),F(xiàn)P16目前是其能夠reuse其寶貴算法資產(chǎn)的底褲。如果未來遷移到其他AI芯片,也是以FP16為準(zhǔn)。當(dāng)然以后這個(gè)底褲可能會(huì)變?yōu)锽F16,但這一遷移過程可能意味著已部署模型的重訓(xùn)練,幾乎足以抵消算力提升帶來的優(yōu)勢(shì),甚至意味著AI企業(yè)管理層對(duì)煉丹師們的極大不解:”為什么都是支持16位浮點(diǎn),部署換到必須要重新訓(xùn)練模型“。

我不清楚BR100的主架構(gòu)師犧牲FP16這個(gè)業(yè)內(nèi)使用最多的數(shù)據(jù)類型的最關(guān)鍵考量是什么,希望不是為了討好投資人,畢竟這一舉措有可能因此失去大量的潛在客戶。

2)算力遠(yuǎn)大于PCIe帶寬導(dǎo)致的算力利用率風(fēng)險(xiǎn)

我們看到BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe5/HBM2e的帶寬,所以絕大部分?jǐn)?shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn),這很可能導(dǎo)致在大部分情況下,GPU需要等待從PCIe和HBM2e傳回的數(shù)據(jù)。這樣再加上較大的片上SRAM,可能會(huì)導(dǎo)致有效算力的性價(jià)比稍低。因此BLink互連對(duì)這類大算力計(jì)算卡就變得尤為重要,通過互連來彌補(bǔ)數(shù)據(jù)帶寬的不足。

3)專利風(fēng)險(xiǎn)

這也是國(guó)內(nèi)GPU企業(yè)所要面臨的共同問題。絕大部分的優(yōu)化,包括架構(gòu),都是北美和國(guó)內(nèi)那些AI芯片企業(yè)已經(jīng)使用過的技術(shù)。當(dāng)然,這些技術(shù)應(yīng)用在GPU中,還是要做很多努力和創(chuàng)新的。但這也意味著,如果真的能跟NV抗衡,很可能受到北美的專利攻擊。

2,亮點(diǎn)梳理

祝賀壁仞團(tuán)隊(duì)取得的突破。

歸納一下BR100已公開的技術(shù)亮點(diǎn)(1-5)

1)標(biāo)稱算力突破。使用TSMC N7工藝達(dá)到了NVIDIA 使用更先進(jìn)的N4工藝的標(biāo)稱算力。這應(yīng)是 壁仞團(tuán)隊(duì)技術(shù)+數(shù)據(jù)流并行+Chiplet技術(shù) 的勝利。因?yàn)椴捎昧藬?shù)據(jù)流架構(gòu),估計(jì)有效算力比率跟NVIDIA比不會(huì)差。

至于稀疏化嘛,相當(dāng)于只算模型權(quán)重中大的一半,通常會(huì)導(dǎo)致精度下降,不如模型壓縮效果好,實(shí)際的云計(jì)算用的少。個(gè)人認(rèn)為稀疏化的主要適用場(chǎng)景是對(duì)計(jì)算精度要求不高的端側(cè)場(chǎng)景,在云計(jì)算領(lǐng)域,稀疏化算力的實(shí)用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒啥問題,客戶不用標(biāo)再高也沒意義,所以不必糾結(jié)于與稀疏化算力的比較。

2)能效比超過同工藝GPU A100 78.8%。非常不錯(cuò)的成績(jī),這應(yīng)是 壁仞團(tuán)隊(duì)技術(shù)+近存計(jì)算技術(shù)的勝利。(近存計(jì)算是存算一體技術(shù)的一種)。

3)支持多GPU互連。這個(gè)是多GPU級(jí)聯(lián)計(jì)算大模型的關(guān)鍵。

4)支持多GPU實(shí)例。這是GPU上云虛擬化的關(guān)鍵。我和耿云川博士帶的團(tuán)隊(duì)也完成了存算一體架構(gòu)下多實(shí)例的設(shè)計(jì),所以很清楚這一工作需要面對(duì)的挑戰(zhàn)。

5)支持國(guó)密安全規(guī)范。這是進(jìn)入國(guó)產(chǎn)自主可控計(jì)算領(lǐng)域的關(guān)鍵點(diǎn)之一。

下面,軟件生態(tài)的挑戰(zhàn)將是國(guó)產(chǎn)GPU面對(duì)的關(guān)鍵挑戰(zhàn),祝各個(gè)國(guó)產(chǎn)GPU玩家都能取得好成績(jī)。

3,與NVIDIA H100/A100對(duì)比表

4,延申閱讀





關(guān)鍵詞: 壁仞科技 BR100 通用GPU

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉