Graphcore公布首次MLPerf提交結(jié)果，AI性能穩(wěn)居領(lǐng)先地位

作者：時(shí)間：2021-07-01 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近日Graphcore（擬未科技）正式公布其參與的首次MLPerf?提交結(jié)果，Graphcore產(chǎn)品表現(xiàn)優(yōu)異，AI性能穩(wěn)居領(lǐng)先地位。MLPerf是AI行業(yè)最受認(rèn)可的比較基準(zhǔn)測(cè)試。此次測(cè)試結(jié)果顯示，在Graphcore IPU-POD64上，BERT的訓(xùn)練時(shí)間只有9分多鐘，ResNet-50的訓(xùn)練時(shí)間為14.5分鐘，AI性能已達(dá)超級(jí)計(jì)算機(jī)級(jí)別。

本文引用地址：http://butianyuan.cn/article/202107/426678.htm

MLPerf還對(duì)比了市面上的Graphcore系統(tǒng)與NVIDIA的最新產(chǎn)品，結(jié)果證實(shí)Graphcore在“每美元性能”（Performance-Per-Dollar）指標(biāo)上穩(wěn)居領(lǐng)先地位。對(duì)客戶而言，這項(xiàng)重要的第三方測(cè)試確認(rèn)了Graphcore系統(tǒng)不僅具有新一代AI的優(yōu)異性能，同時(shí)在目前的廣泛應(yīng)用中也表現(xiàn)得更出色。

MLPerf基準(zhǔn)測(cè)試

對(duì)于第一次MLPerf（訓(xùn)練版本1.0）提交，Graphcore選擇聚焦在關(guān)鍵圖像分類和自然語言處理的應(yīng)用基準(zhǔn)測(cè)試類別。MLPerf圖像分類基準(zhǔn)使用流行的ResNet-50版本1.5模型，在ImageNet數(shù)據(jù)集上訓(xùn)練,以達(dá)到適用于所有提交情況的準(zhǔn)確率。對(duì)于自然語言處理，使用了BERT-Large模型和選取的一個(gè)代表性片段。該片段大約占總訓(xùn)練計(jì)算工作負(fù)載的10%，并使用維基百科數(shù)據(jù)集進(jìn)行訓(xùn)練。Graphcore決定提交使用ResNet-50和BERT的圖像分類和自然語言處理，在很大程度上是由客戶和潛在客戶驅(qū)動(dòng)的，因?yàn)檫@是他們最常用的一些應(yīng)用和模型。此次在MLPerf測(cè)試中的強(qiáng)勁表現(xiàn)，進(jìn)一步證明了Graphcore系統(tǒng)完全可以滿足當(dāng)今的AI計(jì)算要求。

參與測(cè)試的兩個(gè)Graphcore系統(tǒng)，IPU-POD16和IPU-POD64，均已在生產(chǎn)中交付給客戶。

● 價(jià)格實(shí)惠、結(jié)構(gòu)緊湊的5U IPU-POD16系統(tǒng)適用于剛開始構(gòu)建IPU AI計(jì)算能力的企業(yè)客戶。它由4個(gè)1U的IPU-M2000和1個(gè)雙CPU服務(wù)器（dual-CPU server）組成，可以提供4 PetaFLOPS的AI處理能力。

● 縱向擴(kuò)展的IPU-POD64包含16個(gè)IPU-M2000和數(shù)量靈活的服務(wù)器。Graphcore系統(tǒng)實(shí)現(xiàn)了服務(wù)器和AI加速器的解耦，因此客戶可以根據(jù)工作負(fù)載指定CPU與IPU的比率。例如，和自然語言處理相比，計(jì)算機(jī)視覺任務(wù)通常對(duì)服務(wù)器的需求更高。對(duì)于MLPerf，IPU-POD64在BERT的提交中使用了1臺(tái)服務(wù)器，在ResNet-50的提交中使用了4臺(tái)服務(wù)器。每臺(tái)服務(wù)器均由2個(gè)AMD EPYC? CPU驅(qū)動(dòng)。

MLPerf測(cè)試包含開放分區(qū)和封閉分區(qū)兩個(gè)提交分區(qū)。封閉分區(qū)嚴(yán)格要求提交者使用完全相同的模型實(shí)施和優(yōu)化器方法，包括定義超參數(shù)狀態(tài)和訓(xùn)練時(shí)期。開放分區(qū)保證和封閉分區(qū)完全相同的模型準(zhǔn)確性和質(zhì)量，但支持更靈活的模型實(shí)施以促進(jìn)創(chuàng)新。因此，該分區(qū)支持更快的模型實(shí)現(xiàn)，更加適應(yīng)不同的處理器功能和優(yōu)化器方法。對(duì)于像Graphcore IPU這樣的創(chuàng)新架構(gòu)，開放分區(qū)更能體現(xiàn)出產(chǎn)品的優(yōu)異性能，但Graphcore還是選擇在開放和封閉分區(qū)都進(jìn)行了提交。

測(cè)試結(jié)果體現(xiàn)了Graphcore系統(tǒng)的優(yōu)異性能，即使在具有限制規(guī)格的開箱即用的封閉分區(qū)上也是如此。更令人矚目的是開放分區(qū)結(jié)果，Graphcore能夠在其中優(yōu)化部署，以充分利用IPU和系統(tǒng)功能。這更貼近真實(shí)應(yīng)用，支持客戶可以不斷提升其系統(tǒng)性能。

“每美元性能”指標(biāo)

MLPerf被稱為比較基準(zhǔn)，實(shí)際上進(jìn)行直接比較可能很復(fù)雜。從相對(duì)簡(jiǎn)單的硅片到有著昂貴存儲(chǔ)的復(fù)雜堆棧式芯片，如今的處理器和系統(tǒng)架構(gòu)可謂千差萬別。從“每美元性能”角度來看，往往最能夠說明問題。

Graphcore的IPU-POD16是一個(gè)5U的系統(tǒng)，標(biāo)價(jià)149,995美元。如前所述，它由4個(gè)IPU-M2000加速器以及行業(yè)標(biāo)準(zhǔn)主機(jī)服務(wù)器構(gòu)成。每個(gè)IPU-M2000由4個(gè)IPU處理器構(gòu)成。MLPerf中使用的NVIDIA DGX-A100 640GB是一個(gè)6U機(jī)盒，標(biāo)價(jià)約為300,000美元（基于市場(chǎng)情報(bào)和公布的經(jīng)銷商定價(jià)），有8個(gè)DGX A100芯片。IPU-POD16的價(jià)格是它的一半。在這個(gè)系統(tǒng)中，IPU-M2000的價(jià)格和一個(gè)DGX A100 80GB的價(jià)格是一樣的，或者在更細(xì)的層次上，一個(gè)IPU的價(jià)格是它的四分之一。

在MLPerf比較分析中，Graphcore采用了嚴(yán)格監(jiān)管的封閉分區(qū)的結(jié)果，并針對(duì)系統(tǒng)價(jià)格對(duì)其進(jìn)行了歸一化。對(duì)于ResNet-50和BERT，很明顯Graphcore系統(tǒng)提供了比NVIDIA產(chǎn)品更好的每美元性能。在IPU-POD16上進(jìn)行ResNet-50訓(xùn)練的情況下，Graphcore的每美元性能是NVIDIA的1.6倍。在BERT上，Graphcore的每美元性能是NVIDIA的1.3倍。Graphcore系統(tǒng)的經(jīng)濟(jì)性可以更好地幫助客戶實(shí)現(xiàn)其AI計(jì)算目標(biāo)，同時(shí)，由于IPU專為AI構(gòu)建的架構(gòu)特點(diǎn)，Graphcore系統(tǒng)還可以解鎖下一代模型和技術(shù)。

Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤表示：“首次提交MLPerf就獲得如此出色的成績(jī)，我們感到非常自豪。此次測(cè)試還會(huì)帶給Graphcore客戶更多價(jià)值，因?yàn)槲覀冊(cè)跍?zhǔn)備階段所做的所有改進(jìn)和優(yōu)化都會(huì)反饋到Graphcore軟件棧中。全球范圍內(nèi)的Graphcore用戶都會(huì)從MLPerf測(cè)試中受益匪淺，不僅局限于BERT和ResNet-50模型。我們將繼續(xù)參與包括訓(xùn)練和推理在內(nèi)的MLPerf測(cè)試，為追求更優(yōu)性能、更大規(guī)模和添加更多模型，貢獻(xiàn)Graphcore的所有智慧和力量?！?/p>

新聞中心

Graphcore公布首次MLPerf提交結(jié)果，AI性能穩(wěn)居領(lǐng)先地位

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)