英偉達遙遙領(lǐng)先?
近日,發(fā)布的最新 MLPerf Inference 基準測試 (4.0) 結(jié)果并沒有令人吃驚。隨著 MLPerf 繼續(xù)跟上快速發(fā)展的 ML 技術(shù)的步伐,基準套件中添加了兩個新的工作負載 - Llama 2 和 Stable Diffusion XL。Nvidia 展示了 H100 和 H200 的結(jié)果,高通的 Cloud AI 100 Ultra(預(yù)覽類別)和 Intel/Habana 的 Gaudi 2 顯示出收益。英特爾擁有唯一的 CPU 作為加速器。
瞻博網(wǎng)絡(luò)是首次參展,展示了網(wǎng)絡(luò)的重要性。紅帽和 Supermicro 聯(lián)合提交了一份利用 OpenShift AI 的文件。云基礎(chǔ)設(shè)施提供商 Wiwynn 是另一位新提交者。
總體而言,近年來提交者數(shù)量相當(dāng)穩(wěn)定。此次共有 23 家企業(yè),其中包括 ASUSTeK、Azure、Broadcom、Cisco、CTuning、Dell、Fujitsu、Giga Computer、Google、Hewlett Packard Enterprise、Intel、Intel Habana Labs、Juniper Networks、Krai、Lenovo、NVIDIA、Oracle、Qualcomm Technologies, Inc .、廣達云科技、紅帽、Supermicro、司馬和緯穎科技。MLPerf Inference v4.0 包含來自 23 個提交組織的 8500 多個性能結(jié)果和 900 個 Power 結(jié)果。
由于推理加速器的粗略排序(至少目前看來已經(jīng)確定),英偉達與競爭對手之間令人震驚的條形圖缺失了。Nvidia 加速計算產(chǎn)品總監(jiān) David Salvator 發(fā)表了更有趣的言論之一,他表示推理收入目前占 Nvidia 數(shù)據(jù)中心收入的 40%。
“推理已成為我們數(shù)據(jù)中心活動和業(yè)務(wù)的重要組成部分,”Salvator 表示,“在我們上次的財報電話會議上,我們表示它約占我們?nèi)ツ陻?shù)據(jù)中心收入的 40%。部分原因是我們看到了這種交叉,推理正在成為更占主導(dǎo)地位的工作負載。[原因]是應(yīng)用程序部署后,這些應(yīng)用程序通常會 24/7 運行。通過訓(xùn)練,你完成了一次訓(xùn)練,基本上就完成了,至少暫時完成了。據(jù)推斷,一旦部署該應(yīng)用程序,它就會一直運行,并開始消耗整個人工智能工作負載的很大一部分?!?/p>
自 2018 年推出以來,MLPerf 已穩(wěn)步成為加速器市場的固定產(chǎn)品,雖然在此過程中可能不那么令人興奮,但對于比較特定用例的不同配置的系統(tǒng)很有用。Top500 中沒有唯一的獲勝者。MLPerf 基準測試組織者 MLCommons 的執(zhí)行董事 David Kanter 始終指出,要從結(jié)果中獲取價值,有必要深入挖掘數(shù)據(jù)并逐個比較系統(tǒng)。
“對我來說,基準測試的目的是讓整個行業(yè)保持一致。這有助于向買家提供信息,幫助他們做出決策并了解系統(tǒng)(無論是本地系統(tǒng)、云系統(tǒng)還是嵌入式系統(tǒng))如何執(zhí)行相關(guān)工作負載。因此,如果您想購買一個系統(tǒng)來運行大型語言模型推理,您可以使用基準測試來幫助指導(dǎo)您。與此同時,對于正在制定解決方案的行業(yè)人士來說,這些基準可以幫助我們了解如何優(yōu)化如何改進,”坎特說。
“我們在這里添加了兩個新的基準。它們都是生成式人工智能基準。第一個是 Stable Diffusion XL,它是文本到圖像的生成。我們還添加了用于問答的 Llama 2 大型語言模型?,F(xiàn)在,這兩者都要求我們提出服務(wù)器、服務(wù)器模式以及離線模式的延遲。我想在這里強調(diào)的一件事是這張圖表,顯示了隨著時間的推移,MLPerf 推理模型的參數(shù)計數(shù)是什么樣的。你可以看到,這就像一般的人工智能一樣,它很像一根曲棍球桿,放在右邊。我認為在我們的第一輪 MLPerf Inference (v.5) 中,最大的模型大約有 2 億個參數(shù),而現(xiàn)在我們已經(jīng)達到 700 億個,”他說。
(第一個 MLPerf 推理結(jié)果于 2019 年發(fā)布,其中五個基準測試集中于圖像分類、對象檢測和機器翻譯這三個任務(wù)。)
MLCommons 通過添加發(fā)布在 MLCommons 網(wǎng)站上的兩個新基準來更深入地了解其決策過程。完成這項工作的團隊組成由Intel、AMD、谷歌、英偉達、KRAI等多家公司,強化了競爭對手公司之間合作的理念。
實際上,從結(jié)果中挖掘價值需要做一些工作。在這一輪中,MLPerf 結(jié)果將在不同的平臺(Tableau)上呈現(xiàn),并且至少對我來說,有效使用這個強大平臺有一個學(xué)習(xí)曲線。也就是說,數(shù)據(jù)就在那里。根據(jù)過去的做法,MLCommons 邀請基準測試參與者提交有關(guān)其條目的聲明,這些聲明放在文章末尾。
Nvidia 繼續(xù)前進
Nvidia 仍然是廣泛的人工智能加速器領(lǐng)域的王者,也是解決所有工作負載的唯一提交者。
MLCommons 通常會為媒體和分析師舉行概述預(yù)簡報,參與者可以對結(jié)果發(fā)表評論,但不要進行直接的競爭比較。各個公司可以自由地進行單獨的簡報來獲得競爭分數(shù)。
英偉達從不缺乏競爭熱情,在其私人簡報中相對謙虛,這促使一位分析師問道:“似乎缺少一件事。您通常會展示一張幻燈片,其中包含您提交的所有不同基準的條形圖,以及它們與之前的[運行]的比較以及/或與競爭對手的比較。我在這個幻燈片中沒有看到這一點。那是怎么回事?”
Salvator 說:“嗯,所以結(jié)果將在 ML Commons 網(wǎng)站上廣泛發(fā)布,我們決定在這一輪中重點關(guān)注較新的工作負載,特別是 Llama 2 工作負載 ,我們認為它真正代表了當(dāng)前的狀態(tài)藝術(shù)的。我們確實提交了每個工作負載,并且數(shù)字就在那里。就 Ilama 2 而言,我們確實展示了英特爾/Habana 與 Gaudi2 的競爭性提交……這是提交的其他主要加速器。坦率地說,我們還提交了一些其他以 CPU 為中心的結(jié)果,那些結(jié)果比這些要快得多?!?/span>
相反,Salvator 重點關(guān)注日益增長的推理復(fù)雜性、Nvidia TensorRT-LLM編譯器的進步以及其在提升 H100 和 H200 性能 Llama 2 方面的有效性?;?H200 的系統(tǒng)已進入預(yù)覽類別,因為在提交時它們是他說,雖然尚未推出,但現(xiàn)在已經(jīng)推出,并引用聯(lián)想作為現(xiàn)已推出 H200 系統(tǒng)的供應(yīng)商之一。
Salvator 所涵蓋的大部分材料在一周前的 GTC24 會議上已被觸及。他討論了 Nvidia MGX、其使用不同機箱和熱足跡的模塊化參考設(shè)計以及 Nvidia 推理微服務(wù) ( NIM )。
當(dāng)被問及即將推出的 Blackwell GPU、B100 和 B200 以及它們與現(xiàn)有 H100 和 H200 系統(tǒng)的直接兼容性時,Salvator 表示:“我們并未將 B200 設(shè)計為與 H200 CTS 系統(tǒng)直接兼容。直接兼容方面更關(guān)注 B100,因為我們擁有相當(dāng)大的 H100 基礎(chǔ)服務(wù)器安裝基礎(chǔ),而且我們的許多合作伙伴都知道如何構(gòu)建這些服務(wù)器。因此,能夠輕松更換 B100 基板的能力使它們能夠更快地上市。B200 將需要不同的底盤設(shè)計。它不會與 H200 系統(tǒng)直接兼容?!?/p>
英特爾/Habana 大力宣傳性能和成本
近年來,英特爾已經(jīng)進入 MLPerf 領(lǐng)域,宣傳其 Gaudi 加速器系列是 Nvidia GPU 的高性能、低成本替代品,其第五代 Xeon CPU 非常適合推理或訓(xùn)練只占較小部分的系統(tǒng)?;旌瞎ぷ髫撦d。
在基于最新 MLPerf 推理運行進行比較時,英特爾展示了 Gaudi 2 與 Nvidia H100 在 Stable Diffusion XL 和 Llama 2 工作負載上的性能和成本比較。
以下是英特爾供應(yīng)商聲明的一部分:“英特爾 Gaudi 2 加速器是一款 7 納米處理器,為 MLPerf Inference 上最先進的模型提供了可靠的性能結(jié)果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線采樣數(shù)和每秒服務(wù)器查詢數(shù)分別為 6.26 和 6.25,對于 Llama v2-70B,每秒離線令牌數(shù)和服務(wù)器令牌數(shù)為 8035.0 和 6287.5,分別。鑒于客戶對 Hugging Face TGI(文本生成接口)的強烈需求,英特爾使用支持連續(xù)批處理和張量并行的 TGI 服務(wù)工具包提交了 Llama 結(jié)果,從而提高了實際 LLM 擴展的效率。英特爾 Gaudi 軟件套件繼續(xù)擴大我們最高客戶需求的法學(xué)碩士和多模式模型的覆蓋范圍?!?/p>
在英特爾單獨的預(yù)發(fā)布會上,Habana Labs 首席工程師兼高級研究員 Itay Hubara 表示:“我們非常高興能夠提交TGIK,這是一個開源服務(wù)擁抱臉,是目前最常用的擁抱臉。服務(wù)于最高需求的社會。您可以在右側(cè)看到基于第三方評估的價格表現(xiàn)標準化。我覺得這是一個公平的比較?!?/p>
他表示,成本比較是基于系統(tǒng)成本,而不是運營成本,但沒有提供更多細節(jié)。
英特爾至強人工智能產(chǎn)品總監(jiān) Ronak Shah 補充道:“Gaudi 一直在跨越式發(fā)展,以實現(xiàn)我們提供易用性的目標,無論是通過 pytorch 等標準框架,還是在應(yīng)用中利用 Hugging Faces TGI該提交使您能夠獲得開箱即用的性能,并通過行業(yè)中可用的標準框架提供這些類型的結(jié)果?!?/p>
這是英特爾第五代至強處理器首次出現(xiàn)在 MLPerf 中,Shah 展示了其與第四代至強處理器對比的結(jié)果。
“在上面的幻燈片可以看到,與第四代至強和之前提交的產(chǎn)品相比,我們的性能提高了 1.42 倍。令我興奮的是,我們在 2023 年初推出了第四代至強,并在 2023 年底推出了第五代,在一年之內(nèi),它是從第四代到第五代的硬件和增強功能的組合,以及軟件優(yōu)化能夠?qū)⑿阅芴岣?1.42 倍。令人興奮的是我們能夠?qū)崿F(xiàn)如此大的收益,并且我們能夠真正利用一些底層架構(gòu)的增強功能,”Shah 說。
沙阿指出,英特爾這次有五個合作伙伴提交了申請?!拔覀冇形鍌€合作伙伴提交了申請,這一事實表明他們也認識到這就是至強的關(guān)鍵優(yōu)勢所在;當(dāng)你擁有混合通用工作負載或通用應(yīng)用程序并且將人工智能注入其中時,就屬于這種情況?!边@五個合作伙伴是思科、戴爾、廣達、超微和 WiWynn。
總體而言,MLPerf 中提交的系統(tǒng)范圍相當(dāng)廣泛。這里列出了一些供應(yīng)商提交的聲明的摘錄(聲明的完整列表附在下面):
瞻博網(wǎng)絡(luò):“對于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò)提交了針對 Llama 2 的一套測試,該模型具有 700 億參數(shù)的大語言模型 (LLM),該模型在瞻博網(wǎng)絡(luò)驗證設(shè)計 (JVD) 上運行,該設(shè)計由脊葉網(wǎng)絡(luò)拓撲和軌道優(yōu)化設(shè)計。多節(jié)點數(shù)據(jù)中心設(shè)置由瞻博網(wǎng)絡(luò)人工智能優(yōu)化的以太網(wǎng)結(jié)構(gòu)提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測試和驗證是在 Juniper AI 實驗室的 NVIDIA A100 和 H100 集群上進行的,具有軌內(nèi)和軌間組合。這是有史以來第一次向 MLCommons 提交多節(jié)點以太網(wǎng)?!?/p>
高通: “在 v4.0 輪中,高通推出了人工智能推理加速器 Cloud AI 100 Ultra,并提交了‘封閉預(yù)覽’模式評估。Cloud AI 100 Ultra 的早期預(yù)覽結(jié)果展示了其在低功耗下的卓越性能,其在 ML 基準測試中的性能證明了這一點。與 Cloud AI 100 Pro 提交的內(nèi)容相比,所有 Cloud AI 100 Ultra 提交的內(nèi)容均表現(xiàn)出 2.5 至 3 倍的性能提升,同時每個加速器的功耗低于 150W。除了 NLP 和計算機視覺網(wǎng)絡(luò)之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預(yù)覽結(jié)果?!?/p>
紅帽和 Supermicro:“大型 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)者 Supermicro 和全球領(lǐng)先的企業(yè)開源解決方案提供商 Red Hat Inc 合作提交了第一個 Red Hat OpenShift AI MLPerf Inference v4.0。此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過使用自定義運行時功能來支持 vLLM 等開源 LLM 運行時。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結(jié)果的結(jié)果,無需任何量化或模型編譯?!?/p>
Wewynn: “在邊緣類別中,我們對配備兩個 NVIDIA L40S GPU 的 ES200G2 進行了基準測試,適用于圖像識別或其他人工智能應(yīng)用等邊緣應(yīng)用。在數(shù)據(jù)中心類別中,我們對配備英特爾第五代至強處理器的ES200G2進行了基準測試,該處理器可以組成服務(wù)器池來執(zhí)行各種任務(wù)。這兩項結(jié)果都表明該平臺能夠運行流行的人工智能框架并取得良好的性能?!?/p>
接下來是預(yù)計在 6 月份進行的MLPerf培訓(xùn)。
MLPERF 供應(yīng)商提交的聲明
華碩
在 MLPerf v4.0 推理基準測試中追求卓越的過程中,華碩的努力超越了單純的性能和可靠性優(yōu)化,以推進各個領(lǐng)域部署的人工智能技術(shù)。我們擁護社區(qū)參與的精神,認識到其在促進機器學(xué)習(xí)領(lǐng)域的協(xié)作、知識共享和集體進步方面的關(guān)鍵作用。
性能調(diào)整:與華碩 ESC8000-E11P、英特爾第四代至強可擴展處理器和 NVIDIA H100 PCIe GPU 解決方案一起,我們努力的核心是對性能優(yōu)化的不懈追求。利用 GPU 服務(wù)器強大的計算能力,我們開始對基礎(chǔ)設(shè)施的各個方面進行微調(diào)。通過細致的實驗和創(chuàng)新技術(shù),我們在吞吐量、延遲和效率方面取得了顯著的提高。我們的解決方案經(jīng)過精心設(shè)計,可充分發(fā)揮 GPU 的潛力,在現(xiàn)實推理場景中提供無與倫比的速度和響應(yīng)能力。
可靠性增強:除了 MLperf Inference v4.0 之外,我們還非常重視增強 GPU 服務(wù)器的可靠性。認識到穩(wěn)定性在關(guān)鍵任務(wù)應(yīng)用程序中的至關(guān)重要性,我們實施了強大的機制來減少停機時間、防止瓶頸并增強容錯能力。嚴格的測試和驗證程序確保我們的基礎(chǔ)設(shè)施在不同的工作負載和操作條件下始終提供可靠的性能。
社區(qū)參與:除了技術(shù)實力之外,我們對 MLPerf 社區(qū)的承諾也是我們成功的基石。我們積極參與知識交流論壇,貢獻見解,并與同行合作推動創(chuàng)新向前發(fā)展。通過分享最佳實踐、經(jīng)驗教訓(xùn)和從我們的旅程中獲得的見解,我們?yōu)樯鐓^(qū)的集體智慧做出貢獻,營造協(xié)作和共同成長的環(huán)境。
結(jié)論:在 MLPerf 4.0 推理基準領(lǐng)域,我們的成就不僅僅通過性能指標和可靠性基準來衡量。它們同樣植根于我們對社區(qū)參與和協(xié)作精神的奉獻。隨著我們不斷突破可實現(xiàn)的界限,我們對推動機器學(xué)習(xí)領(lǐng)域集體進步的承諾仍然堅定不移。在協(xié)作和共享知識的推動下,我們共同邁向創(chuàng)新無極限的未來。
博通
作為虛擬化技術(shù)的領(lǐng)導(dǎo)者,VMware by Broadcom 為全球企業(yè)提供創(chuàng)新的數(shù)據(jù)中心管理基礎(chǔ)架構(gòu)解決方案,幫助客戶高效、安全、靈活地構(gòu)建、運行和管理應(yīng)用程序。對于機器學(xué)習(xí) (ML) 和人工智能 (AI) 工作負載,我們的軟件解決方案與大多數(shù)硬件供應(yīng)商合作,以大規(guī)模支持這些工作負載。
Broadcom、戴爾和 NVIDIA 合作,將虛擬化的魔力引入加速器數(shù)據(jù)中心的 MLPerf Inference v4.0。除了傳統(tǒng)基準測試之外,Broadcom、戴爾和 NVIDIA 還為新的穩(wěn)定擴散(文本到圖像)基準測試提交了出色的結(jié)果。我們的結(jié)果提供了接近裸機或更好的性能,并增加了數(shù)據(jù)中心管理的虛擬化優(yōu)勢。
我們在配備 8 個虛擬化 NVIDIA SXM H100 80GB GPU 的 Dell XE9680 和配備 2 個虛擬化 NVIDIA L40S 80GB GPU 以及 vSphere 8.02 和 NVIDIA vGPU 的 Dell R760 上運行 MLPerf 推理工作負載。我們測試中使用的虛擬機僅分配了 120 – 224 個可用 CPU 中的 32 個,以及 1T – 1.5T 可用內(nèi)存中的 128 GB。我們只使用了系統(tǒng)容量的一小部分。因此,客戶可以使用同一系統(tǒng)上的剩余 CPU 和內(nèi)存容量來運行其他工作負載,節(jié)省 ML/AI 基礎(chǔ)設(shè)施的成本,并利用 VMware vSphere 的虛擬化優(yōu)勢來管理數(shù)據(jù)中心。我們的結(jié)果與上述裸機的比較表明,配備 NVIDIA 虛擬化 GPU 的 vSphere 8.0.2 是 AIML 工作負載的最佳選擇。
思科
各行各業(yè)的企業(yè)都在認識到人工智能/機器學(xué)習(xí)的真正潛力。人工智能 (AI) 和機器學(xué)習(xí) (ML) 正在為企業(yè)解決復(fù)雜問題開辟新途徑。
思科是 MLCommons 社區(qū)的新成員。思科與英特爾合作,成功提交了大型語言模型 (LLM)、圖像分類(視覺)、對象檢測(視覺)和語音轉(zhuǎn)文本(語音)數(shù)據(jù)中心類別的 MLperf v4.0 推理結(jié)果。
思科提交了配備 Intel Xeon第五代處理器的 Cisco UCS C240 M7 服務(wù)器的推理結(jié)果。配備英特爾第五代至強可擴展處理器的思科 UCS C240 M7 服務(wù)器以 2RU 外形尺寸提供領(lǐng)先的性能和更高的效率,是 AI 推理的理想平臺。
作為 MLCommons 社區(qū)的新成員,思科將繼續(xù)支持社區(qū)為各種 AI 訓(xùn)練、推理和 HPC 工作負載對服務(wù)器解決方案進行基準測試的努力。在最新的MLPerf 4.0 Inference中,思科提交了在Cisco UCS C240 M7平臺上使用英特爾至強第五代處理器的結(jié)果,結(jié)果表明系統(tǒng)在大多數(shù)推理模型中都取得了優(yōu)異的性能。
CTuning
在本輪提交中,我們測試了第二代MLCommons CM-MLPerf 工作流程和CK 游樂場,以在基于 Nvidia、Intel、Amazon 和 Qualcomm 的商品硬件上自動對各種邊緣服務(wù)器、筆記本電腦和云提供商(包括 AWS 和 Cirrascale)進行基準測試( 9528 中的性能結(jié)果為 8683,988 中的功率結(jié)果為 905)。
CM-MLPerf 的目標是提供單一且人性化的命令行、簡單的 GUI和可擴展的 Python、C++ 和網(wǎng)絡(luò)實現(xiàn)模板,以運行來自不同供應(yīng)商的所有 MLPerf 推理基準測試并以統(tǒng)一和自動化的方式提交結(jié)果。
新版本的 CM-MLPerf 是由cTuning 基金會和cKnowledge根據(jù)上一輪提交后 MLCommons 的要求并感謝 MLCommons 成員和研究社區(qū)(ACM/IEEE MICRO'23和SuperComputing'23)的反饋而開發(fā)的。
CM-MLPerf 工作流程首次成功實現(xiàn)了所有邊緣+數(shù)據(jù)中心工作負載(使用 llama2-7b 模型完成的 llama2 提交)以及來自 Nvidia、Intel、Qualcomm、Neural Magic 和 MLCommons 的各種實現(xiàn)的自動化。
我們也非常自豪能夠首次使用 MLCommons CM 在云端對 Qualcomm Cloud AI 100 系統(tǒng)進行基準測試,并感謝 Qualcomm 的支持。我們還感謝來自英特爾、英偉達和谷歌的同事的反饋和建議。
我們邀請每個人使用和增強MLCommons CM-MLPerf 自動化,并參與一個新項目,以使用 MLPerf 和 CM作為協(xié)作工程工作,自動共同設(shè)計高性能且經(jīng)濟高效的 AI 應(yīng)用程序和系統(tǒng)。
下圖由CM-LPerf 瀏覽器插件生成,顯示了我們提交系統(tǒng)(均使用 Nvidia RTX 4090)上邊緣模型的延遲,是提交給 MLPerf 推理的最佳延遲之一。Nvidia RTX 4090 還顯示出令人印象深刻的離線和服務(wù)器性能,如我們的數(shù)據(jù)中心結(jié)果所示。
戴爾科技
戴爾憑借最廣泛的 GenAI 解決方案脫穎而出,涵蓋從臺式機到數(shù)據(jù)中心再到云的所有內(nèi)容。該公司處于人工智能發(fā)展的最前沿,戴爾PowerEdge XE服務(wù)器系列為這一變革之旅奠定了基礎(chǔ)。
在 MLPerf 推理 v4.0 基準測試領(lǐng)域,戴爾科技集團通過提交各種模型的 281 個結(jié)果來展示其承諾,其中包括使用 Qualcomm、Broadcom 的 CPU 和加速器對新的 Llama2-70b、Stable Diffusion XL、GPT-J 進行的測試、英偉達和英特爾。測試涵蓋了廣泛的產(chǎn)品,展示了戴爾通過 PowerEdge 服務(wù)器系列滿足不同人工智能工作負載的能力。
Dell PowerEdge XE系列,特別是配備 NVIDIA Tensor Core H100 GPU 的產(chǎn)品,在大型語言模型、圖像分類等領(lǐng)域展示了卓越的性能。此外,配備 NVIDIA L4 GPU 的 PowerEdge XR5610 凸顯了戴爾在系統(tǒng)效率方面的努力,優(yōu)化了邊緣工作負載的性能。
Dell PowerEdge XE 加速服務(wù)器系列在多個基準測試中繼續(xù)提供巨大的性能提升。以下是一些最新亮點:
配備 8 個 NVIDIA H100 Tensor Core GPU 的 PowerEdge XE9680 繼續(xù)在大語言模型、文本到圖像、語音到文本、語言處理、圖像分類和推薦方面提供戴爾最佳性能結(jié)果。
4 GPU 直接液冷 Dell PowerEdge XE9640 和風(fēng)冷 PowerEdge XE8640 在 GenAI 模型、圖像分類、對象檢測、語音轉(zhuǎn)文本、語言處理、摘要、醫(yī)學(xué)圖像分割等方面取得了出色的結(jié)果。
Dell PowerEdge XR5610 和 NVIDIA L4 GPU 針對邊緣工作負載提供出色的每 GPU 功耗比系統(tǒng)性能
戴爾邀請客戶通過在其全球客戶解決方案中心進行試駕來探索這些進步,提供與創(chuàng)新實驗室的協(xié)作以及訪問卓越中心的機會,以更深入地了解人工智能解決方案。
富士通
富士通提供系統(tǒng)、解決方案和專業(yè)知識的完美結(jié)合,以保證最大的生產(chǎn)力、效率和靈活性,從而提供信心和可靠性。自2020年以來,我們一直積極參與并提交數(shù)據(jù)中心和邊緣部門的推理和訓(xùn)練輪次。
在這一輪中,我們使用兩個系統(tǒng)向數(shù)據(jù)中心封閉部門提交了參賽作品。第一個系統(tǒng)是 PRIMERGY CDI,配備安裝在外部 PCIe BOX 中的 16xL40S。第二個系統(tǒng)是GX2560M7,服務(wù)器內(nèi)部配備4xH100-SXM。我們還使用 PRIMERGY CDI 向數(shù)據(jù)中心封閉式電力部門提交了參賽作品。
通過在三個外部 PCI-BOX 中安裝多達 20 個 GPU,PRIMERGY CDI 可以用作單個節(jié)點。此外,系統(tǒng)配置可以根據(jù)訓(xùn)練和推理工作負載的大小進行調(diào)整。在這一輪中,我們在PRIMERGY CDI系統(tǒng)上安裝了16xL40S并運行穩(wěn)定的擴散和gptj。測量結(jié)果如下圖所示。我們使用配備多個L40S的系統(tǒng)確認了如圖所示的性能。
我們的目標是通過創(chuàng)新建立社會信任,使世界更加可持續(xù)發(fā)展。憑借推動創(chuàng)新和專業(yè)知識的豐富傳統(tǒng),我們致力于為社會和尊貴客戶的發(fā)展做出貢獻。因此,我們將繼續(xù)滿足客戶的需求,并努力通過 MLCommons 的活動提供有吸引力的服務(wù)器系統(tǒng)。
Giga Computing
技嘉科技全資子公司,是從技嘉科技分拆出來的企業(yè)單位,設(shè)計、制造和銷售服務(wù)器、服務(wù)器主板、沉浸式解決方案和工作站。
作為 MLCommons 的創(chuàng)始成員之一,GigaComputing 持續(xù)支持社區(qū)為各種人工智能訓(xùn)練和推理工作負載對服務(wù)器解決方案進行基準測試的努力。繼上一次 v3.1 推理基準測試之后,GigaComputing 在最新一輪的 MLPerf Inference v4.0 中提交了強大的 GIGABYTE G593-SD1 系統(tǒng),該系統(tǒng)配置了最新的第五代 Intel Xeon 可擴展處理器和八個 NVIDIA H100 SXM5 GPU。該系統(tǒng)具有高數(shù)據(jù)帶寬和精心優(yōu)化的數(shù)據(jù)處理配置。結(jié)果不言而喻,展示了極高的效率,同時在所有基準測試任務(wù)中保持了頂級性能。我們在最新基準測試中取得的優(yōu)異成績凸顯了我們對提供頂級功能和優(yōu)化的承諾。
我們千兆計算的重點是持續(xù)改進,我們?yōu)橄到y(tǒng)評估提供遠程測試和公共基準就是例證。我們致力于提高效率并開創(chuàng)先進的冷卻技術(shù),例如浸入式和 DLC,以應(yīng)對即將到來的功耗激增。請繼續(xù)關(guān)注,我們將繼續(xù)通過千兆計算突破卓越計算的界限。
谷歌云
NVIDIA GPU 與 Google Cloud 的基礎(chǔ)設(shè)施技術(shù)相結(jié)合,提供業(yè)界領(lǐng)先的規(guī)模和性能。8 月份,我們宣布A3 虛擬機現(xiàn)已全面上市;A3 由單個虛擬機中的 NVIDIA 8 H100 Tensor Core GPU 提供支持,專為訓(xùn)練和服務(wù)要求苛刻的新一代 AI 工作負載和法學(xué)碩士而設(shè)計。A3 能夠通過達到 26 exaflops 的 AI 性能來達到超級計算能力。
對于 MLPerf Inference v4.0 基準測試,Google 提交了 20 個結(jié)果,包括使用 A3 VM 的新 Stable Diffusion XL 和 Llama 2 (70B) 結(jié)果。Stable Diffusion XL 和 Llama 2 結(jié)果與 NVIDIA 提交的材料所展示的峰值性能相差 1-4% 以內(nèi)。強勁的 A3 VM 結(jié)果證明了 Google Cloud 與 NVIDIA 的密切合作關(guān)系,專門為法學(xué)碩士和新一代人工智能構(gòu)建工作負載優(yōu)化的端到端解決方案。
惠普
慧與 (HPE) 與 NVIDIA、高通和 KRAI 合作成功提交了結(jié)果,展示了一系列適用于數(shù)據(jù)中心的計算機視覺 (CV)、自然語言處理 (NLP)、生成人工智能 (GenAI) 的高性能推理系統(tǒng),以及大型語言模型(LLM)。HPE 服務(wù)器性能結(jié)果包含在數(shù)據(jù)中心封閉、數(shù)據(jù)中心開放和數(shù)據(jù)中心網(wǎng)絡(luò)部門中。
HPE 提交了這些系統(tǒng)上的 AI 推理結(jié)果:
· HPE Cray 超級計算 (SC) XD670(配備 8 個 NVIDIA H100 SXM 80GB,700W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個 NVIDIA H100 PCIe 80GB、400W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個 NVIDIA L40S PCIe 48GB、300W TDP*)
· HPE ProLiant DL380a Gen11 服務(wù)器(配備 8 個 Qualcomm Cloud AI 100 Ultra 128GB、150W TDP*)
亮點包括:
· 配備 NVIDIA H100 SXM 的 HPE Cray SC XD670 在 Bert 99.0 離線場景下展示了 NLP 的最高性能結(jié)果
· 配備 4 個 NVIDIA H100 PCIe 的 HPE ProLiant DL380a 在 Llama2 70B 型號上展示了對于四個或更少 PCIe 連接 GPU 的最高性能結(jié)果。
· 配備 4 個 NVIDIA L40S 的 HPE ProLiant DL380a 在用于 CV、NLP、GenAI 和 LLM 的同類 GPU 中展示了良好的性能。
· HPE 在 HPE ProLiant DL380a Gen11 服務(wù)器中使用 8 個 Qualcomm Cloud AI 100 Ultra 加速器提交了第一個關(guān)于 CV 和 NLP 的 MLPerf 推理預(yù)覽結(jié)果。
非常感謝 KRAI 的合作,為 Qualcomm Cloud AI 100 Ultra 加速器實現(xiàn)了高性能和高能效。
英特爾
英特爾提交了英特爾 Gaudi 2 AI 處理器的 MLPerf Inference v4.0 結(jié)果,并首次提交了第五代至強可擴展處理器。結(jié)果表明,英特爾致力于提供全系列人工智能產(chǎn)品,以滿足廣泛的客戶人工智能需求。
英特爾 Gaudi 2 加速器是一款 7 納米處理器,在 MLPerf Inference 上為最先進的模型提供了可靠的性能結(jié)果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線采樣數(shù)和每秒服務(wù)器查詢數(shù)分別為 6.26 和 6.25,對于 LLama v2-70B,每秒離線令牌數(shù)和服務(wù)器令牌數(shù)為 8035.0 和 6287.5,分別。鑒于客戶對 Hugging Face TGI(文本生成接口)的強烈需求,英特爾使用支持連續(xù)批處理和張量并行的 TGI 服務(wù)工具包提交了 LLama 結(jié)果,從而提高了實際 LLM 擴展的效率。英特爾 Gaudi 軟件套件不斷擴大對我們最高客戶需求的法學(xué)碩士和多模式模型的覆蓋范圍。
英特爾仍然是唯一提交 MLPerf 結(jié)果的 CPU 供應(yīng)商。英特爾已從 2020 年開始提交四代至強產(chǎn)品的 MLPerf 結(jié)果。英特爾提交的帶有英特爾高級矩陣擴展 (AMX) 的第五代英特爾至強可擴展處理器表明 CPU 對于通用 AI 工作負載具有出色的性能。由于硬件和軟件的改進,去年在 MLPerf Inference v3.1 中,英特爾第五代至強的結(jié)果比第四代至強的結(jié)果提高了 1.42 倍。
對于具有軟件優(yōu)化(包括連續(xù)批處理)的 GPT-J,英特爾提交的 Xeon 表現(xiàn)出與 v3.1 提交相比約 1.8 倍的性能提升。同樣,由于 MergedEmbeddingBag 和利用 AMX 的其他優(yōu)化,DLRMv2 顯示了約 1.8 倍的性能提升和 99.9 的準確度。
英特爾非常自豪能夠與 OEM 合作伙伴(思科、戴爾、廣達、Supermicro 和 WiWynn)合作交付他們自己的 MLPerf 提交文件。
通過持續(xù)的軟件更新和優(yōu)化,英特爾預(yù)計其加速器和 CPU 的性能和生產(chǎn)力將持續(xù)進步。
瞻博網(wǎng)絡(luò)
對于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò)提交了一套針對 Llama 2 的測試,該模型具有 700 億參數(shù)的大語言模型 (LLM),該模型在瞻博網(wǎng)絡(luò)驗證設(shè)計 (JVD) 上運行,該設(shè)計由脊葉網(wǎng)絡(luò)拓撲和軌道優(yōu)化設(shè)計組成。多節(jié)點數(shù)據(jù)中心設(shè)置由瞻博網(wǎng)絡(luò)人工智能優(yōu)化的以太網(wǎng)結(jié)構(gòu)提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測試和驗證是在 Juniper AI 實驗室的 NVIDIA A100 和 H100 集群上進行的,具有軌內(nèi)和軌間組合。這是有史以來第一次向 MLCommons 提交多節(jié)點以太網(wǎng)。
瞻博網(wǎng)絡(luò)很高興與 MLCommons 合作,加速人工智能 (AI) 創(chuàng)新,讓世界各地的公司能夠更簡單、更快、更經(jīng)濟地部署 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施。LLama 等生成式 AI 突破了計算、存儲和網(wǎng)絡(luò)系統(tǒng)的性能界限。訓(xùn)練這些模型是一個巨大的并行處理問題,依賴于強大的網(wǎng)絡(luò)解決方案。AI 工作負載具有獨特的特征,并對網(wǎng)絡(luò)提出了新的要求,但解決此類嚴峻挑戰(zhàn)正是瞻博網(wǎng)絡(luò) 25 年來一直在做的事情。人工智能集群基礎(chǔ)設(shè)施要從早期階段走向大眾市場,必須利用開放技術(shù)來發(fā)揮產(chǎn)業(yè)生態(tài)的集體力量和創(chuàng)新能力。
瞻博網(wǎng)絡(luò)致力于采用運營優(yōu)先的方法,利用基于意圖的網(wǎng)絡(luò)、AIOps 和 800Gb 以太網(wǎng)方面的市場領(lǐng)先功能,幫助客戶管理整個 AI 數(shù)據(jù)中心網(wǎng)絡(luò)生命周期。以太網(wǎng)和我們的 Apstra 數(shù)據(jù)中心結(jié)構(gòu)自動化軟件等開放技術(shù)消除了供應(yīng)商鎖定,利用行業(yè)生態(tài)系統(tǒng)來降低成本并推動創(chuàng)新,并支持跨 AI 訓(xùn)練、推理、存儲和管理網(wǎng)絡(luò)的通用網(wǎng)絡(luò)操作。此外,經(jīng)過嚴格的預(yù)先測試和驗證的設(shè)計(例如瞻博網(wǎng)絡(luò)提交給 MLCommons 的設(shè)計)對于確保客戶能夠自行部署安全的數(shù)據(jù)中心基礎(chǔ)設(shè)施至關(guān)重要。
KRAI
KRAI 于 2020 年在“Silicon Fen”(英國劍橋)成立,是為設(shè)計超高效且經(jīng)濟高效的人工智能計算機系統(tǒng)而量身定制的優(yōu)質(zhì)基準測試和優(yōu)化解決方案的供應(yīng)商。KRAI 團隊參加了全部 9 輪 MLPerf 推理輪,自 2019 年以來,在 60 多名提交者中,只有另外三名提交者實現(xiàn)了這一壯舉。
v4.0 輪融資標志著高通和 KRAI 之間長達三年的密切合作。為了慶祝這一時刻,我們專注于通過本輪預(yù)覽的 Cloud AI 100 Ultra 加速器取得出色的成果。特別是,配備 16 個單寬 Ultra 加速器的 GIGABYTE G293-Z43 2U 服務(wù)器在 ResNet50 上每秒提供超過 900,000 個樣本,在 RetinaNet 上每秒提供近 15,500 個樣本。每個 Ultra 加速器具有 64 個 AI 核心,這一成就代表著單個系統(tǒng)中線性擴展至 1,024 個 AI 核心,之前的最高成就是 288 個核心(包含 18 個 Pro 加速器)。超高性能、高效和可擴展推理的魔力/源已作為廣受好評的 KRAI 推理庫技術(shù) (KILT) 代碼庫的新公開版本與社區(qū)共享。在這一輪中,Qualcomm、KRAI、HPE、Dell、Lenovo 和 CTuning 提交的材料中使用了 KILT。
作為 KRAI 的另一個值得驕傲的時刻,我們與 Google 合作,使用最新一代張量處理單元復(fù)制和優(yōu)化 LLM 提交的內(nèi)容。歡迎 Google Cloud 客戶使用 KRAI X 技術(shù)自動化的工作流程重現(xiàn) TPU-v5e 結(jié)果。
我們感謝 HPE 提供對配備 8 個 Cloud AI 100 標準加速器和 200GbE 網(wǎng)絡(luò)設(shè)備的 ProLiant DL385 服務(wù)器的訪問,這使得本輪中唯一的網(wǎng)絡(luò)封閉提交成為可能。至關(guān)重要的是,上一輪從 10GbE 進行的網(wǎng)絡(luò)升級使我們能夠擴展對帶寬要求更高的 RetinaNet 基準測試,以及帶寬較少的 BERT 基準測試。
聯(lián)想
聯(lián)想致力于為所有人提供更智能的技術(shù)解決方案,包括硬件、軟件等。為了實現(xiàn)這一目標,我們使用 MLPerf Inference v.4.0 進行研究和測試,使我們能夠展示我們在基準測試方面的領(lǐng)先成果。
通過與 MLCommons 的合作,聯(lián)想能夠每季度通過 MLPerf 基準測試展示這些結(jié)果。我們與 NVIDIA 和 Intel 在圖像分類、醫(yī)學(xué)圖像分割、語音轉(zhuǎn)文本和自然語言處理等重要 AI 任務(wù)上的合作使我們?nèi)〉昧祟I(lǐng)先的成果。
我們很自豪能夠使用配備 2 個 NVIDIA L4 的 ThinkSystem SE360 以及配備 2 個 NVIDIA L40 邊緣服務(wù)器的 SE450 和 SE455 來完成這些任務(wù)。這些合作使我們能夠根據(jù)領(lǐng)先的基準不斷為客戶改進技術(shù)。
我們與 MLCommons 的合作關(guān)系為我們?nèi)绾闻c競爭對手進行比較提供了寶貴的見解,設(shè)定了客戶期望,并使我們能夠不斷增強我們的產(chǎn)品。通過這種合作,我們可以與行業(yè)專家密切合作,創(chuàng)造增長并最終為我們的客戶提供更好的產(chǎn)品,這是我們的首要任務(wù)。
英偉達
我們很高興能夠在 MLPerf Inference v4.0 中展示 NVIDIA 加速計算平臺令人難以置信的推理性能。NVIDIA HGX H100 平臺集成了多達 8 個具有高速互連功能的 H100 Tensor Core GPU,借助我們的 TensorRT-LLM 軟件,與上一輪測試相比,GPT-J 測試的性能提高了近 3 倍。該推理優(yōu)化器和運行時通過開源模塊化 Python API 提高了易用性和可擴展性,用于隨著法學(xué)碩士的發(fā)展定義、優(yōu)化和執(zhí)行新的架構(gòu)和增強功能。
我們還很高興能夠使用 NVIDIA HGX H200 AI 超級計算平臺(由最新的 H200 Tensor Core GPU 提供支持)首次提交作品。HGX H200 采用高性能定制散熱解決方案,在新的 Llama 2 70B LLM 測試中,性能比 HGX H100 高出 45%。而且,NVIDIA GH200 Grace Hopper 超級芯片將 NVIDIA Grace CPU 與 NVIDIA Hopper GPU 結(jié)合在一個多功能、易于部署的模塊中,將 H100 GPU 的卓越性能擴展到法學(xué)碩士、文本到圖像生成 AI 和推薦人。
NVIDIA AI 平臺在整個技術(shù)堆棧中提供創(chuàng)新,端到端加速整個 AI 工作流程(從數(shù)據(jù)準備到模型訓(xùn)練,再到從云端到邊緣的部署推理),并在各種 AI 模型中實現(xiàn)出色的性能。各大云和服務(wù)器制造商也提供該服務(wù),并通過 NVIDIA AI Enterprise 提供生產(chǎn) AI 和企業(yè)級支持的最快路徑。
我們很高興看到 14 家 NVIDIA 合作伙伴(包括華碩、Azure、Broadcom、思科、戴爾、富士通、GigaComputing、Google、HPE、聯(lián)想、甲骨文、廣達云技術(shù)、Supermicro 和 Wiwynn)提交了出色的推理結(jié)果,并且都在本地進行以及涵蓋 NVIDIA 數(shù)據(jù)中心 GPU 產(chǎn)品組合的云解決方案。
我們還希望贊揚 MLCommons 正在開展的工作,將基準測試最佳實踐引入計算領(lǐng)域,從而對 AI 和 HPC 平臺進行同行評審的同類比較,以更好地了解和比較不同工作負載的產(chǎn)品性能。
甲骨文
Oracle 云基礎(chǔ)設(shè)施 (OCI) 在我們的融合應(yīng)用程序中提供人工智能基礎(chǔ)設(shè)施、生成式人工智能、人工智能服務(wù)、機器學(xué)習(xí)服務(wù)和人工智能。我們的 AI 基礎(chǔ)設(shè)施產(chǎn)品組合包括由 NVIDIA H100、NVIDIA A100 和 NVIDIA A10 GPU 提供支持的裸機實例和虛擬機。
高端 BM.GPU.H100.8 實例的推理基準測試結(jié)果表明,OCI 提供的高性能至少與本地和云基礎(chǔ)設(shè)施的其他部署相匹配。這些實例為每個節(jié)點提供八個 NVIDIA GPU。除了推理之外,對于訓(xùn)練工作負載,每個節(jié)點還可以使用高性能 RDMA 網(wǎng)絡(luò)對數(shù)萬個 GPU 進行集群。
截至 2024 年 3 月,OCI 的 BM.GPU.H100.8 實例通過 OCI 上的 NVIDIA GPU 提供最高可用性能。
云達科技
廣達云科技 (QCT) 是一家支持多樣化 HPC 和 AI 工作負載的全球數(shù)據(jù)中心解決方案提供商,在 MLCommons 發(fā)布的最新 MLPerf 結(jié)果中被列入 MLPerf 推理列表。
QCT參加了最新一輪的MLPerf Inference v4.0并向數(shù)據(jù)中心封閉部門提交了結(jié)果,包括針對不同系統(tǒng)配置的穩(wěn)定擴散和llama2的新模型。
其中一項展示的配置采用了 QCT 的尖端平臺,即新推出的帶有 NVIDIA Grace Hopper Superchip 的 QuantaGrid S74G-2U。通過 NVLink C2C 互連,CPU 和 GPU 之間的一致性內(nèi)存可以改善內(nèi)存密集型 AI 推理。QCT在數(shù)據(jù)中心類別的多項AI任務(wù)中取得了出色的表現(xiàn)。
QuantaGrid D54U-3U是一款專為AI/HPC設(shè)計的加速服務(wù)器。該 3U 系統(tǒng)支持兩個第五代英特爾至強可擴展處理器,支持四個雙寬加速卡或最多八個單寬加速卡,提供針對各種 AI/HPC 應(yīng)用進行優(yōu)化的全面而靈活的架構(gòu)。這次,QCT 分別使用四張 NVIDIA H100 PCIe 卡和四張 NVIDIA L40S PCIe 卡驗證了結(jié)果。
另一種配置展示了 QCT 的 QuantaGrid D54X-1U 與僅 CPU 推理場景中的英特爾至強可擴展處理器。QCT 的僅 CPU 配置的服務(wù)器經(jīng)過驗證,能夠在采用 Intel AMX 指令集的通用 AI 工作負載中表現(xiàn)出色。
展望未來,QCT 仍致力于為學(xué)術(shù)和工業(yè)用戶提供全面的硬件系統(tǒng)、解決方案和服務(wù)。該公司將繼續(xù)與 MLCommons 社區(qū)分享其 MLPerf 結(jié)果,為 MLPerf 推理和訓(xùn)練基準的進步做出貢獻。
高通
高通云人工智能推理加速器利用公司在高級信號處理和能效方面的專業(yè)知識,在數(shù)據(jù)中心和邊緣環(huán)境中提供高吞吐量、低功耗的人工智能推理處理。
在v4.0輪次中,高通推出了AI推理加速器Cloud AI 100 Ultra,并提交了“封閉預(yù)覽”模式評估。Cloud AI 100 Ultra 的早期預(yù)覽結(jié)果展示了其在低功耗下的卓越性能,其在 ML 基準測試中的性能證明了這一點。與 Cloud AI 100 Pro 提交的內(nèi)容相比,所有 Cloud AI 100 Ultra 提交的內(nèi)容均表現(xiàn)出 2.5 至 3 倍的性能提升,同時每個加速器的功耗低于 150W。除了 NLP 和計算機視覺網(wǎng)絡(luò)之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預(yù)覽結(jié)果。
在 Cloud AI 100 中,CTuning 首次使用由 8 個 Cloud AI 100 標準加速器提供支持的 Amazon EC2 DL2q 云實例提交結(jié)果,實現(xiàn)了與獨立服務(wù)器相當(dāng)?shù)男阅?。CTuning 還使用由 4 個 Cloud AI 100 Pro 加速器提供支持的 Cirrascale Quad AI 100 Cloud 實例提交了 MLPerf 基準測試,取得了與獨立系統(tǒng)相當(dāng)?shù)慕Y(jié)果。
高通的 MLPerf Inference v4.0 結(jié)果在所有類別的峰值離線性能和能效方面都超越了其之前的記錄。2U 數(shù)據(jù)中心服務(wù)器平臺配備 16 個 Qualcomm Cloud AI 100 Ultra 加速器(150W TDP),在預(yù)覽模式下實現(xiàn)了超過 902K ResNet50 inf/秒的令人印象深刻的吞吐量。它還創(chuàng)下了新的高能效,ResNet50 達到 275 QPS/Watt,RetinaNet 達到 5.2 QPS/Watt,BERT 達到 10.2 QPS/Watt。
高通提交的這些結(jié)果是通過使用 KRAI 的 X 和 KILT 技術(shù)實現(xiàn)的。Qualcomm 和 Snapdragon 是高通公司的商標或注冊商標。Qualcomm Cloud AI 和 Snapdragon 是 Qualcomm Technologies, Inc. 和/或其子公司的產(chǎn)品。
紅帽+超微
大規(guī)模 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)者 Supermicro 和全球領(lǐng)先的企業(yè)開源解決方案提供商 Red Hat Inc 合作提交了首個 Red Hat OpenShift AI MLPerf Inference v4.0。紅帽 OpenShift AI 是一個靈活、可擴展的 MLOps 平臺,提供用于構(gòu)建、部署和管理支持 AI 的應(yīng)用程序的工具。
GPU A+ 服務(wù)器,AS-4125GS-TNRT具有靈活的 GPU 支持和配置選項:具有主動和被動 GPU,以及最多 10 個雙寬、全長 GPU 的雙根或單根配置。此外,雙根配置具有直接連接 8 個 GPU 的功能,無需 PLX 交換機,可實現(xiàn)盡可能低的延遲并提高性能,這對于我們的客戶面臨的 AI 和 HPC 工作負載的苛刻場景非常有利。
紅帽 OpenShift 讓您的 AI/ML 工作負載的創(chuàng)建、調(diào)度和監(jiān)控變得更輕松、更安全。OpenShift Operators 發(fā)現(xiàn)、配置和監(jiān)控您的 GPU、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備,提供易用性、靈活性和安全性。
紅帽 OpenShift AI 是一個靈活、可擴展的 MLOps 平臺,提供用于構(gòu)建、部署和管理支持 AI 的應(yīng)用程序的工具。它使用開源技術(shù)構(gòu)建,為團隊提供值得信賴、操作一致的功能來進行實驗、服務(wù)模型和交付創(chuàng)新應(yīng)用程序。紅帽 OpenShift AI(以前稱為紅帽 OpenShift Data Science)支持本地和公共云中的 AI/ML 實驗和模型的整個生命周期。
此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過使用自定義運行時功能來支持 vLLM 等開源 LLM 運行時。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結(jié)果的結(jié)果,無需任何量化或模型編譯。
SiMa
SiMa.ai 引領(lǐng)邊緣人工智能技術(shù),在性能和能源效率方面樹立了新標準。我們很高興在這份最新的 MLPerf 基準測試報告中分享我們的結(jié)果,與 2023 年 8 月提交的報告相比,我們在所有類別中的 FPS 提高了 7% 到 16%。
在邊緣人工智能領(lǐng)域,有限的功率和苛刻的任務(wù)不斷在功率和效率之間造成緊張,我們能夠在 FPS 方面取得巨大進步,同時仍然提高我們之前提交的 MLPerf 3.1 中所有工作負載的 FPS/W。該指標是我們的系統(tǒng)每消耗一瓦電量可以處理多少幀的關(guān)鍵指標。
我們的 FPS 提升,尤其是在 SingleStream 模式下超過 16%,是 MLPerf v4.0 提交中最令人印象深刻的結(jié)果之一,因為批次 1 性能的 SingleStream 是實際應(yīng)用程序中的主要工作負載。這得益于 MLA Runtime 平臺軟件在優(yōu)化端到端模型執(zhí)行方面的顯著增強。我們進步的真正力量在于將這些超越基準的改進轉(zhuǎn)化為我們客戶的現(xiàn)實利益。他們體驗到所有模型的性能顯著增強,在廣泛的邊緣人工智能應(yīng)用中釋放了新的價值水平。
SiMa.ai 在 MLPerf 中的參與和表現(xiàn)是更廣泛增長戰(zhàn)略的一部分,我們正在為當(dāng)今和下一代更快、更強大的解決方案鋪平道路。我們不僅僅是進行技術(shù)升級;這是一次戰(zhàn)略飛躍,鞏固了我們在邊緣人工智能性能、效率和創(chuàng)新方面的領(lǐng)導(dǎo)地位。
Supermicro
美超微在人工智能基礎(chǔ)設(shè)施解決方案方面表現(xiàn)出色,在 MLPerf Inference v4.0 競賽中展示了卓越的表現(xiàn),在數(shù)據(jù)中心推理類別的封閉和開放組別中提交了參賽作品。
Supermicro 的使命是為各種工作負載提供應(yīng)用優(yōu)化的系統(tǒng)。一個突出的例子是 SYS-821GE-TNHR,這是一款專為 NVIDIA HGX H100 8-GPU 平臺設(shè)計的可定制解決方案。該系統(tǒng)通過我們的構(gòu)建塊方法量身定制,可滿足客戶的特定要求和工作負載需求。此外,我們現(xiàn)在為最新的基于 NVIDIA HGX 的系統(tǒng)以及基于 PCIe 的系統(tǒng)提供液體冷卻選項,使部署能夠利用更高 TDP 的 CPU 和 GPU,而無需進行熱節(jié)流。
我們的 GPU 服務(wù)器經(jīng)過精心設(shè)計,可以有效處理大型數(shù)據(jù)集和高要求的工作負載。它們可以加快存儲訪問速度、減少延遲并提高存儲帶寬,從而提高工作效率并加快任務(wù)完成速度。利用 NVIDIA GPU 和本地 DMA 和 RDMA 等高級訪問方法,以及通過多個 NIC 和交換機的高性能網(wǎng)絡(luò),Supermicro GPU 服務(wù)器在 AI、機器學(xué)習(xí)和 HPC 任務(wù)中表現(xiàn)出色。
SYS-521GE-TNRT服務(wù)器配備L40S GPU,通過PCIe 5.0雙根交換機支持多達10個基于PCIe的GPGPU,提供卓越的處理能力。L40S GPU 配備 48GB GDDR6 顯存,理論性能高達 91.6 TFLOP,針對 AI 媒體和圖形應(yīng)用進行了優(yōu)化,對于高性能計算任務(wù)而言具有無可比擬的價值。此外,該配置還配備雙第四代英特爾至強可擴展處理器、高達 8TB 的內(nèi)存容量以及帶有 24 個熱插拔 NVMe/SATA/SAS 驅(qū)動器托架的充足存儲選項,為密集型計算任務(wù)提供可擴展性和效率。
Supermicro 為任何環(huán)境提供各種 GPU 系統(tǒng),在多個 MLPerf 基準測試中始終如一地提供高性能。展望未來,我們?nèi)匀恢铝τ谖⒄{(diào)我們的系統(tǒng),為客戶提供優(yōu)化的體驗和性能。
Wiwynn
Wiwynn是一家領(lǐng)先的超大規(guī)模數(shù)據(jù)中心云 IT 基礎(chǔ)設(shè)施提供商。我們主要感興趣的領(lǐng)域包括云、人工智能、5G 和邊緣計算的進步。特殊的是,我們?yōu)榘ㄈ斯ぶ悄茉趦?nèi)的廣泛應(yīng)用生產(chǎn)高質(zhì)量的服務(wù)器。
在最新一輪的MLPerf Inference v4.0測試中,Wiwynn提交了邊緣和數(shù)據(jù)中心兩個類別的ES200G2基準測試結(jié)果。Wiwynn ES200G2是一款2U服務(wù)器,專為滿足電信使用的各種需求而定制,包括邊緣應(yīng)用、用于5G服務(wù)管理的推理主機和數(shù)據(jù)中心。
在邊緣類別中,我們對配備兩個 NVIDIA L40S GPU 的 ES200G2 進行了基準測試,適用于圖像識別或其他 AI 應(yīng)用等邊緣應(yīng)用。在數(shù)據(jù)中心類別中,我們對配備英特爾第五代至強處理器的ES200G2進行了基準測試,該處理器可以組成服務(wù)器池來執(zhí)行各種任務(wù)。這兩項結(jié)果都表明該平臺能夠運行流行的人工智能框架并取得良好的性能。
Wiwynn的企業(yè)使命是“提供從邊緣到云的最佳 TCO、工作負載和能源優(yōu)化 IT 解決方案”。Wiwynn將繼續(xù)朝著這個目標努力,并參與社區(qū)活動。我們對創(chuàng)新和卓越的承諾體現(xiàn)在我們參與 MLPerf Inference v4.0 等行業(yè)基準測試中,我們努力展示我們產(chǎn)品的功能并為該領(lǐng)域的進步做出貢獻。
來源:半導(dǎo)體行業(yè)觀察
--End--
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。