AMD王宏強：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實現(xiàn)“開箱即用”丨GACS 2023

發(fā)布人：芯東西時間：2023-10-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

從云到端五大產(chǎn)品線全面擁抱AI，AI正成為AMD的新大招。

編輯 | GACS9月14日-15日，2023全球AI芯片峰會（GACS 2023）在深圳市南山區(qū)圓滿舉行。在首日主題演講中的AI芯片架構(gòu)創(chuàng)新專場，AMD人工智能事業(yè)部高級總監(jiān)王宏強分享了主題為《AMD Pervasive Al：從數(shù)據(jù)中心、邊緣、客戶端到終端，Al無所不在》的主題演講。AMD人工智能事業(yè)部高級總監(jiān)王宏強談道，AMD在單個GPU能做到上千T的浮點算力規(guī)模，通過多節(jié)點橫向擴展，更是能達到每秒百億億次浮點計算能力（EFLOPS），并提供額外的超大內(nèi)存容量及帶寬，可實現(xiàn)700億參數(shù)級大模型在單個GPU上的部署，并達到更高的TCO（總擁有成本）。王宏強也特別強調(diào)了AMD AI軟件的易用性以及強大的開放軟件生態(tài)的重要性，它是釋放這些創(chuàng)新硬件性能的關(guān)鍵。AMD通過統(tǒng)一AI軟件實現(xiàn)跨平臺AI部署，以開放和模塊化的方式構(gòu)建軟件解決方案，從而擁抱更高層次的抽象，并與最重要的生態(tài)系統(tǒng)（PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等）合作對接推動開箱即用的用戶體驗。以下為王宏強的演講實錄：尊敬的各位嘉賓，各位同行，下午好！我很榮幸今天有機會參加芯東西舉辦的AI峰會上，這也是AMD第一次在線下參加芯東西舉辦的AI峰會。今天我將與大家分享AI無所不在，無限可能的人工智能變革時代。人工智能領(lǐng)域正在快速變化。處理如此大量數(shù)據(jù)的計算能力對于人工智能的發(fā)揮至關(guān)重要。
01.從云到端，全產(chǎn)品線看向AI，AMD瞄準1500億美元AI芯片市場

人工智能（AI）正在快速地變化、快速地發(fā)展，特別是隨著ChatGPT的推出。所以要處理如此大量的AI計算，我們需要有非常強大的AI處理能力硬件平臺和開放的AI軟件生態(tài)系統(tǒng)。AMD是非常專注于異構(gòu)計算的一個公司，我們將很大一部分投入放在研發(fā)處理AI的平臺上，從數(shù)據(jù)中心，邊緣，到端，這種全產(chǎn)品線的AI加速解決平臺。同時，我們也非常致力于專注發(fā)展開放的AI軟件生態(tài)系統(tǒng)。在AMD，非常有幸的是我們有很多產(chǎn)品線，我們可以為不同的市場來服務(wù)。比如說，在數(shù)據(jù)中心的云端，我們有強大的EPYC處理器，用我們平常說的最多的一句話是“它是比強者更強的CPU”，從96核到128核的CPU，都已經(jīng)陸續(xù)推出，它們可以用來做通用AI。

同時，我們也有MI GPU，可以用于數(shù)據(jù)中心的AI推理和訓(xùn)練。我們也有用于工業(yè)、醫(yī)療、科學(xué)、自動駕駛等應(yīng)用的嵌入式平臺。我們的客戶群非常地廣泛，有數(shù)千個嵌入式的客戶使用我們這些產(chǎn)品。我們也推出了消費級的帶有AI功能的Ryzen AI PC端加速平臺。AMD也正是看到這些傳統(tǒng)的算法和應(yīng)用正在被人工智能所替代，特別是AIGC，它讓AI變得普遍存在，甚至在各個行業(yè)、各個應(yīng)用中都可以利用它來為我們?nèi)祟愄峁┮恍└颖憷⒏迂S富的生活，帶來更加安全的駕駛，這些都是需要AI技術(shù)和平臺來作為支撐。AI最終將變得非常普遍，無所不在，人工智能技術(shù)將會是在整個產(chǎn)業(yè)界、行業(yè)一個絕對性的大趨勢，引領(lǐng)整個社會的變革。整個AI市場，也是極速地在增長，所以它的機會是無限可能。預(yù)計到2027年，在整個AI市場中，芯片市場就將達到1500億美元，所以這也是各家企業(yè)逐鹿的一個戰(zhàn)略重地。
02.AI需求多樣化對芯片架構(gòu)提出挑戰(zhàn)，AMD推出多樣針對性架構(gòu)創(chuàng)新

隨著這些多樣化的人工智能應(yīng)用的發(fā)展，越來越明顯的是沒有一種單一的架構(gòu)或者產(chǎn)品可以去適應(yīng)所有應(yīng)用的需求。因為各種需求不一樣，有的是需要很高的計算能力，有的需要很大的內(nèi)存，有的可能需要一個更低的延時或者是更低的功耗。

比如在筆記本中，功耗就成為一個非常關(guān)鍵的因素。而在云中，有超高的算力的需求、內(nèi)存的需求，需要數(shù)千萬億次的計算來滿足計算負載。比如訓(xùn)練一些大模型，是需要上千個GPU節(jié)點才可能完成，這些都是需要我們提供強大的計算，存儲的支撐來滿足。例如自動駕駛，它對延遲的需求是非常嚴格的，比如你需要在毫秒級的時間范圍里做出一個響應(yīng)，比如對路況的判斷、有沒有行人、路標的檢測、要做一系列決策來達到自動駕駛的安全性。這些可能需要上百TOPS的算力，同時還要求一個相對比較低的功耗。在端側(cè)，像筆記本電腦這些，對于算力能耗比很關(guān)注，電池的消耗是非常關(guān)鍵的一個因素。比如我們在Teams、Zoom上開會，就會利用筆記本電腦端側(cè)的AI功能，讓會議系統(tǒng)變得更加智能化。在AMD，我們針對這些不同的需求進行了架構(gòu)的創(chuàng)新。一方面，我們高性能的旗艦CDNA架構(gòu)，建立在之前多代GPU的基礎(chǔ)上。業(yè)界有說道：AMD其實是中國GPU的“黃埔軍?！??？梢?，AMD在GPU上還是有很多技術(shù)上的積累和創(chuàng)新的。為行業(yè)提供最高性能的AI計算解決方案，并為最大的超級計算機提供支持，以在單個計算上適應(yīng)最大的人工智能推理工作負載。GPU它提供了一個靈活的編程模型來運行通用workloads，單個計算節(jié)點或者GPU來算，我們甚至可以做到數(shù)千TOPS的能力。我們也可以橫向的擴展，使用多個節(jié)點，達到千萬億次浮點運算的能力。另外一方面，我們有XDNA架構(gòu)，它是基于AI引擎的處理架構(gòu)，它也是一個并行的陣列數(shù)據(jù)流處理架構(gòu)，我們有可以提供一個非常高速的、低延時的實時處理，因為它采用的是數(shù)據(jù)流的架構(gòu)來優(yōu)化。上午有同行分享到Chiplet，XDNA就是AMD產(chǎn)品線里非常重要的一個Chiplet，也是重要的一個計算單元，因為它可以擴展到不同的平臺里面。比如在終端，邊緣測嵌入式器件里面，可以集成AI引擎的Chiplet。

這些平臺是基于Chiplet的架構(gòu)，所以可以根據(jù)算力需求去集成相應(yīng)數(shù)量的AI Engine，達到提供這種可擴展計算的能力。同時，我們可以與CPU、與傳統(tǒng)FPGA還有存儲器集成在一起，做一個異構(gòu)計算平臺，來滿足各種計算的需求。甚至可以在器件里面去集成RDNA架構(gòu)的獨立的顯卡iGPU，在一個APU里面。
03.五大產(chǎn)品線多點出擊，700億參數(shù)大模型單個GPU部署

我們接下來就看一下基于這些架構(gòu)的產(chǎn)品示例。AMD的戰(zhàn)略，是要為業(yè)界、為同行提供最廣泛的計算產(chǎn)品的組合，以滿足人工智能這種普遍性的、多樣性的需求。在這方面，我們也取得了非常大的進展，我們有陸續(xù)的推出這些產(chǎn)品。這些（見PPT），都是我們已經(jīng)推出來的產(chǎn)品。在數(shù)據(jù)中心，我們有基于CDNA架構(gòu)的Instinct數(shù)據(jù)中心GPU，它可以滿足AIGC，這些生成式AI的workload的訓(xùn)練或推理。EPYC處理器，有遠超于同行的CPU核心數(shù)，目前我們可以達到128個核心數(shù)，這些都為通用AI提供了強大計算平臺。基于Radeon架構(gòu)的GPU，它可以通過AI技術(shù)增強游戲體驗變得更好。Versal AI Edge產(chǎn)品系列，主要目標市場是為嵌入式或者邊緣側(cè)的應(yīng)用。對端側(cè)的應(yīng)用，今年5月份，我們推出了Ryzen AI，這個產(chǎn)品是集成了CPU、XDNA AI Engine的IPU，還有RDNA的iGPU集成在一個異構(gòu)計算平臺里，可以用來滿足電腦市場這些AI推理的需求。這個產(chǎn)品已經(jīng)發(fā)貨，已經(jīng)有超過35個PC系列里，集成了Ryzen AI這款產(chǎn)品。接下來我們具體看一下，這些產(chǎn)品如何去滿足這些多樣化的AI市場需求。AMD的Instinct GPU主要是用在數(shù)據(jù)中心，它是專為生成式AI而設(shè)計的GPU。它將CDNA 3與業(yè)界領(lǐng)先的HBM3相結(jié)合，采用業(yè)界領(lǐng)先的2.5D/3D Chiplet結(jié)構(gòu)構(gòu)建，它提供高達數(shù)千TOPS的計算能力，并提供額外的，超大的內(nèi)存容量，我們對大模型有優(yōu)勢，因為我們可以直接在內(nèi)存中運行更大的模型，減少所需的GPU數(shù)量顯著提高性能，尤其是推理性能。

這個產(chǎn)品可以支持700億參數(shù)的模型在單個GPU上做部署，是因為它有更大的內(nèi)存容量及帶寬。業(yè)界其他的GPU不能做到700億參數(shù)的模型在同一個GPU里部署，可能需要兩個GPU來實現(xiàn)。請繼續(xù)關(guān)注，我們將在今年晚些時候分享有關(guān)該產(chǎn)品的更多信息。我們剛剛講的是在數(shù)據(jù)中心這一側(cè)。其實終端AI也在快速發(fā)生變化。今年早些時候，我們推出了Ryzen AI系列，這個產(chǎn)品是基于我們XDNA的核心引擎作為基礎(chǔ)AI推理及運算，在一個APU封裝里面集成了CPU、iGPU。投入到市場以來，其受到業(yè)界ISV，OEM的追捧，有35個筆記本電腦已經(jīng)利用到這個產(chǎn)品來提供AI解決方案。

AMD Ryzen AI的專用AI硬件開啟個人電腦新時代，電腦首先會被AI化，Windows12即將發(fā)布，將全面基于AI（ChatGPT）技術(shù)。據(jù)行業(yè)專業(yè)人士分析：“AI將改變電腦的每一個應(yīng)用、每一個體驗！今天買電腦，推薦買AI電腦！
04.AI不止于硬件，軟件開發(fā)和生態(tài)系統(tǒng)建設(shè)是重中之重

我們剛剛講了很多硬件相關(guān)的，與支持這些創(chuàng)新硬件的架構(gòu)創(chuàng)新一樣，我們需要強大的AI軟件及生態(tài)來使能發(fā)揮這些創(chuàng)新硬件們的性能。

首先AI軟件開發(fā)穩(wěn)步提高了硬件編程的抽象級別。已經(jīng)從用以前匯編或C編寫的代碼->線性代數(shù)庫或卷積庫等庫->PyTorch/TensorFlow 等框架→轉(zhuǎn)向位于框架之上的更高級別的API，獲得最佳的開箱即用體驗。

隨著AI軟件越來越有能力釋放硬件的巨大進步，人工智能創(chuàng)新也出現(xiàn)了巨大的加速。自2018年以來，Transformer掀起了一場革命，出現(xiàn)了諸如ChatGPT推出等分水嶺時刻。開放生態(tài)系統(tǒng)中也發(fā)生了大量此類創(chuàng)新：更大的模型、或更小的模型、模型得到微調(diào)、模型是多模式的、模型之間甚至相互交互，模型變得更加高效、模型與人類目標保持一致，模型變得值得信賴可靠。

隨著創(chuàng)新的加速，我們既看到了挑戰(zhàn)，也看到了絕佳的機遇。我們正在以開放和模塊化的方式構(gòu)建我們的軟件解決方案，以擁抱更高層次的抽象并與開放生態(tài)系統(tǒng)緊密協(xié)作。在AMD，我們擁有三個軟件平臺：用于GPU平臺的ROCm、用于XDNA AI引擎平臺的Vitis AI以及用于EPYC CPU平臺的zenDNN。AMD正在進行大量投資，以確保我們的客戶在從更高抽象級別進行編譯時獲得最佳的開箱即用體驗。AMD也在開發(fā)統(tǒng)一的AI軟件用于AMD所有平臺，從而達到簡化使用的用戶體驗。

我們正在這樣做，我們正在取得的巨大進展，而且還通過與最重要的生態(tài)系統(tǒng)參與者合作，像PyTorch這樣的框架和像Hugging Face這樣的模型中心。舉個具體的例子，基于我們與PyTorch的廣泛合作，PyTorch 2.0在第0天就支持ROCm 5。與Hugging Face的合作正在幫助我們在所有AMD平臺上運行各種AI模型。

這是我們GPU的軟件開發(fā)棧，它是在GPU上做AI開發(fā)、運行和調(diào)整 AI模型和算法所需的一整套庫、編譯器和Runtime工具。AMD ROCm堆棧的很大一部分是開放的。我們的驅(qū)動程序、Runtime、調(diào)試器和分析器等工具以及我們的庫都是開放的。ROCm 5擁有一整套優(yōu)化，可提供具有競爭力的性能……算法和內(nèi)核（例如flashattention）、新的降低精度的數(shù)據(jù)類型，以及新興工具（例如Triton）。我們將ROCm連接到開放生態(tài)系統(tǒng)方面取得了重大進展，包括PyTorch等框架和Hugging Face等模型中心。以幫助客戶在AMD GPU平臺上快速移植、優(yōu)化和部署其AI模型。

對用戶來講，他最關(guān)心的是從不同的GPU平臺或者說友商的GPU平臺如何遷移到AMD的GPU上？AMD提供與NVIDIA等效的庫功能，由框架調(diào)用，在框架層面開發(fā)的用戶可以獲得“即插即用”的兼容軟件體驗。像基礎(chǔ)模型構(gòu)建者這樣高度復(fù)雜的用戶通常擁有一定數(shù)量的自定義內(nèi)核代碼，需要與AMD AI軟件工程結(jié)合進行聯(lián)合優(yōu)化。HipiFY工具可讓您非?？焖俚貙崿F(xiàn)功能等效。致力于這些定制內(nèi)核的性能優(yōu)化。AMD已經(jīng)與客戶成功做到了這一點，并展示了在聯(lián)合優(yōu)化后達到與NVIDIA同等性能的能力。與此同時，AMD不斷優(yōu)化和改進我們的庫。

這里是Mosaic實現(xiàn)無縫遷移至AMD GPU的成功案例，基于PyTorch 2.0和ROCm 5，ROCm直接替代CUDA，RCCL替代NCCL，Infinity Fabric替代節(jié)點內(nèi)的NVSwitch。從而實現(xiàn)大模型訓(xùn)練在AMD MI250加速器上開箱即用，零代碼更改和高性能。

我們來看一下AMD在的client側(cè)AI軟件解決方案。自從我們今年早些時候宣布該產(chǎn)品以來，ISV和用戶開發(fā)人員都非常希望在我們的AI平臺上開發(fā)應(yīng)用的需求為了滿足這一巨大的興趣，我們在今年早些時候與微軟Build活動中表示，我們在微軟的ONNX Runtime框架下提供我們的工具。這使得開發(fā)人員可以使用ONNX中熟悉的API進行模型部署。現(xiàn)在我們眼見為實，我給大家演示一下在AMD GPU平臺，Ryzen AI平臺上跑各種大模型。

這是在我們MI GPU上實現(xiàn)一個Stable Diffusion的推理，可以很快地圖文生成，在毫秒級里達到這個目標。

展示我們在Ryzen AI筆記本電腦上實現(xiàn)多個AI應(yīng)用時，提供有保證的QoS，無抖動性能。同時實現(xiàn)人臉檢測、深度估計、場景檢測。這與其他需要以分時方式共享AI計算資源的AI架構(gòu)不同。

另外，我們今天也提到，AI已經(jīng)從云到端，甚至是混合式AI。我們的解決方案，不僅可以在云上去做這些大模型，我們也可以在端側(cè)、在我們的筆記本里面去做這些大模型。這個例子就是我們用MI系列GPU，實現(xiàn)了一個700億參數(shù)的大模型，實現(xiàn)圖文生成圖文。這個是讓它寫一個有關(guān)舊金山的詩文。在我們端側(cè)，我們是跑的是OPT模型，實現(xiàn)文字生成。

我們基于Radeon架構(gòu)，不僅可以實現(xiàn)3D渲染，同時可以做AI的訓(xùn)練或者推理，快速平穩(wěn)地進行加速。AMD會繼續(xù)地加大AI的投入，將強大的AI處理能力的產(chǎn)品引入云、邊緣和端，并且我們致力于與廣大AI開發(fā)者，社區(qū)一道提供開放的AI軟件生態(tài)系統(tǒng)，與廣大AI開發(fā)者、用戶，同超越，共成就。這就是我今天與各位分享的所有內(nèi)容，感謝大家寶貴的時間。以上是王宏強演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AMD王宏強：700億參數(shù)大模型單個GPU部署，做好AI軟件和生態(tài)實現(xiàn)“開箱即用”丨GACS 2023

相關(guān)推薦

技術(shù)專區(qū)