獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代

作者：時(shí)間：2024-06-11 來源：快科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

王啟尚先生有著30多年的顯卡和芯片工程研發(fā)經(jīng)驗(yàn)，目前在AMD負(fù)責(zé)架構(gòu)、IP和軟件等GPU技術(shù)開發(fā)，同時(shí)領(lǐng)導(dǎo)著AMD顯卡、數(shù)據(jù)中心GPU、客戶端和半定制業(yè)務(wù)SoC的工程研發(fā)。

本文引用地址：http://butianyuan.cn/article/202406/459768.htm

訪談從AI LLM大語言模型開始。

王啟尚在此前3月份北京舉辦的AMD AI PC創(chuàng)新峰會(huì)上就開門見山地分析了LLM的發(fā)展趨勢(shì)，大型閉源模型越來越龐大，比如GPT-4的參數(shù)量已經(jīng)達(dá)到1.76萬億；即便是相對(duì)小型的開源模型也在膨脹，Llama 2參數(shù)量達(dá)700億，阿里通義千問2達(dá)到720億。

如此龐大的LLM，對(duì)于算力的需求是十分“饑渴”的，同樣需要海量的電力去支撐，遠(yuǎn)超一般數(shù)據(jù)中心的承受能力，越發(fā)引起行業(yè)的擔(dān)憂。

獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代

對(duì)此，王啟尚分析指出，基礎(chǔ)大模型的參數(shù)規(guī)模成長曲線比摩爾定律來得還要猛烈，幾乎每兩年就增長多達(dá)5-10倍，所以誕生了新的“混合專家模型”(MOE)策略，將單一大模型變?yōu)楸姸鄬＜夷Ｐ偷募?，每一個(gè)都有自己專門擅長的領(lǐng)域，因此不需要超級(jí)龐大甚至無限制，相信未來會(huì)越來越流行。

在硬件方面，每一年都在更新?lián)Q代，匹配大模型的快速進(jìn)化趨勢(shì)，重點(diǎn)就是提升算力和算法、內(nèi)存容量和帶寬。

其中，算力和精度密切相關(guān)，趨勢(shì)是越來越低，前幾年需要16位，現(xiàn)在逐漸轉(zhuǎn)向8位精度，AMD下一代CDNA4 MI350會(huì)進(jìn)一步降至6位或者4位，而最終可能會(huì)走向2位或者1位——人腦就是1位或者2位的。

當(dāng)然，這個(gè)精度也要看模型的設(shè)計(jì)，有時(shí)可能需要量化和重新訓(xùn)練。

目前來看，沒什么“魔法”大幅降低硬件的功耗，能做的就是努力提升能效。

比如AMD的下一代產(chǎn)品，性能可以提升35倍，但功耗不會(huì)增加這么多，客戶依然愿意購買越來越多的GPU，畢竟算力依然不夠。

王啟尚承認(rèn)，電力的問題會(huì)一直存在，未來數(shù)據(jù)中心可能真的需要自建發(fā)電廠。

獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代

回到距離我們更近的AI產(chǎn)品，比如說Strix Point的下一代移動(dòng)處理器銳龍AI 300系列，NPU的算力達(dá)到了50TOPS，可以滿足更多對(duì)算力有需求的場(chǎng)景，更多地接手CPU、GPU的工作。

王啟尚表示，每一種AI引擎都有適合自己的工作，比如CPU主要做通用運(yùn)算，GPU可以快速訓(xùn)練大模型，NPU則可以達(dá)成最低的功耗和最高的能效，當(dāng)然將負(fù)載遷移到NPU上都需要一定的優(yōu)化和時(shí)間。

特別是在GPU、NPU之間，存在著折衷和妥協(xié)，取決于你看中高速度還是高能效。

另一方面，在未來，AMD希望通過多層的Graph Compile 編譯器，根據(jù)系統(tǒng)里的AI引擎類別，可以將不同的負(fù)載分配給不同的AI引擎，讓CPU、GPU、NPU同時(shí)跑起來，達(dá)到最高效率。

不過這方面還需要一定的時(shí)間，目前仍是將全部的工作負(fù)載放在同一個(gè)編譯器里執(zhí)行，我們能做的是讓整個(gè)模型變得更成熟，使其簡單地進(jìn)行編譯最佳化，但這仍需要一定的人力成本。

獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代

當(dāng)筆者問到，說起CPU、GPU、NPU的多引擎組合，Intel也已經(jīng)具備全線實(shí)力，NVIDIA也在嘗試做自己的CPU，AMD又該怎么辦呢？

王啟尚認(rèn)為，每一家廠商都有自己的獨(dú)特優(yōu)勢(shì)，AMD的三種引擎在業(yè)內(nèi)都是非常好的，也非常均衡。

未來，AMD將繼續(xù)發(fā)揮三種引擎都可以提供最佳狀態(tài)的優(yōu)勢(shì)，每一樣都要做好，同時(shí)延續(xù)AMD一貫的企業(yè)文化，在軟件方面堅(jiān)持開源，和行業(yè)伙伴共同創(chuàng)新，打造開放的生態(tài)鏈，擁抱AI大時(shí)代。

比如AMD聯(lián)合博通、思科、谷歌、慧與、Intel、Meta、微軟共同宣布了開放的行業(yè)標(biāo)準(zhǔn)UALink(Ultra Accelerator Link)，共同推進(jìn)AI基礎(chǔ)設(shè)施建設(shè)。

在這八大創(chuàng)始成員中，谷歌、慧與、Meta、微軟都是數(shù)據(jù)中心客戶，都非常高興能有這樣的開放標(biāo)準(zhǔn)，可以更標(biāo)準(zhǔn)化、更容易地?cái)U(kuò)建大規(guī)模數(shù)據(jù)中心，不會(huì)被限制在專有方案中。

獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代

最后聊到了王啟尚的專長，也就是GPU發(fā)展，包括銳龍AI 300系列核顯使用的RDNA 3.5(或者叫RDNA 3+)，以及下一代顯卡將會(huì)使用的RDNA 4。

具體細(xì)節(jié)目前肯定無法公開，不過王啟尚透露，RDNA 3.5重點(diǎn)針對(duì)APU環(huán)境做了優(yōu)化，比如集成圖形核心規(guī)模從12個(gè)CU單元增加到最多提供16個(gè)CU單元（筆者換算為增幅33%），對(duì)于APU來說是非常強(qiáng)悍的，可以更好地用于游戲。

RDNA 4在游戲方面的重點(diǎn)就是通過AI增強(qiáng)游戲體驗(yàn)，包括更強(qiáng)的光線追蹤，更多的AI加速畫質(zhì)和幀率。

事實(shí)上，這也是RDNA GPU家族發(fā)展的大方向。

獨(dú)家專訪AMD高級(jí)副總裁王啟尚：打造開放生態(tài)鏈擁抱AI大時(shí)代