微軟推出首款自研大模型AI芯片!臺(tái)積電5nm、1050億顆晶體管,OpenAI率先試用
編輯 | 漠影
芯東西11月16日?qǐng)?bào)道,今日凌晨,微軟在年度IT專業(yè)人士和開發(fā)者大會(huì)Ignite上推出兩款自研芯片——云端AI芯片微軟Azure Maia 100、服務(wù)器CPU微軟Azure Cobalt 100。Maia 100是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計(jì)的第一款人工智能(AI)芯片,采用臺(tái)積電5nm工藝,擁有1050億顆晶體管,針對(duì)AI和生成式AI進(jìn)行了優(yōu)化,支持微軟首次實(shí)現(xiàn)的低于8位數(shù)據(jù)類型(MX數(shù)據(jù)類型)。微軟已經(jīng)在用搜索引擎Bing和Office AI產(chǎn)品測(cè)試該芯片。Cobalt 100是微軟為微軟云定制開發(fā)的第一款CPU,也是微軟打造的第一款完整的液冷服務(wù)器CPU,采用Arm Neoverse CSS設(shè)計(jì)、128核。微軟還定制設(shè)計(jì)了一個(gè)AI端到端機(jī)架,并搭配了一個(gè)“助手”液冷器,原理類似于汽車散熱器。
▲微軟現(xiàn)場(chǎng)展示AI端到端機(jī)架
兩款芯片明年年初開始在微軟數(shù)據(jù)中心推出,最初為微軟的Copilot或Azure OpenAI Service等服務(wù)提供動(dòng)力。微軟已經(jīng)在設(shè)計(jì)第二代版本的Azure Maia AI芯片和Cobalt CPU系列。這些芯片代表了微軟交付基礎(chǔ)設(shè)施系統(tǒng)的最后一塊拼圖——從芯片、軟件和服務(wù)器到機(jī)架和冷卻系統(tǒng)的一切,微軟這些系統(tǒng)都是由上到下設(shè)計(jì)的,可以根據(jù)內(nèi)部和客戶的工作負(fù)載進(jìn)行優(yōu)化。值得一提的是,生成式AI超級(jí)獨(dú)角獸OpenAI率先試用了Maia 100芯片。該芯片正在GPT-3.5 Turbo上進(jìn)行測(cè)試。OpenAI首席執(zhí)行官Sam Altman說:“當(dāng)微軟第一次分享他們的Maia芯片設(shè)計(jì)時(shí),我們很興奮,我們一起努力改進(jìn)并在我們的模型上測(cè)試它。Azure的端到端AI架構(gòu)現(xiàn)在與Maia一起優(yōu)化到芯片,為訓(xùn)練更有能力的模型鋪平了道路,并使這些模型對(duì)我們的客戶來說更便宜。”除了發(fā)布自研芯片外,微軟宣布將擴(kuò)大與英偉達(dá)、AMD兩家芯片巨頭在AI加速計(jì)算方面的合作伙伴關(guān)系,為客戶提供更多價(jià)格和性能的選擇。微軟發(fā)布了針對(duì)英偉達(dá)H100 GPU的全新NC H100 v5虛擬機(jī)系列預(yù)覽,還將在明年增加最新的英偉達(dá)H200 GPU,以支持更大的模型推理;并宣布將在Azure中加入AMD MI300X加速虛擬機(jī),旨在加速AI工作負(fù)載處理,用于AI模型訓(xùn)練和生成式推理。英偉達(dá)創(chuàng)始人兼CEO黃仁勛專程來到現(xiàn)場(chǎng),宣布推出一項(xiàng)AI代工服務(wù),可以幫助部署在微軟Azure上的企業(yè)和初創(chuàng)公司,構(gòu)建自己的定制大語言模型。▲納德拉與黃仁勛握手
當(dāng)微軟CEO納德拉提問未來AI創(chuàng)新的發(fā)展方向是什么,黃仁勛回答說:“生成式AI是計(jì)算史上最重要的平臺(tái)轉(zhuǎn)型。在過去40年里,從來沒有發(fā)生過如此大的事情。到目前為止,它比個(gè)人電腦更大、比手機(jī)更大,而且將比互聯(lián)網(wǎng)更大?!?/span>01.揭秘微軟造芯實(shí)驗(yàn)室:實(shí)現(xiàn)最大硬件利用率
▲在微軟雷德蒙德實(shí)驗(yàn)室里,一位系統(tǒng)級(jí)測(cè)試人員正在模擬芯片在微軟數(shù)據(jù)中心內(nèi)的運(yùn)行情況。這臺(tái)機(jī)器在真實(shí)世界的條件下嚴(yán)格評(píng)估每個(gè)芯片,以確保它符合性能和可靠性標(biāo)準(zhǔn)。(圖源:微軟)
微軟認(rèn)為增加自研芯片是一種確保每個(gè)元素都適合微軟云和AI工作負(fù)載的方式。這些芯片將安裝在定制的服務(wù)器主板上、放在定制的機(jī)架上,隨著機(jī)架被安裝到現(xiàn)有的微軟數(shù)據(jù)中心中。AI芯片微軟Azure Maia 100旨在實(shí)現(xiàn)硬件的絕對(duì)最大利用率,將為運(yùn)行在微軟Azure上的一些最大的內(nèi)部AI工作負(fù)載提供動(dòng)力。領(lǐng)導(dǎo)Azure Maia團(tuán)隊(duì)的微軟技術(shù)人員Brian Harry說,Maia 100專門為Azure硬件堆棧而設(shè)計(jì),這種垂直整合——將芯片設(shè)計(jì)與考慮到微軟工作負(fù)載而設(shè)計(jì)的更大AI基礎(chǔ)設(shè)施相結(jié)合——可以在性能和效率方面產(chǎn)生巨大的收益。Cobalt 100 CPU是一款128核服務(wù)器處理器,采用Arm Neoverse CSS設(shè)計(jì)構(gòu)建。據(jù)微軟硬件產(chǎn)品開發(fā)副總裁Wes McCulloug分享,這是一種經(jīng)過優(yōu)化的低功耗芯片設(shè)計(jì),可以在云原生產(chǎn)品中提供更高的效率和性能。選用Arm技術(shù)是微軟可持續(xù)發(fā)展目標(biāo)的一個(gè)關(guān)鍵因素,其目標(biāo)是優(yōu)化整個(gè)數(shù)據(jù)中心的“每瓦性能”,這本質(zhì)上意味著為每單位消耗的能量獲得更多的計(jì)算能力。“初步測(cè)試表明,我們的性能比現(xiàn)有商用Arm服務(wù)器的數(shù)據(jù)中心性能提高40%。”微軟Azure硬件系統(tǒng)和基礎(chǔ)設(shè)施副總裁Rani Borkar說。▲首批由微軟Azure Cobalt 100 CPU驅(qū)動(dòng)的服務(wù)器,位于華盛頓州昆西的一個(gè)數(shù)據(jù)中心內(nèi)。(圖源:微軟)
“我們正在最有效地利用硅上的晶體管。將我們所有數(shù)據(jù)中心的服務(wù)器的效率提升相乘,這是一個(gè)相當(dāng)大的數(shù)字?!盡cCulloug談道。02.從2020年開始為云造芯,給AI芯片定制機(jī)架和“散熱助手”
▲在微軟雷德蒙德實(shí)驗(yàn)室里,芯片正在進(jìn)行系統(tǒng)級(jí)測(cè)試,在安裝到服務(wù)器上之前,模擬它們?cè)趯?shí)際生產(chǎn)條件下的使用情況。(圖源:微軟)
今天公布的芯片架構(gòu)不僅可以提高冷卻效率,還能優(yōu)化其當(dāng)前數(shù)據(jù)中心資產(chǎn)的使用,并在現(xiàn)有范圍內(nèi)最大限度地提高服務(wù)器容量。例如,不存在機(jī)架來容納Maia 100服務(wù)器主板的獨(dú)特需求,所以微軟從零做出更寬的數(shù)據(jù)中心機(jī)架。這種擴(kuò)展的設(shè)計(jì)為電源和網(wǎng)絡(luò)電纜提供了充足的空間,能滿足AI工作負(fù)載的獨(dú)特需求。▲在微軟雷德蒙德實(shí)驗(yàn)室的一個(gè)熱室里,為Maia 100 AI芯片和它的“伙伴”定制的機(jī)架。在處理AI工作負(fù)載的計(jì)算需求時(shí),新“助手”在機(jī)架之間循環(huán)液體來冷卻芯片。(圖源:微軟)
大型AI任務(wù)需要大量的計(jì)算、消耗更多的電力。傳統(tǒng)空氣冷卻方法無法滿足這些需求,液冷已成為應(yīng)對(duì)這些熱挑戰(zhàn)的首選方案。但微軟目前的數(shù)據(jù)中心并不是為大型液冷機(jī)器設(shè)計(jì)的。因此它開發(fā)了一個(gè)“助手”,放在Maia 100機(jī)架旁邊。這些“助手”的工作原理有點(diǎn)像汽車的散熱器。冷液從側(cè)板流向附著在Maia 100芯片表面的冷板。每個(gè)板都有通道,液體通過這些通道循環(huán)以吸收和輸送熱量。這些熱量會(huì)流到副翼,副翼會(huì)從液體中去除熱量,并將其送回機(jī)架以吸收更多的熱量,以此類推。▲冷板附著在Maia 100 AI芯片的表面。(圖源:微軟)
McCullough強(qiáng)調(diào)說,機(jī)架和“助手”的串聯(lián)設(shè)計(jì)強(qiáng)調(diào)了基礎(chǔ)設(shè)施系統(tǒng)方法的價(jià)值。通過控制每一個(gè)方面——從Cobalt 100芯片的低功耗理念到數(shù)據(jù)中心冷卻的復(fù)雜性——微軟可以協(xié)調(diào)每個(gè)組件之間的和諧相互作用,確保在減少環(huán)境影響方面,整體確實(shí)大于各部分的總和。微軟已經(jīng)與行業(yè)合作伙伴分享了其定制機(jī)架的設(shè)計(jì)經(jīng)驗(yàn),無論內(nèi)部安裝的是什么芯片,微軟都可以使用這些經(jīng)驗(yàn)。“我們建造的所有東西,無論是基礎(chǔ)設(shè)施、軟件還是固件,我們都可以利用我們自己的芯片,或是我們行業(yè)合作伙伴的芯片?!盡cCullough分享道,“這是客戶做出的選擇,我們正努力為他們提供最好的選擇,無論是性能、成本還是他們關(guān)心的任何其他方面?!?/span>Stemen說,微軟的使命很明確:優(yōu)化其技術(shù)堆棧的每一層,從核心芯片到終端服務(wù)。“微軟的創(chuàng)新將進(jìn)一步深入到芯片工作中,以確保我們客戶在Azure上的工作負(fù)載的未來,優(yōu)先考慮性能、能效和成本?!彼劦溃拔覀冇幸膺x擇這項(xiàng)創(chuàng)新,以便我們的客戶能夠在今天和未來獲得Azure的最佳體驗(yàn)?!?/span>大會(huì)期間,微軟還宣布了其中一個(gè)關(guān)鍵要素的全面可用性——Azure Boost,這是一個(gè)將存儲(chǔ)和網(wǎng)絡(luò)進(jìn)程從主機(jī)服務(wù)器轉(zhuǎn)移到專用硬件和軟件上的系統(tǒng),有助于加快存儲(chǔ)和網(wǎng)絡(luò)的速度。03.英偉達(dá)推出AI代工服務(wù),助攻快速定制生成式AI模型
04.結(jié)語:尚未公布具體芯片參數(shù),如何影響云服務(wù)定價(jià)有待觀察
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。