微軟OpenAI聯(lián)手圍剿英偉達(dá)，首款自研AI芯片下月發(fā)布！

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-10-09 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編輯：好困潤(rùn)

【導(dǎo)讀】一家獨(dú)大的英偉達(dá)，把微軟和OpenAI都逼得親自下場(chǎng)造芯片了。也許AI芯片大戰(zhàn)才剛剛拉開帷幕。
微軟自研AI芯片，11月上線！知名外媒The Information獨(dú)家爆料稱，微軟計(jì)劃在下個(gè)月舉行的年度開發(fā)者大會(huì)上，推出首款人工智能芯片。

同時(shí)，OpenAI也在招聘能夠幫助其評(píng)估和設(shè)計(jì)AI硬件的人員。

業(yè)內(nèi)有一種說(shuō)法，「賣H100比向沙漠里快要渴死的人賣水還要容易」。不論是為了走出算力枯竭，更高效，低成本地開發(fā)自己的模型，還是為了擺脫被「利潤(rùn)率高達(dá)1000%」的H100盤剝。

微軟和OpenAI都在嘗試「變硬」，努力戒掉對(duì)于英偉達(dá)的GPU依賴。但是，根據(jù)業(yè)內(nèi)人士爆料，英偉達(dá)對(duì)于已經(jīng)推出自己芯片的公司，比如谷歌和亞馬遜，會(huì)控制GPU的供給。所以「芯片自研」的道路，是一個(gè)風(fēng)險(xiǎn)和收益都很高的選擇，畢竟誰(shuí)也不想未來(lái)被黃老板在GPU供給上進(jìn)一步「卡脖子」。

微軟自研AI芯片，追趕谷歌亞馬遜

與英偉達(dá)的GPU類似，微軟的芯片也是專為數(shù)據(jù)中心服務(wù)器設(shè)計(jì)，可用于訓(xùn)練和運(yùn)行諸如ChatGPT這類的大語(yǔ)言模型。

目前，不管是為云客戶提供先進(jìn)的LLM支持，還是為自家的生產(chǎn)力應(yīng)用提供AI功能，微軟都需要依靠英偉達(dá)的GPU提供算力的加持。而這款從2019年便開始研發(fā)的全新芯片，顯然可以極大地減輕微軟對(duì)英偉達(dá)GPU的依賴。據(jù)知情人士稱，微軟和OpenAI組成的聯(lián)合團(tuán)隊(duì)，現(xiàn)在已經(jīng)在對(duì)其進(jìn)行測(cè)試了。

相比起早早入局的競(jìng)爭(zhēng)對(duì)手，微軟直到2019年才開始AI芯片的研發(fā)。也是同年，微軟宣布將向OpenAI投資10億美元，并要求他們必須使用微軟的Azure云服務(wù)器。然而，當(dāng)微軟開始與OpenAI進(jìn)行更緊密地合作時(shí)發(fā)現(xiàn)，依靠購(gòu)買GPU來(lái)支持這家初創(chuàng)公司、Azure客戶以及自家產(chǎn)品的成本，實(shí)在是太高了。據(jù)知情人士透露，在開發(fā)Athena期間，微軟為了滿足OpenAI的需求，已經(jīng)向英偉達(dá)訂購(gòu)了至少數(shù)十萬(wàn)塊GPU。早在，今年4月，就有消息透露了這款代號(hào)為Athena的芯片的存在。

據(jù)稱，微軟希望這款代號(hào)為Athena（雅典娜）芯片，能與一直供不應(yīng)求的英偉達(dá)H100 GPU相媲美。目前，亞馬遜和谷歌已將人工智能芯片作為其云業(yè)務(wù)營(yíng)銷戰(zhàn)略的重要組成部分。

其中，亞馬遜在對(duì)Anthropic的投資中規(guī)定，對(duì)方需要使用亞馬遜的AI芯片，即Trainium和Inferentia。同時(shí)，谷歌云也表示，Midjourney和 Character AI等客戶使用了自研的TPU。

微軟雖然還在討論是否要向Azure云客戶提供自研芯片，但該芯片在開發(fā)者大會(huì)上的首次亮相，可能預(yù)示著微軟正在尋求吸引未來(lái)云客戶的興趣。可以肯定的是，微軟將借著Athena的推出，極大縮短與另外兩家巨頭的距離——谷歌和亞馬遜早已在自家的云服務(wù)器上大規(guī)模采用了自研的芯片。此外，為了擺脫英偉達(dá)的「卡脖子」，微軟還在與AMD密切合作，開發(fā)即將推出的人工智能芯片MI300X。不過(guò)，微軟和其他云服務(wù)提供商普遍表示，自己并沒(méi)有停止從英偉達(dá)購(gòu)買GPU的打算。但如果他們能說(shuō)服云客戶更多地使用自研芯片，那么從長(zhǎng)遠(yuǎn)來(lái)看，這可以極大地節(jié)省開支。同時(shí)，也能幫助他們?cè)谂c英偉達(dá)的談判中獲得更多籌碼。

OpenAI：這兩家，我都不想要

對(duì)于OpenAI來(lái)說(shuō)，能同時(shí)減少對(duì)微軟和英偉達(dá)芯片的依賴，顯然是最好的。

據(jù)OpenAI網(wǎng)站上的幾則招聘信息顯示，公司正在招聘能夠幫助其評(píng)估和共同設(shè)計(jì)AI硬件的人員。路透社也報(bào)道，OpenAI正在計(jì)劃下場(chǎng)生產(chǎn)自己的AI芯片。

此前，CEO Sam Altman曾將獲得更多AI芯片作為公司的首要任務(wù)。一方面，OpenAI所需的GPU十分短缺，另外，運(yùn)行這些硬件時(shí)產(chǎn)生的成本「令人瞠目結(jié)舌」。如果算力成本一直居高不下，長(zhǎng)遠(yuǎn)來(lái)看于整個(gè)AI行業(yè)來(lái)說(shuō)可能并不是一個(gè)好消息。畢竟如果掘金的「鏟子」賣的比金子本身都貴，那么還會(huì)有人去做挖金子的人嗎？根據(jù)Stacy Rasgon的分析，ChatGPT每次查詢大約需要4美分。如果ChatGPT的查詢量增長(zhǎng)到谷歌搜索規(guī)模的十分之一，那么就將需要價(jià)值約481億美元的GPU，并且每年需要價(jià)值約160億美元的芯片來(lái)維持運(yùn)行。目前還不清楚OpenAI是否會(huì)推進(jìn)定制芯片的計(jì)劃。據(jù)業(yè)內(nèi)資深人士分析，這將是一項(xiàng)投資巨大的戰(zhàn)略舉措，其中每年的成本可能高達(dá)數(shù)億美元。而且，即使OpenAI將資源投入到這項(xiàng)任務(wù)中，也不能保證成功。除了完全的自研之外，還有一種選擇是像亞馬遜在2015年收購(gòu)Annapurna Labs那樣，收購(gòu)一家芯片公司。

據(jù)一位知情人士透露，OpenAI已經(jīng)考慮過(guò)這條路，并對(duì)潛在的收購(gòu)目標(biāo)進(jìn)行了盡職調(diào)查。但即使OpenAI繼續(xù)推進(jìn)定制芯片計(jì)劃（包括收購(gòu)），這項(xiàng)工作也可能需要數(shù)年時(shí)間。在此期間，OpenAI還是將依賴于英偉達(dá)和AMD等GPU供應(yīng)商。因?yàn)榫退銖?qiáng)如蘋果，在2007年收購(gòu)了P.A. Semi和Intristy，到2010年推出第一款芯片A4，也經(jīng)歷了3年的時(shí)間。而OpenAI，自己本身都還是一家初創(chuàng)公司，這個(gè)過(guò)程也許走得會(huì)更加艱難。而且英偉達(dá)GPU最重要的護(hù)城河，就是它基于CUDA的軟硬件生態(tài)的積累。OpenAI不但要能設(shè)計(jì)出性能上不落后的硬件，還要在軟硬件協(xié)同方面趕超CUDA，絕對(duì)不是一件容易的事情。

但是，另一方面，OpenAI做芯片也有自己獨(dú)特的優(yōu)勢(shì)。OpenAI要做的芯片，不需要向其他巨頭推出的芯片一樣，服務(wù)于整個(gè)AI行業(yè)。他只需滿足自己對(duì)模型訓(xùn)練的理解和需求，為自己定制化的設(shè)計(jì)一款A(yù)I芯片。這和谷歌、亞馬遜這種將自己的AI芯片放在云端提供給第三方使用的芯片會(huì)有很大的不同，因?yàn)閹缀醪挥每紤]兼容性的問(wèn)題。這樣就能在設(shè)計(jì)層面讓芯片能更高效地執(zhí)行Transformer模型和相關(guān)的軟件棧。

而且，OpenAI在模型訓(xùn)練方面的領(lǐng)先優(yōu)勢(shì)和規(guī)劃，能讓它真正做到在未來(lái)把模型訓(xùn)練相關(guān)的硬件問(wèn)題，用自己獨(dú)家設(shè)計(jì)的芯片來(lái)解決。不用擔(dān)心自己的芯片在「滿足自己需要」的性能上，相比與英偉達(dá)這樣的行業(yè)巨頭會(huì)有后發(fā)劣勢(shì)。

都是成本的問(wèn)題

設(shè)計(jì)自己的AI芯片，與英偉達(dá)直接「剛正面」如此之難，為什么巨頭們還要紛紛下場(chǎng)？

最直接的原因就是，英偉達(dá)的GPU太貴了！加上云提供商在中間還要再賺一筆。這樣，包括OpenAI在內(nèi)，使用英偉達(dá)GPU+云提供商的基礎(chǔ)模型企業(yè)成本肯定居高不下。

有國(guó)外媒體算過(guò)這樣一筆賬：現(xiàn)在，購(gòu)買一個(gè)使用英偉達(dá)H100 GPU的人工智能訓(xùn)練集群，成本約為10億美元，其FP16運(yùn)算能力約為20 exaflops（還不包括對(duì)矩陣乘法的稀疏性支持）。而在云上租用三年，則會(huì)使成本增加2.5倍。這些成本包括了集群節(jié)點(diǎn)的網(wǎng)絡(luò)、計(jì)算和本地存儲(chǔ)，但不包括任何外部高容量和高性能文件系統(tǒng)存儲(chǔ)。購(gòu)買一個(gè)基于Hopper H100的八GPU節(jié)點(diǎn)可能需要花費(fèi)近30萬(wàn)美元，其中還包括InfiniBand網(wǎng)絡(luò)（網(wǎng)卡、電纜和交換機(jī)）的分?jǐn)傎M(fèi)用。同樣的八GPU節(jié)點(diǎn)，在AWS上按需租用的價(jià)格為260萬(wàn)美元，預(yù)留三年的價(jià)格為110萬(wàn)美元，在微軟Azure和谷歌云上的價(jià)格可能也差不多。因此，如果OpenAI能夠以低于50萬(wàn)美元的單價(jià)（包括所有成本）構(gòu)建系統(tǒng)，那么它的成本將減少一半以上，同時(shí)還能掌握自己的「算力自由」。將這些費(fèi)用削減一半，在投入資源不變的情況下，OpenAI的模型規(guī)模就會(huì)擴(kuò)大一倍；如果成本能夠減少四分之三，則翻四倍。在模型規(guī)模每?jī)傻饺齻€(gè)月翻倍的市場(chǎng)中，這一點(diǎn)非常重要。所以長(zhǎng)遠(yuǎn)來(lái)看，也許任何一個(gè)有野心的AI大模型公司，都不得不面對(duì)的一個(gè)最基本問(wèn)題就是——如何盡可能的降低算力成本。而擺脫「金鏟子賣家」英偉達(dá)，使用自己的GPU，永遠(yuǎn)都是最有效的方法。

網(wǎng)友熱議

對(duì)于OpenAI和微軟下場(chǎng)造AI芯片的做法，一些網(wǎng)友似乎持不同的意見(jiàn)，認(rèn)為AI芯片是一個(gè)「陷阱」。

逼得OpenAI等模型公司造硬件，一個(gè)最大的原因是其他芯片公司完全不給力，英偉達(dá)幾乎沒(méi)有競(jìng)爭(zhēng)。如果AI芯片是一個(gè)競(jìng)爭(zhēng)充分的市場(chǎng)，OpenAI這類的公司就不會(huì)自己下場(chǎng)做AI芯片。

而有些想法更加激進(jìn)的網(wǎng)友認(rèn)為，大語(yǔ)言模型未來(lái)將集成到芯片當(dāng)中，人類可以用自然語(yǔ)言和計(jì)算機(jī)直接對(duì)話。所以設(shè)計(jì)芯片是走到那一步的自然選擇。

來(lái)源：新智元

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

微軟OpenAI聯(lián)手圍剿英偉達(dá)，首款自研AI芯片下月發(fā)布！

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

微軟OpenAI聯(lián)手圍剿英偉達(dá)，首款自研AI芯片下月發(fā)布！

相關(guān)推薦

技術(shù)專區(qū)

微軟OpenAI聯(lián)手圍剿英偉達(dá)，首款自研AI芯片下月發(fā)布！