軟銀計(jì)劃以AI供電為突破口,另辟蹊徑能否重新崛起?
孫正義在旗下電信子公司軟銀公司的股東大會(huì)上發(fā)表講話稱,目前軟銀旗下的全資子公司SB Energy已經(jīng)在美國經(jīng)營再生能源發(fā)電業(yè)務(wù),并將繼續(xù)在海外物色投資標(biāo)的,加強(qiáng)發(fā)電業(yè)務(wù),為全球人工智能項(xiàng)目提供電力。
本文引用地址:http://butianyuan.cn/article/202407/460561.htmPart.01 新一波進(jìn)化的種子
去年9月14日,ARM以當(dāng)年美股最大的IPO交易登陸納斯達(dá)克,最新數(shù)據(jù)顯示,ARM的市值已經(jīng)達(dá)到約1664.28億美元(截至2025年7月1日),軟銀則持有ARM約90%左右的股份。同時(shí),OpenAI打造的ChatGPT火遍全球,成為AI領(lǐng)域的現(xiàn)象級應(yīng)用,引發(fā)了全球互聯(lián)網(wǎng)公司的AIGC“軍備競賽”,ARM也在加強(qiáng)AI芯片方向的布局,計(jì)劃在2025年推出首批產(chǎn)品,一旦建立批量生產(chǎn)體系,AI芯片業(yè)務(wù)可能會(huì)分拆出來置于軟銀旗下。
之前失敗的經(jīng)歷讓孫正義急切地尋找一枚新的種子,“All in AI”的野心證明了人工智能就是這枚種子?,F(xiàn)在,孫正義找到了投資更明確的方向 —— AI供電業(yè)務(wù)。當(dāng)前,生成式人工智能技術(shù)的基礎(chǔ)就是以數(shù)據(jù)和算力堆疊為標(biāo)志的大模型,其訓(xùn)練和應(yīng)用需要大量的算力支持,算力背后則是算力基礎(chǔ)設(shè)施耗電所帶來的巨大電能需求。
AI究竟能消耗多少電量?如果更直觀地去看AI行業(yè)的能源需求,國際能源署今年初發(fā)布的報(bào)顯示,一次谷歌搜索平均耗電0.3瓦時(shí),而ChatGPT響應(yīng)一條請求平均耗電2.9瓦時(shí)。以谷歌每天處理90億次搜索計(jì)算,換算成ChatGPT處理這些請求,一年將需要多消耗100億千瓦時(shí)(1千瓦時(shí)相當(dāng)于1度電)的額外電力。
埃隆·馬斯克表示電力缺口最早可能會(huì)在2025年發(fā)生,成為制約AI發(fā)展的主要因素;OpenAl的創(chuàng)始人山姆·奧特曼認(rèn)為,未來AI技術(shù)的發(fā)展將高度依賴于能源,特別是光伏和儲(chǔ)能技術(shù)的進(jìn)步;英偉達(dá)CEO黃仁勛也表示,人工智能的未來發(fā)展與狀態(tài)和儲(chǔ)能緊密相連,不應(yīng)僅僅關(guān)注計(jì)算力,而是需要更全面地考慮能源消耗問題。
隨著生成式人工智能的廣泛應(yīng)用,預(yù)計(jì)到2027年,整個(gè)人工智能行業(yè)每年將消耗85至134太瓦時(shí)(1太瓦時(shí)=10億千瓦時(shí))的電力,這顯示了AI技術(shù)對電力資源的巨大需求。有業(yè)內(nèi)人士表示,大模型訓(xùn)練成本中60%都是電費(fèi)。
Part.02 AI背后的電力革命
AI大模型對電力的消耗主要體現(xiàn)在模型訓(xùn)練和推理環(huán)節(jié):在訓(xùn)練階段,首先需要收集和預(yù)處理大量的文本數(shù)據(jù)用作輸入數(shù)據(jù),然后在適當(dāng)?shù)哪P图軜?gòu)中初始化模型參數(shù),處理輸入的數(shù)據(jù),嘗試生成輸出,再根據(jù)輸出與預(yù)想之間的差異,反復(fù)調(diào)整參數(shù),直到模型的性能不再顯著提高為止;而在推理階段中,則會(huì)先加載已經(jīng)訓(xùn)練好的模型參數(shù),預(yù)處理需要推理的文本數(shù)據(jù),再讓模型根據(jù)學(xué)習(xí)到的語言規(guī)律生成輸出。
無論是訓(xùn)練還是推理階段,都是一連串信息重組過程,模型的參數(shù)量越大,需要處理的數(shù)據(jù)越多,所需的計(jì)算量也就越大,所消耗的能量也就越大,而ChatGPT這樣基于大語言模型的生成式人工智能需要大量的數(shù)據(jù)集。GPT-3模型擁有1750億參數(shù),而據(jù)推測GPT-4擁有1.8萬億參數(shù),是GPT-3的十倍。要訓(xùn)練這種規(guī)模的模型,需要在大規(guī)模數(shù)據(jù)集上反復(fù)迭代,每一次迭代都需要計(jì)算和調(diào)整其中數(shù)十億、數(shù)百億乃至數(shù)千億個(gè)參數(shù)的值。
大模型的參數(shù)和數(shù)據(jù)規(guī)模越大,其智能效果就越好。在大模型中,“Scaling Laws”(規(guī)模效應(yīng))意味著當(dāng)參數(shù)和數(shù)據(jù)規(guī)模大到一定程度時(shí),大模型的智能表現(xiàn)將出現(xiàn)躍升,也就是“智能涌現(xiàn)”。以O(shè)penAI為代表的人工智能公司在“Scaling Laws”的驅(qū)使下,還在持續(xù)增加大模型的參數(shù)和數(shù)據(jù)規(guī)模,以求實(shí)現(xiàn)通用人工智能(AGI)的目標(biāo),造成短期內(nèi)算力需求和電能需求的巨大提升。
參數(shù)量的激增將導(dǎo)致能耗顯著增加,在OpenAI訓(xùn)練大語言模型GPT-4時(shí),完成一次訓(xùn)練需要約三個(gè)月時(shí)間,使用大約25000塊英偉達(dá)A100 GPU。每塊A100 GPU都擁有540億個(gè)晶體管,功耗400瓦,每秒鐘可以進(jìn)行19.5萬億次單精度浮點(diǎn)數(shù)的運(yùn)算,僅僅是這些GPU一次訓(xùn)練就用了2.4億度電。
除了模型訓(xùn)練以外,AI在推理階段的耗能也不容忽視,推理即大模型響應(yīng)用戶需求的過程,大模型單次響應(yīng)用戶需求的耗電量并不大,但隨著用戶規(guī)模的增加,耗電量也將不斷累積并增大。在有限時(shí)空范圍內(nèi)進(jìn)行大模型訓(xùn)練,會(huì)給局部電網(wǎng)帶來非常大的用電負(fù)荷,如果將10萬塊英偉達(dá)H00芯片部署在同一地區(qū)進(jìn)行模型訓(xùn)練,會(huì)導(dǎo)致電網(wǎng)崩潰。
Part.03 如何解決高耗能問題?
數(shù)據(jù)中心、智算中心等算力基礎(chǔ)設(shè)施是人工智能(AI)的數(shù)據(jù)中樞和算力載體,尤其是生成式人工智能(AIGC)和大模型技術(shù)的快速發(fā)展,算力需求激增,AI的能耗問題也越來越受到關(guān)注。不可否認(rèn),未來人工智能需要能源方面的突破,因?yàn)槿斯ぶ悄芟牡碾娏⑦h(yuǎn)遠(yuǎn)超過人們的預(yù)期。隨著AI大模型的技術(shù)競爭進(jìn)入縱深階段,行業(yè)開始將注意力轉(zhuǎn)向模型訓(xùn)練所需的能源領(lǐng)域。
AI熱潮背后的電力短缺風(fēng)險(xiǎn)成為科技圈內(nèi)熱議的焦點(diǎn),在業(yè)內(nèi)人士看來,這背后核心原因在于AI大模型訓(xùn)練所消耗的電力主要集中在數(shù)據(jù)中心領(lǐng)域,而當(dāng)前數(shù)據(jù)中心建設(shè)正面臨著供需錯(cuò)配的結(jié)構(gòu)性難題。而且AI模型的規(guī)模不斷擴(kuò)大,電力成本也在不斷上升,一些數(shù)據(jù)中心運(yùn)營商為了應(yīng)對運(yùn)行AI應(yīng)用程序產(chǎn)生的額外成本,已經(jīng)開始提高商業(yè)租賃價(jià)格。
于AI巨大的能源需求,當(dāng)前不少科技巨頭均在“未雨綢繆”,為AI的長遠(yuǎn)發(fā)展積蓄電力。當(dāng)下的重點(diǎn)在于開源,風(fēng)能、光伏等可再生新能源被視作數(shù)據(jù)中心重要的能量池,核能尤其被寄予厚望。
· 微軟與能源創(chuàng)業(yè)公司Helion Energy簽訂購電協(xié)議,宣布2028年將從Helion Energy構(gòu)建的第一座核聚變發(fā)電廠購買電力。
· OpenAI也開始與Helion Energy接觸,計(jì)劃從它的核聚變電廠中采購大量電力用于支持其數(shù)據(jù)中心的運(yùn)營。值得注意的是,奧特曼自身就向Helion Energy投資了3.75億美元,這也是他有史以來最大的一筆個(gè)人出資。
· 亞馬遜云服務(wù)公司(AWS)收購美國賓夕法尼亞州一座數(shù)據(jù)中心園區(qū),據(jù)了解,該園區(qū)就是從鄰近的核電站獲取電力。
由于幾乎無限的燃料供應(yīng)、環(huán)境友好、能量密度高、安全性高,核聚變被視為解決能源危機(jī)和氣候變化問題的關(guān)鍵技術(shù)。得益于多個(gè)國家和私營企業(yè)的積極參與以及技術(shù)突破,全球核聚變商業(yè)化的進(jìn)展正在加速。此外,數(shù)據(jù)中心還可以通過智能算法來優(yōu)化能源使用效率,實(shí)現(xiàn)AI與電網(wǎng)的協(xié)同發(fā)展。
面對未來可能發(fā)生AI“缺電”的情況,需要尋找合適的解法,讓有限的電力能源可以容納更大的算力規(guī)模。從需求角度看,優(yōu)化模型本身的算法和架構(gòu)、硬件優(yōu)化、提升芯片效率和算力效率等,被認(rèn)為是降低AI能耗的有效途徑,是接下來的重點(diǎn)研發(fā)方向。
算法和模型優(yōu)化:通過算法優(yōu)化,如剪枝(pruning)、量化(quantization)、蒸餾(distillation)等技術(shù),以及模型壓縮技術(shù),減少模型的復(fù)雜度,同時(shí)保持或接近原有的性能。近年來提出的一些輕量級模型(如MobileNet)就是為了低功耗場景而設(shè)計(jì)的。
硬件優(yōu)化:開發(fā)和使用更高效的AI專用硬件,如英偉達(dá)開發(fā)的GPU T4和A100,谷歌開發(fā)的TPU(Tensor Processing Unit),這些硬件專為AI任務(wù)設(shè)計(jì),能夠在更低的能耗下提供更高的計(jì)算效率。
調(diào)整訓(xùn)練和計(jì)算技巧:訓(xùn)練技巧是一種通過調(diào)整神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程來優(yōu)化計(jì)算資源的方法,例如,分布式訓(xùn)練技術(shù)可以利用多臺(tái)計(jì)算機(jī)分擔(dān)大規(guī)模計(jì)算的負(fù)荷;另外,將AI計(jì)算任務(wù)從云端轉(zhuǎn)移到邊緣設(shè)備,這樣可以減少數(shù)據(jù)傳輸所需的能量,并利用邊緣設(shè)備的低功耗特性。
提高數(shù)據(jù)中心的能效:通過優(yōu)化數(shù)據(jù)中心的設(shè)計(jì)和管理,提高電源使用效率,例如,使用更高效的冷卻系統(tǒng)或者通過AI技術(shù)動(dòng)態(tài)調(diào)整數(shù)據(jù)中心的運(yùn)行狀態(tài)以降低能耗。
Part.04 AI不僅費(fèi)電,還費(fèi)水
AI公司通常依賴數(shù)據(jù)中心來提供必要的計(jì)算資源,這些數(shù)據(jù)中心不僅需要電力來運(yùn)行服務(wù)器,還需要大量的電力來維持冷卻系統(tǒng),以防止設(shè)備過熱。除了耗電,算力設(shè)備的冷卻需求讓AI的耗水量也讓人瞠目結(jié)舌 —— 服務(wù)器消耗的電能絕大部分轉(zhuǎn)化成了熱能,最后通過水冷系統(tǒng)釋放出來,費(fèi)電的背后還費(fèi)水。
谷歌發(fā)布的2023年環(huán)境報(bào)告顯示,公司前一年的用水量同比顯著增加了20%,達(dá)到56億加侖(21198305立方米),而其中絕大部分都被用于為該公司的數(shù)據(jù)中心散熱。而這并不是個(gè)例,估算訓(xùn)練GPT-3所需的清水量相當(dāng)于填滿一個(gè)核反應(yīng)堆的冷卻塔所需的水量。ChatGPT(在GPT-3推出之后)每與用戶交流25到50個(gè)問題,就得“喝下”一瓶500毫升的水來降溫。
當(dāng)前數(shù)據(jù)中心耗水也成為制約數(shù)據(jù)中心快速發(fā)展的因素之一,很多企業(yè)嘗試用各種方法為數(shù)據(jù)中心散熱,例如,微軟曾嘗試部署海下數(shù)據(jù)中心,F(xiàn)acebook數(shù)據(jù)中心選址北極圈附近,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷。
在AI快速進(jìn)步的道路上,對水資源的消耗也不斷加碼升級,要對AI進(jìn)行大量訓(xùn)練也就意味著需要更強(qiáng)的算力中心和與之匹配的散熱能力。實(shí)際上,AI本質(zhì)上是一種計(jì)算機(jī)技術(shù)和處理信息的技術(shù),背后則需要大量GPU芯片,更底層則是大量電能、水力、風(fēng)能、資金等資源的支持。
評論