軟銀計(jì)劃以AI供電為突破口，另辟蹊徑能否重新崛起？

作者：陳玲麗時(shí)間：2024-07-02 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

孫正義在旗下電信子公司軟銀公司的股東大會(huì)上發(fā)表講話稱(chēng)，目前軟銀旗下的全資子公司SB Energy已經(jīng)在美國(guó)經(jīng)營(yíng)再生能源發(fā)電業(yè)務(wù)，并將繼續(xù)在海外物色投資標(biāo)的，加強(qiáng)發(fā)電業(yè)務(wù)，為全球人工智能項(xiàng)目提供電力。

本文引用地址：http://www.butianyuan.cn/article/202407/460561.htm

Part.01 新一波進(jìn)化的種子

去年9月14日，ARM以當(dāng)年美股最大的IPO交易登陸納斯達(dá)克，最新數(shù)據(jù)顯示，ARM的市值已經(jīng)達(dá)到約1664.28億美元（截至2025年7月1日），軟銀則持有ARM約90%左右的股份。同時(shí)，OpenAI打造的ChatGPT火遍全球，成為AI領(lǐng)域的現(xiàn)象級(jí)應(yīng)用，引發(fā)了全球互聯(lián)網(wǎng)公司的AIGC“軍備競(jìng)賽”，ARM也在加強(qiáng)AI芯片方向的布局，計(jì)劃在2025年推出首批產(chǎn)品，一旦建立批量生產(chǎn)體系，AI芯片業(yè)務(wù)可能會(huì)分拆出來(lái)置于軟銀旗下。

之前失敗的經(jīng)歷讓孫正義急切地尋找一枚新的種子，“All in AI”的野心證明了人工智能就是這枚種子?，F(xiàn)在，孫正義找到了投資更明確的方向 —— AI供電業(yè)務(wù)。當(dāng)前，生成式人工智能技術(shù)的基礎(chǔ)就是以數(shù)據(jù)和算力堆疊為標(biāo)志的大模型，其訓(xùn)練和應(yīng)用需要大量的算力支持，算力背后則是算力基礎(chǔ)設(shè)施耗電所帶來(lái)的巨大電能需求。

AI究竟能消耗多少電量？如果更直觀地去看AI行業(yè)的能源需求，國(guó)際能源署今年初發(fā)布的報(bào)顯示，一次谷歌搜索平均耗電0.3瓦時(shí)，而ChatGPT響應(yīng)一條請(qǐng)求平均耗電2.9瓦時(shí)。以谷歌每天處理90億次搜索計(jì)算，換算成ChatGPT處理這些請(qǐng)求，一年將需要多消耗100億千瓦時(shí)（1千瓦時(shí)相當(dāng)于1度電）的額外電力。

埃隆·馬斯克表示電力缺口最早可能會(huì)在2025年發(fā)生，成為制約AI發(fā)展的主要因素；OpenAl的創(chuàng)始人山姆·奧特曼認(rèn)為，未來(lái)AI技術(shù)的發(fā)展將高度依賴(lài)于能源，特別是光伏和儲(chǔ)能技術(shù)的進(jìn)步；英偉達(dá)CEO黃仁勛也表示，人工智能的未來(lái)發(fā)展與狀態(tài)和儲(chǔ)能緊密相連，不應(yīng)僅僅關(guān)注計(jì)算力，而是需要更全面地考慮能源消耗問(wèn)題。

隨著生成式人工智能的廣泛應(yīng)用，預(yù)計(jì)到2027年，整個(gè)人工智能行業(yè)每年將消耗85至134太瓦時(shí)（1太瓦時(shí)=10億千瓦時(shí)）的電力，這顯示了AI技術(shù)對(duì)電力資源的巨大需求。有業(yè)內(nèi)人士表示，大模型訓(xùn)練成本中60%都是電費(fèi)。

Part.02 AI背后的電力革命

AI大模型對(duì)電力的消耗主要體現(xiàn)在模型訓(xùn)練和推理環(huán)節(jié)：在訓(xùn)練階段，首先需要收集和預(yù)處理大量的文本數(shù)據(jù)用作輸入數(shù)據(jù)，然后在適當(dāng)?shù)哪Ｐ图軜?gòu)中初始化模型參數(shù)，處理輸入的數(shù)據(jù)，嘗試生成輸出，再根據(jù)輸出與預(yù)想之間的差異，反復(fù)調(diào)整參數(shù)，直到模型的性能不再顯著提高為止；而在推理階段中，則會(huì)先加載已經(jīng)訓(xùn)練好的模型參數(shù)，預(yù)處理需要推理的文本數(shù)據(jù)，再讓模型根據(jù)學(xué)習(xí)到的語(yǔ)言規(guī)律生成輸出。

無(wú)論是訓(xùn)練還是推理階段，都是一連串信息重組過(guò)程，模型的參數(shù)量越大，需要處理的數(shù)據(jù)越多，所需的計(jì)算量也就越大，所消耗的能量也就越大，而ChatGPT這樣基于大語(yǔ)言模型的生成式人工智能需要大量的數(shù)據(jù)集。GPT-3模型擁有1750億參數(shù)，而據(jù)推測(cè)GPT-4擁有1.8萬(wàn)億參數(shù)，是GPT-3的十倍。要訓(xùn)練這種規(guī)模的模型，需要在大規(guī)模數(shù)據(jù)集上反復(fù)迭代，每一次迭代都需要計(jì)算和調(diào)整其中數(shù)十億、數(shù)百億乃至數(shù)千億個(gè)參數(shù)的值。

大模型的參數(shù)和數(shù)據(jù)規(guī)模越大，其智能效果就越好。在大模型中，“Scaling Laws”（規(guī)模效應(yīng)）意味著當(dāng)參數(shù)和數(shù)據(jù)規(guī)模大到一定程度時(shí)，大模型的智能表現(xiàn)將出現(xiàn)躍升，也就是“智能涌現(xiàn)”。以O(shè)penAI為代表的人工智能公司在“Scaling Laws”的驅(qū)使下，還在持續(xù)增加大模型的參數(shù)和數(shù)據(jù)規(guī)模，以求實(shí)現(xiàn)通用人工智能（AGI）的目標(biāo)，造成短期內(nèi)算力需求和電能需求的巨大提升。

參數(shù)量的激增將導(dǎo)致能耗顯著增加，在OpenAI訓(xùn)練大語(yǔ)言模型GPT-4時(shí)，完成一次訓(xùn)練需要約三個(gè)月時(shí)間，使用大約25000塊英偉達(dá)A100 GPU。每塊A100 GPU都擁有540億個(gè)晶體管，功耗400瓦，每秒鐘可以進(jìn)行19.5萬(wàn)億次單精度浮點(diǎn)數(shù)的運(yùn)算，僅僅是這些GPU一次訓(xùn)練就用了2.4億度電。

除了模型訓(xùn)練以外，AI在推理階段的耗能也不容忽視，推理即大模型響應(yīng)用戶需求的過(guò)程，大模型單次響應(yīng)用戶需求的耗電量并不大，但隨著用戶規(guī)模的增加，耗電量也將不斷累積并增大。在有限時(shí)空范圍內(nèi)進(jìn)行大模型訓(xùn)練，會(huì)給局部電網(wǎng)帶來(lái)非常大的用電負(fù)荷，如果將10萬(wàn)塊英偉達(dá)H00芯片部署在同一地區(qū)進(jìn)行模型訓(xùn)練，會(huì)導(dǎo)致電網(wǎng)崩潰。

Part.03 如何解決高耗能問(wèn)題？

數(shù)據(jù)中心、智算中心等算力基礎(chǔ)設(shè)施是人工智能（AI）的數(shù)據(jù)中樞和算力載體，尤其是生成式人工智能（AIGC）和大模型技術(shù)的快速發(fā)展，算力需求激增，AI的能耗問(wèn)題也越來(lái)越受到關(guān)注。不可否認(rèn)，未來(lái)人工智能需要能源方面的突破，因?yàn)槿斯ぶ悄芟牡碾娏⑦h(yuǎn)遠(yuǎn)超過(guò)人們的預(yù)期。隨著AI大模型的技術(shù)競(jìng)爭(zhēng)進(jìn)入縱深階段，行業(yè)開(kāi)始將注意力轉(zhuǎn)向模型訓(xùn)練所需的能源領(lǐng)域。

AI熱潮背后的電力短缺風(fēng)險(xiǎn)成為科技圈內(nèi)熱議的焦點(diǎn)，在業(yè)內(nèi)人士看來(lái)，這背后核心原因在于AI大模型訓(xùn)練所消耗的電力主要集中在數(shù)據(jù)中心領(lǐng)域，而當(dāng)前數(shù)據(jù)中心建設(shè)正面臨著供需錯(cuò)配的結(jié)構(gòu)性難題。而且AI模型的規(guī)模不斷擴(kuò)大，電力成本也在不斷上升，一些數(shù)據(jù)中心運(yùn)營(yíng)商為了應(yīng)對(duì)運(yùn)行AI應(yīng)用程序產(chǎn)生的額外成本，已經(jīng)開(kāi)始提高商業(yè)租賃價(jià)格。

于AI巨大的能源需求，當(dāng)前不少科技巨頭均在“未雨綢繆”，為AI的長(zhǎng)遠(yuǎn)發(fā)展積蓄電力。當(dāng)下的重點(diǎn)在于開(kāi)源，風(fēng)能、光伏等可再生新能源被視作數(shù)據(jù)中心重要的能量池，核能尤其被寄予厚望。

· 微軟與能源創(chuàng)業(yè)公司Helion Energy簽訂購(gòu)電協(xié)議，宣布2028年將從Helion Energy構(gòu)建的第一座核聚變發(fā)電廠購(gòu)買(mǎi)電力。

· OpenAI也開(kāi)始與Helion Energy接觸，計(jì)劃從它的核聚變電廠中采購(gòu)大量電力用于支持其數(shù)據(jù)中心的運(yùn)營(yíng)。值得注意的是，奧特曼自身就向Helion Energy投資了3.75億美元，這也是他有史以來(lái)最大的一筆個(gè)人出資。

· 亞馬遜云服務(wù)公司（AWS）收購(gòu)美國(guó)賓夕法尼亞州一座數(shù)據(jù)中心園區(qū)，據(jù)了解，該園區(qū)就是從鄰近的核電站獲取電力。

由于幾乎無(wú)限的燃料供應(yīng)、環(huán)境友好、能量密度高、安全性高，核聚變被視為解決能源危機(jī)和氣候變化問(wèn)題的關(guān)鍵技術(shù)。得益于多個(gè)國(guó)家和私營(yíng)企業(yè)的積極參與以及技術(shù)突破，全球核聚變商業(yè)化的進(jìn)展正在加速。此外，數(shù)據(jù)中心還可以通過(guò)智能算法來(lái)優(yōu)化能源使用效率，實(shí)現(xiàn)AI與電網(wǎng)的協(xié)同發(fā)展。

面對(duì)未來(lái)可能發(fā)生AI“缺電”的情況，需要尋找合適的解法，讓有限的電力能源可以容納更大的算力規(guī)模。從需求角度看，優(yōu)化模型本身的算法和架構(gòu)、硬件優(yōu)化、提升芯片效率和算力效率等，被認(rèn)為是降低AI能耗的有效途徑，是接下來(lái)的重點(diǎn)研發(fā)方向。

算法和模型優(yōu)化：通過(guò)算法優(yōu)化，如剪枝（pruning）、量化（quantization）、蒸餾（distillation）等技術(shù)，以及模型壓縮技術(shù)，減少模型的復(fù)雜度，同時(shí)保持或接近原有的性能。近年來(lái)提出的一些輕量級(jí)模型（如MobileNet）就是為了低功耗場(chǎng)景而設(shè)計(jì)的。

硬件優(yōu)化：開(kāi)發(fā)和使用更高效的AI專(zhuān)用硬件，如英偉達(dá)開(kāi)發(fā)的GPU T4和A100，谷歌開(kāi)發(fā)的TPU（Tensor Processing Unit），這些硬件專(zhuān)為AI任務(wù)設(shè)計(jì)，能夠在更低的能耗下提供更高的計(jì)算效率。

調(diào)整訓(xùn)練和計(jì)算技巧：訓(xùn)練技巧是一種通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程來(lái)優(yōu)化計(jì)算資源的方法，例如，分布式訓(xùn)練技術(shù)可以利用多臺(tái)計(jì)算機(jī)分擔(dān)大規(guī)模計(jì)算的負(fù)荷；另外，將AI計(jì)算任務(wù)從云端轉(zhuǎn)移到邊緣設(shè)備，這樣可以減少數(shù)據(jù)傳輸所需的能量，并利用邊緣設(shè)備的低功耗特性。

提高數(shù)據(jù)中心的能效：通過(guò)優(yōu)化數(shù)據(jù)中心的設(shè)計(jì)和管理，提高電源使用效率，例如，使用更高效的冷卻系統(tǒng)或者通過(guò)AI技術(shù)動(dòng)態(tài)調(diào)整數(shù)據(jù)中心的運(yùn)行狀態(tài)以降低能耗。

Part.04 AI不僅費(fèi)電，還費(fèi)水

AI公司通常依賴(lài)數(shù)據(jù)中心來(lái)提供必要的計(jì)算資源，這些數(shù)據(jù)中心不僅需要電力來(lái)運(yùn)行服務(wù)器，還需要大量的電力來(lái)維持冷卻系統(tǒng)，以防止設(shè)備過(guò)熱。除了耗電，算力設(shè)備的冷卻需求讓AI的耗水量也讓人瞠目結(jié)舌 —— 服務(wù)器消耗的電能絕大部分轉(zhuǎn)化成了熱能，最后通過(guò)水冷系統(tǒng)釋放出來(lái)，費(fèi)電的背后還費(fèi)水。

谷歌發(fā)布的2023年環(huán)境報(bào)告顯示，公司前一年的用水量同比顯著增加了20%，達(dá)到56億加侖（21198305立方米），而其中絕大部分都被用于為該公司的數(shù)據(jù)中心散熱。而這并不是個(gè)例，估算訓(xùn)練GPT-3所需的清水量相當(dāng)于填滿一個(gè)核反應(yīng)堆的冷卻塔所需的水量。ChatGPT（在GPT-3推出之后）每與用戶交流25到50個(gè)問(wèn)題，就得“喝下”一瓶500毫升的水來(lái)降溫。

當(dāng)前數(shù)據(jù)中心耗水也成為制約數(shù)據(jù)中心快速發(fā)展的因素之一，很多企業(yè)嘗試用各種方法為數(shù)據(jù)中心散熱，例如，微軟曾嘗試部署海下數(shù)據(jù)中心，F(xiàn)acebook數(shù)據(jù)中心選址北極圈附近，阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷。

在AI快速進(jìn)步的道路上，對(duì)水資源的消耗也不斷加碼升級(jí)，要對(duì)AI進(jìn)行大量訓(xùn)練也就意味著需要更強(qiáng)的算力中心和與之匹配的散熱能力。實(shí)際上，AI本質(zhì)上是一種計(jì)算機(jī)技術(shù)和處理信息的技術(shù)，背后則需要大量GPU芯片，更底層則是大量電能、水力、風(fēng)能、資金等資源的支持。