下一代尖端AI系統(tǒng)的電源解決方案

發(fā)布人：電子資料庫(kù) 時(shí)間：2022-12-31 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

簡(jiǎn)介

人工智能（AI）綜合了多種解決問題的方法，例如數(shù)學(xué)、計(jì)算統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和預(yù)測(cè)分析。AI系統(tǒng)通過基于計(jì)算機(jī)的“神經(jīng)”網(wǎng)絡(luò)來模仿人腦學(xué)習(xí)并解決問題。這種神經(jīng)網(wǎng)絡(luò)由并行處理器組成，能夠運(yùn)行復(fù)雜的學(xué)習(xí)任務(wù)并執(zhí)行軟件算法。如今的AI還在改革計(jì)算架構(gòu)，以復(fù)制模仿人腦的神經(jīng)網(wǎng)絡(luò)。盡管在具有傳統(tǒng)中央處理器（CPU）的服務(wù)器上也可以訓(xùn)練或開發(fā)通用模型，但大多數(shù)神經(jīng)網(wǎng)絡(luò)都需要自定義的內(nèi)置硬件來進(jìn)行訓(xùn)練。

圖形處理單元（GPU）和張量處理單元（TPU）是用于加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的常見加速器。它們可以處理重復(fù)性和密集型計(jì)算，但卻異常耗電。例如，早期的AI市場(chǎng)主導(dǎo)者英偉達(dá)的DGX-1 GPU超級(jí)計(jì)算機(jī)內(nèi)置8個(gè)Tesla P100 GPU，每個(gè)GPU算力達(dá)到21.2 TeraFLOP，總共需要3200W的系統(tǒng)總功率。最新一代的DGX-2超級(jí)計(jì)算機(jī)則內(nèi)置16個(gè)Tesla V100 GPU，每個(gè)GPU算力達(dá)2 petaFLOP，所需系統(tǒng)總功率達(dá)到10kW。因此，AI市場(chǎng)將迅速增長(zhǎng)以滿足不斷增長(zhǎng)的電源需求也就不足為奇了。

電源設(shè)計(jì)挑戰(zhàn)

AI電源系統(tǒng)設(shè)計(jì)人員面臨多方面的挑戰(zhàn)。提供千瓦功率是他們的第一個(gè)挑戰(zhàn)，而且效率絕對(duì)至關(guān)重要。要知道，這些計(jì)算系統(tǒng)是以全功率運(yùn)行的復(fù)雜負(fù)載?；钴S度下降，功率需求也會(huì)隨之下降。系統(tǒng)必須在整個(gè)電力需求中保持盡可能高的效率。浪費(fèi)的每一瓦能量都會(huì)作為熱量消散，并轉(zhuǎn)化為數(shù)據(jù)中心對(duì)散熱系統(tǒng)的更高要求，這會(huì)增加運(yùn)營(yíng)成本以及碳足跡。

空間成本也在不斷上升?，F(xiàn)代數(shù)據(jù)中心都包含成百上千個(gè)處理單元，因此設(shè)備大小非常重要。減小單個(gè)單元的尺寸，就可以在與大型解決方案相同的空間中應(yīng)用更多設(shè)備，從而實(shí)現(xiàn)更高的處理能力密度。然而，越小的尺寸越要求極大地提高功率密度，并減小散熱面積。這使得散熱管理成為下一代尖端CPU、GPU和TPU電源設(shè)計(jì)面臨的重大挑戰(zhàn)之一。

另外，系統(tǒng)復(fù)雜性的增加和設(shè)計(jì)周期的壓縮使設(shè)計(jì)資源更加緊張。資源大部分被分配給系統(tǒng)關(guān)鍵知識(shí)產(chǎn)權(quán)的開發(fā)，這意味著電源方案相關(guān)的電路常常被忽略，直到開發(fā)周期的后期。實(shí)際上，我們只需很少的時(shí)間，并且可能只需很少的電源設(shè)計(jì)資源就可以解決上述的挑戰(zhàn)，得到理想的整體電源解決方案，它將是節(jié)省空間的、高效的、可擴(kuò)展的、靈活的，并且只需要最少的設(shè)計(jì)工作。

數(shù)字控制與模擬控制解決方案

模擬控制解決方案現(xiàn)在已無法應(yīng)對(duì)AI市場(chǎng)中快速增長(zhǎng)的電源需求?，F(xiàn)在的電源系統(tǒng)更加智能，它被集成到整體解決方案中，與主CPU/GPU/TPU之間的通信也成為一項(xiàng)設(shè)計(jì)要求。在為AI市場(chǎng)設(shè)計(jì)高端電源解決方案時(shí)，數(shù)字控制解決方案將占據(jù)主導(dǎo)。

理想的控制解決方案應(yīng)當(dāng)兼容多種產(chǎn)品（例如Intel、AMD、PMBus），并且因可擴(kuò)展且配置靈活而易于使用。包括MPS在內(nèi)的很多公司都提供了這類理想的高級(jí)控制器（參見表1）。它們提供了廣泛而準(zhǔn)確的系統(tǒng)控制，同時(shí)提供詳細(xì)而精確的監(jiān)測(cè)。電壓、電流、頻率和故障監(jiān)測(cè)均可在寬范圍內(nèi)進(jìn)行配置。工程師可以實(shí)時(shí)訪問這些監(jiān)測(cè)值，以全面了解解決方案的性能。有經(jīng)驗(yàn)的工程師還可以通過預(yù)測(cè)分析來優(yōu)化運(yùn)行時(shí)間，并在需要維修時(shí)獲取更多可用數(shù)據(jù)，從而最大程度地縮短停機(jī)時(shí)間。

	MPS高級(jí)控制器解決方案	其他模擬控制器解決方案	其他數(shù)字控制器解決方案
通信協(xié)議	PMBUS（帶或不帶AVS） SVID SVI2 I2C PWM-VID	SVID SVI2 I2C PWM-VID	PMBUS（帶或不帶AVS） SVID SVI2 I2C
最大相位配置	雙軌或單軌，具有靈活的相位分配 10相或以下	雙軌或單軌 7相或以下	雙軌或單軌，具有靈活的相位分配 8相或以下
封裝	5mmx5mm QFN封裝或更小尺寸	7mmx7mm QFN封裝或更小尺寸	7mmx7mm QFN封裝或更小尺寸

表1：高級(jí)控制器vs.模擬和數(shù)字控制解決方案

功率級(jí)：集成是關(guān)鍵

顯而易見，電源解決方案沒有功率級(jí)就無法工作，而功率級(jí)通常會(huì)采用分立式解決方案。分立式解決方案由驅(qū)動(dòng)器IC和一對(duì)外部MOSFET組成，為三芯片解決方案。還有一種方法是將多芯片驅(qū)動(dòng)器-MOSFET（DrMOS）共同封裝到一個(gè)IC解決方案中。如前所述，不斷縮小的系統(tǒng)板面積使三芯片解決方案變得不再理想，因?yàn)樗黾恿擞邢薨蹇臻g中的組件數(shù)量。共同封裝的多芯片解決方案體積更小，所需的組件也更少；不過，其封裝內(nèi)部的寄生電感仍然很高，這會(huì)導(dǎo)致效率的損失，對(duì)AI等大功率應(yīng)用而言也不理想。

圖1：功率級(jí)的常用實(shí)現(xiàn)方法

與傳統(tǒng)的分立式和多芯片解決方案不同，MPS提供了一種單片功率級(jí)解決方案。其功率級(jí)具有低靜態(tài)電流、同步降壓柵極驅(qū)動(dòng)器以及單個(gè)芯片上的一對(duì)上管和下管MOSFET。通過將所有關(guān)鍵元件集成在一個(gè)封裝中，可以輕松控制驅(qū)動(dòng)器/MOSFET，并最大程度地減少開關(guān)節(jié)點(diǎn)處的振鈴。另外，封裝和板級(jí)之間的寄生電感也被大大降低。這種設(shè)計(jì)可以實(shí)現(xiàn)最先進(jìn)的CPU/GPU/TPU設(shè)計(jì)所需的低輸出電壓下更高的效率。

單片功率級(jí)只需最少數(shù)量的外部組件，因此簡(jiǎn)化了原理圖以及PCB布局。其基本設(shè)計(jì)可以分兩步完成：

選擇適當(dāng)數(shù)量的輸入和輸出電容器以滿足電壓和電流紋波要求；
選擇一個(gè)電感器以滿足總負(fù)載電流需求。

圖2：傳統(tǒng)解決方案與高級(jí)解決方案的比較

這種器件的典型功率級(jí)可在各種溫度下的全負(fù)載范圍內(nèi)實(shí)現(xiàn)出色的電流檢測(cè)精度(±2%) ，并以高達(dá)3MHz的開關(guān)頻率工作（見圖2）。在極其寶貴的空間內(nèi)還可以同時(shí)提供各種可配置的故障保護(hù)功能，如過流保護(hù)（OCP）、相位故障檢測(cè)和IC溫度報(bào)告，為設(shè)計(jì)人員提供了一種小而強(qiáng)大的解決方案，還不會(huì)影響效率或瞬態(tài)響應(yīng)。

結(jié)論

當(dāng)今的AI系統(tǒng)都是通過多個(gè)高性能計(jì)算機(jī)系統(tǒng)來實(shí)現(xiàn)的，它在很多方面都對(duì)電源設(shè)計(jì)人員提出了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)中心設(shè)計(jì)正迅速?gòu)耐ㄓ玫膬HCPU解決方案演化為CPU、GPU和TPU的組合方案，這對(duì)電源設(shè)計(jì)解決方案提出了新的、更嚴(yán)格的要求。數(shù)字控制器及其功率級(jí)解決方案帶來了靈活性和適應(yīng)性，以及精確的控制、遙測(cè)和保護(hù)功能。它使電源設(shè)計(jì)人員能夠創(chuàng)建具有高效率和高功率密度的最新電源解決方案，可以滿足快速增長(zhǎng)的AI市場(chǎng)當(dāng)前與未來的高功率需求。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

西門子plc相關(guān)文章:西門子plc視頻教程

博客專欄

下一代尖端AI系統(tǒng)的電源解決方案

相關(guān)推薦

技術(shù)專區(qū)