博客專欄

EEPW首頁 > 博客 > 芯片架構(gòu)設(shè)計的新趨勢

芯片架構(gòu)設(shè)計的新趨勢

發(fā)布人:旺材芯片 時間:2022-10-11 來源:工程師 發(fā)布文章

來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自semiengineering


制程微縮帶來的收益遞減,再加上普遍的連通性和數(shù)據(jù)的指數(shù)級增長,行業(yè)正在推動芯片設(shè)計方式、預(yù)期功能以及完成速度的廣泛變化。


過去,性能、功率和成本之間的權(quán)衡主要由大型 OEM 在行業(yè)范圍的擴(kuò)展路線圖范圍內(nèi)定義。芯片制造商設(shè)計芯片以滿足這些 OEM 提出的狹窄規(guī)格。但隨著摩爾定律的放緩,以及隨著越來越多的傳感器和電子設(shè)備在各處生成更多數(shù)據(jù),設(shè)計目標(biāo)和實(shí)現(xiàn)這些目標(biāo)的手段正在發(fā)生變化。一些最大的系統(tǒng)公司已經(jīng)在內(nèi)部進(jìn)行芯片設(shè)計,以專注于特定的數(shù)據(jù)類型和用例。與此同時,傳統(tǒng)芯片制造商正在創(chuàng)建靈活的架構(gòu),這些架構(gòu)可以重復(fù)使用并輕松修改以用于更廣泛的應(yīng)用。


在這種新的設(shè)計方案中,需要處理數(shù)據(jù)的速度和結(jié)果的準(zhǔn)確性可能會有很大差異。根據(jù)具體情況——例如,它是否將用于安全或任務(wù)關(guān)鍵型應(yīng)用,或者它是否靠近可能產(chǎn)生熱量或噪音的其他組件——架構(gòu)師可以權(quán)衡原始性能、每瓦性能和總擁有成本,包括可靠性和安全性。這反過來又決定了封裝的類型、內(nèi)存、布局以及需要多少冗余。它還增加了新的關(guān)注點(diǎn),例如跨系統(tǒng)的時鐘同步、封裝中組件的不同老化率,以及由于行業(yè)對各個部分如何組合在一起以及可能出現(xiàn)的問題的了解不足而產(chǎn)生的未知數(shù)。


隨著這些設(shè)計的推出,出現(xiàn)了一些用于定制的創(chuàng)新方法,以及一些一致的主題。


在最近的 Hot Chips 34 大會上,NVIDIA 高級首席工程師 Jack Choquette 預(yù)覽了該公司新的 800 億晶體管 GPU 芯片。新架構(gòu)考慮了空間局部性,允許來自不同位置的數(shù)據(jù)由可用的處理元素處理,以及時間局部性,其中多個內(nèi)核可以對數(shù)據(jù)進(jìn)行操作。目標(biāo)是允許更多的塊對數(shù)據(jù)片段進(jìn)行同步或異步操作,以提高效率和速度。這與現(xiàn)有方法形成對比,在現(xiàn)有方法中,所有線程都必須等待其他數(shù)據(jù)在處理開始之前到達(dá)。


圖片

圖 1:線程塊集群,允許在相鄰的多處理器上共同調(diào)度一些處理。資料來源:NVIDIA/Hot Chips 34


AMD 高級研究員 Alan Smith 在會議上同樣介紹了“workload-optimized compute architecture”。在 AMD 的設(shè)計中,為數(shù)據(jù)轉(zhuǎn)發(fā)和重用加寬了數(shù)據(jù)路徑。與 NVIDIA 的架構(gòu)一樣,其目標(biāo)是消除數(shù)據(jù)路徑的瓶頸、簡化操作并提高各種計算元素的利用率。為了提高性能,AMD 不再需要不斷復(fù)制來備份內(nèi)存,從而顯著減少了數(shù)據(jù)移動。


AMD 的新 Instinct 芯片包括一個靈活的高速 I/O 和一個連接各種計算元件的 2.5D elevated bridge。High-speed bridges則由英特爾首次通過其嵌入式多芯片互連橋接器 (EMIB) 商業(yè)化推出,用于使兩個或多個芯片充當(dāng)一個芯片。Apple 使用了這種方法,橋接了兩個基于 Arm 的 M1 SoC 來創(chuàng)建其 M1 Ultra 芯片。


圖片

圖 2:AMD 的帶有扇出橋的多芯片方法。

資料來源:AMD/熱芯片


所有這些架構(gòu)都比以前的版本更靈活,chiplet/tile 方法為大型芯片制造商提供了一種定制芯片的方式,同時仍為廣泛的客戶群提供服務(wù)。與此同時,谷歌、Meta 和阿里巴巴等系統(tǒng)公司更進(jìn)一步,從頭開始設(shè)計芯片,專門針對其數(shù)據(jù)類型和處理目標(biāo)進(jìn)行調(diào)整。


特斯拉的數(shù)據(jù)中心芯片架構(gòu)就是一個很好的例子?!霸谌斯ぶ悄芨锩脑缙陔A段,計算需求大致符合摩爾定律,”特斯拉低壓和硅工程副總裁Peter Bannon在最近的臺積電技術(shù)研討會上發(fā)表演講時說。“但在過去五年中,軌跡發(fā)生了明顯變化,計算需求每三四個月翻一番,因?yàn)槿藗円呀?jīng)弄清楚如何訓(xùn)練越來越大的模型,從而繼續(xù)提供越來越好的結(jié)果?!?/p>


Peter Bannon說,特斯拉設(shè)計團(tuán)隊設(shè)定了擴(kuò)大規(guī)模的目標(biāo),“對機(jī)器的尺寸沒有實(shí)際限制”?!爱?dāng)時的想法是,‘如果機(jī)器對于特定型號來說不夠大,我們就會把機(jī)器做大。’ 我們希望能夠利用多個級別的并行性——訓(xùn)練級別的數(shù)據(jù)和模型級別的并行性,以及訓(xùn)練卷積和矩陣乘法時正在執(zhí)行的固有操作中的并行性。我們希望它是一個完全可編程且靈活的硬件。”


不同之處


ASIC 一直是定制的,但在每個新的工藝節(jié)點(diǎn),成本都在上升,以至于只有智能手機(jī)或 PC 等最大量的應(yīng)用程序才足以收回設(shè)計和制造成本。越來越多的系統(tǒng)公司通過使用他們內(nèi)部設(shè)計的芯片來吸收不斷上漲的成本,并且他們希望將這些定制架構(gòu)擴(kuò)展到更長的時間。


為了從這些設(shè)計中榨取更高的每瓦性能,他們還在針對特定軟件功能優(yōu)化芯片,以及軟件如何利用硬件——這是一個復(fù)雜且經(jīng)常迭代的過程,需要通過定期軟件更新進(jìn)行持續(xù)微調(diào)。例如,在數(shù)據(jù)中心的情況下,這些芯片可以提高每瓦性能并降低運(yùn)行溫度,從而降低服務(wù)器機(jī)架供電和冷卻的電力成本。


還有其他考慮因素。其中:預(yù)計更多設(shè)備將作為多芯片或多設(shè)備系統(tǒng)的一部分,通常包括 AI/ML 的元素。


為了節(jié)省功耗和成本,設(shè)計團(tuán)隊根據(jù)應(yīng)用優(yōu)先考慮不同的功能,然后根據(jù)特定的設(shè)計目標(biāo)將多個芯片封裝在一起或劃分單個 SoC。


隨著越來越多的芯片制造商采用小芯片方法,他們需要考慮混合使用關(guān)鍵和非關(guān)鍵數(shù)據(jù)路徑。這涉及從噪聲考慮到封裝中的芯片移位、由于這些封裝中不同材料導(dǎo)致的熱膨脹系數(shù)以及組件本身的工藝變化等方方面面。盡管 Arm、Synopsys(ARC 處理器)等公司以及越來越多的一些 RISC-V 供應(yīng)商對他們的 IP 進(jìn)行了徹底的工作,但極端案例和潛在交互的數(shù)量正在增加。


所有這些都使設(shè)計、驗(yàn)證和調(diào)試過程變得更加困難,并且如果數(shù)量和對異??赡艹霈F(xiàn)的位置的了解不足,就會在制造中產(chǎn)生問題。這就解釋了為什么越來越多的 EDA、IP、測試/分析和安全公司開始提供服務(wù)來補(bǔ)充內(nèi)部設(shè)計團(tuán)隊的工作。


瑞薩電子執(zhí)行副總裁 Sailesh Chittipeddi 表示:“不再需要設(shè)計一個 CPU 來為每個工作負(fù)載執(zhí)行 x、y 和 z 函數(shù),而無需考慮開銷。”“這就是為什么所有這些公司現(xiàn)在都變得更加垂直化。他們正在推動他們需要的解決方案。這包括系統(tǒng)級別的人工智能。它包括電氣和機(jī)械特性之間的相互作用,直至您放置特定連接器的位置。它還推動更多 CAD 公司涉足系統(tǒng)級支持和系統(tǒng)級設(shè)計。”


這種轉(zhuǎn)變正在越來越多的垂直市場中發(fā)生,從手機(jī)和汽車到工業(yè)應(yīng)用,隨著芯片制造商希望將其硬件定位于廣泛的新市場,它正在推動一波遠(yuǎn)低于雷達(dá)的小型收購浪潮。例如,瑞薩在 6 月收購 Reality Analytics 的目的是為各種工業(yè)細(xì)分市場創(chuàng)建 AI 模型。


“這項技術(shù)可用于觀察系統(tǒng)中的振動并預(yù)測特定部件何時會發(fā)生故障,”Chittipeddi 說?!袄纾绻憧纯床傻V業(yè),如果鉆頭斷裂,可能會導(dǎo)致嚴(yán)重的問題。我們可以將這些模型導(dǎo)入我們的 MCU,用于控制這些系統(tǒng)?!?/p>


誰做什么


然而,特定領(lǐng)域的解決方案加大了 EDA 公司的壓力,要求他們找出可以自動化的共性。使用在單個工藝節(jié)點(diǎn)開發(fā)的平面芯片要容易得多。但隨著越來越多的市場實(shí)現(xiàn)數(shù)字化——無論是汽車、工業(yè)、軍事/航空、商業(yè)還是消費(fèi)者——他們的目標(biāo)正變得越來越不同。


隨著在不同工藝節(jié)點(diǎn)開發(fā)的小芯片是為定制封裝開發(fā)的,這種差異預(yù)計只會增加,定制封裝可能基于從扇出支柱到完整 3D-IC 實(shí)現(xiàn)的所有內(nèi)容。在某些情況下,甚至可能有 2.5D 和 3D-IC 的組合,西門子 EDA 已將其標(biāo)記為 5.5D。


對于 EDA 和 IP 公司來說,好消息是這顯著增加了對仿真、仿真、原型設(shè)計和建模的需求。大型系統(tǒng)供應(yīng)商也一直在向 EDA 供應(yīng)商施壓,以使更多系統(tǒng)公司的設(shè)計流程自動化,但沒有足夠的數(shù)量來保證這種投資。取而代之的是,系統(tǒng)公司已經(jīng)與 EDA 和 IP 公司聯(lián)系以提供專家服務(wù),從交易關(guān)系轉(zhuǎn)變?yōu)楦钊氲暮献骰锇殛P(guān)系,并讓 EDA 公司更深入地了解各種工具的使用方式以及在哪里使用可以孕育新機(jī)會的漏洞。


是德科技副總裁兼設(shè)計與仿真部總經(jīng)理 Niels Faché 表示:“許多新參與者的垂直整合程度更高,因此他們在內(nèi)部做的更多?!薄叭藗儗ο到y(tǒng)級仿真的興趣要大得多,而且公司內(nèi)部和公司之間對協(xié)作工作流的需求也在不斷增長。我們還看到更多的設(shè)計迭代。所以你有一個開發(fā)團(tuán)隊,一個質(zhì)量團(tuán)隊,并且你不斷地更新設(shè)計?!?/p>


對于為 OEM 設(shè)計芯片的芯片公司來說,這只是挑戰(zhàn)的一部分?!叭绻憧匆幌缕囀袌觯蜁l(fā)現(xiàn)設(shè)計芯片組已經(jīng)不再是按要求設(shè)計了,”Faché 說?!霸诔跏茧A段,芯片公司可能會使用該軟件構(gòu)建參考設(shè)計,并根據(jù)其使用方式進(jìn)行設(shè)置。然后,OEM 將尋求優(yōu)化。這樣做是將合作推向傳統(tǒng)的食物鏈。例如,如果您正在開發(fā)雷達(dá)芯片,那么它不僅僅是一個雷達(dá)子系統(tǒng)。它是更大技術(shù)堆棧背景下的雷達(dá)?!?/p>


該堆棧可能包括射頻封裝、天線和接收器,而 OEM 使用 EDA 構(gòu)建無線電。


特定應(yīng)用與通用


設(shè)計團(tuán)隊面臨的一個巨大挑戰(zhàn)是更多的設(shè)計變得前置。不僅僅是創(chuàng)建芯片架構(gòu),然后在設(shè)計過程中解決細(xì)節(jié),更多的問題需要在架構(gòu)級別解決。


Siemens Digital Industries Software執(zhí)行副總裁 Joe Sawicki 表示:“曾經(jīng)有一次芯片公司出貨的芯片耗電量過多,而 OEM 對此并不滿意?!薄暗悴粫纼H僅運(yùn)行應(yīng)用程序。人工智能使這個問題變得更大,因?yàn)樗粌H僅是軟件的問題?,F(xiàn)在,您可以在其上運(yùn)行所有這些推理。如果您不關(guān)心延遲,您可以在云中放置一個通用芯片,您只需與云通信并取回數(shù)據(jù)即可。但是,如果你有實(shí)時的東西,它需要立即響應(yīng),你就無法承受這種延遲并且你想要低功耗。所以,至少對于加速器,你想要定制設(shè)計?!?/p>


Synopsys的產(chǎn)品營銷經(jīng)理 Gordon Cooper表示同意。“如果你在使用人工智能,是 100% 的時間都在使用它,還是很高興擁有它?如果我只想說我的芯片上有人工智能,也許我只需要使用 DSP 來做人工智能,”他說?!坝幸粋€權(quán)衡,這取決于上下文。如果你想要 100% 的時間完全成熟的 AI,也許你需要添加外部 IP 或額外的 IP?!?/p>


人工智能面臨的一大挑戰(zhàn)是讓設(shè)備保持最新狀態(tài),因?yàn)樗惴〞粩喔?。如果設(shè)計是一次性的并且所有內(nèi)容都針對一種或多種算法進(jìn)行了優(yōu)化,這將變得更加困難。因此,雖然架構(gòu)需要在性能方面具有可擴(kuò)展性,但它們也需要隨著時間的推移以及系統(tǒng)中其他組件的上下文而具有可擴(kuò)展性。


軟件更新會對時鐘造成嚴(yán)重破壞。Movellus首席執(zhí)行官 Mo Faisal在 2022 年人工智能硬件峰會上的一次演講中表示:“你對芯片同步質(zhì)量所做的任何事情都會影響延遲、性能、功耗和上市時間?!痹絹碓酱蟮男酒?- 標(biāo)線大小的芯片 - 您可以優(yōu)化內(nèi)核并確保它與軟件很好地配合。這是矩陣乘法、圖形計算,你并行投入的核心越多越好。然而,這些芯片現(xiàn)在正面臨挑戰(zhàn)。以前,這對英特爾和 AMD 的一兩個團(tuán)隊來說是個問題,現(xiàn)在這是每個人的問題?!?/p>


保持一切同步正在成為一個過程,而不是一個單一的功能?!澳憧赡苡胁煌墓ぷ髁?,”Faisal說?!耙虼耍赡苤幌霝橐粋€工作負(fù)載使用 50 個內(nèi)核,而對于下一個工作負(fù)載,您希望使用 500 個內(nèi)核。但是當(dāng)你打開接下來的 500 個內(nèi)核時,你最終會給電網(wǎng)施加壓力并導(dǎo)致下降?!?/p>


同時開關(guān)噪聲也存在問題。在過去,其中一些問題可以通過冗余來解決。但在先進(jìn)節(jié)點(diǎn)上,該裕量增加了將電子移動通過非常細(xì)的導(dǎo)線所需的時間和能量,這反過來又會產(chǎn)生電阻并增加熱耗散。因此,每個新節(jié)點(diǎn)的權(quán)衡變得更加復(fù)雜,并且包中不同組件之間的交互是相加的。


“如果你看一下 5G,這對汽車來說意味著與數(shù)據(jù)中心或消費(fèi)者不同的東西,” Cadence產(chǎn)品營銷集團(tuán)總監(jiān) Frank Schirrmeister在接受采訪時說。“它們都有不同的延遲吞吐量。人工智能/機(jī)器學(xué)習(xí)也是如此。這取決于域。然后,因?yàn)橐磺卸际浅B接的,它不僅在一個域內(nèi)。所以它本質(zhì)上需要同一芯片的許多變體,這就是異構(gòu)集成變得有趣的地方。SoC 的整體解體派上用場了,因?yàn)槟梢愿鶕?jù) binning 之類的內(nèi)容執(zhí)行不同的性能級別。但它本身不再是一種設(shè)計,因?yàn)槟承┮?guī)則不再適用。”


結(jié)論


整個芯片設(shè)計生態(tài)系統(tǒng)都在不斷變化,并且一直延伸到軟件。過去,設(shè)計團(tuán)隊可以確保以高抽象級別編寫的軟件可以運(yùn)行良好,并且在每個新節(jié)點(diǎn)的引入都會有定期的改進(jìn)。但是隨著規(guī)模下降的好處以及隨后需要更快處理的數(shù)據(jù)的增加,現(xiàn)在每個人都必須更加努力地工作——他們必須與他們在過去的。


至少就功耗和性能而言,最好的前進(jìn)方式是使用定制或半定制架構(gòu)為特定目的設(shè)計芯片。但這會產(chǎn)生一系列問題,而這些問題需要時間來解決。用于 2.5D 和 3D 設(shè)計的工具剛剛開始推出,芯片制造商正在整理計劃,以使它們變得非常具體,或者足夠通用,以便能夠在多個設(shè)計中利用其架構(gòu)。無論哪種方式,每個學(xué)科的工程師都需要開始超越他們的關(guān)注領(lǐng)域,轉(zhuǎn)向芯片系統(tǒng)和系統(tǒng)系統(tǒng)。


未來是光明的,但也更具挑戰(zhàn)性。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么




關(guān)鍵詞: 芯片架構(gòu)

技術(shù)專區(qū)

關(guān)閉