Chiplet,至關(guān)重要
雖然小芯片 (Chiplet) 已經(jīng)存在了幾十年,但如今它們已成為芯片制造領(lǐng)域最熱門的趨勢,為從個人電腦到服務器、手機和可穿戴設(shè)備等數(shù)百萬臺設(shè)備提供動力。
本文引用地址:http://butianyuan.cn/article/202501/466013.htm雖然小芯片已經(jīng)存在了幾十年,但其使用在歷史上僅限于特定的專業(yè)應用。然而,如今它們處于技術(shù)的最前沿,為全球數(shù)百萬臺臺式電腦、工作站、服務器、游戲機、手機甚至可穿戴設(shè)備提供支持。
短短幾年間,大多數(shù)領(lǐng)先的芯片制造商都已采用小芯片技術(shù)來推動創(chuàng)新。現(xiàn)在很明顯,小芯片即將成為行業(yè)標準。讓我們來探索一下是什么讓它們?nèi)绱酥匾约八鼈內(nèi)绾嗡茉旒夹g(shù)的未來。
什么是 Chiplet?
芯片組是分段式處理器。它不是將每個部分整合到單個芯片中(稱為單片方法),而是將特定部分制造為單獨的芯片。然后使用復雜的連接系統(tǒng)將這些單獨的芯片安裝到單個封裝中。
這種安排使得受益于最新制造方法的部件尺寸縮小,提高了工藝效率,并使其能夠容納更多的組件。
硅科學
要充分理解處理器制造商為何轉(zhuǎn)向使用小芯片,我們必須首先深入研究這些設(shè)備是如何制造的。CPU 和 GPU 最初是由超純硅制成的大圓盤,直徑通常略小于 12 英寸(300 毫米),厚度為 0.04 英寸(1 毫米)。
硅片經(jīng)過一系列復雜的工序,形成多層不同的材料層——絕緣體、電介質(zhì)和金屬。這些層的圖案是通過一種稱為光刻的工藝創(chuàng)建的,其中紫外線照射到放大的圖案(掩模版)上,然后通過透鏡縮小到所需的尺寸。
這種圖案以一定的間隔在晶圓表面重復出現(xiàn),最終每個圖案都會變成一個處理器。由于芯片是矩形的,而晶圓是圓形的,因此圖案必須與光盤的周邊重疊。這些重疊部分最終會被丟棄,因為它們沒有功能。
完成后,使用探針對每個芯片進行測試。電氣檢查結(jié)果會根據(jù)一系列標準告知工程師處理器的質(zhì)量。這個初始階段稱為芯片分級,有助于確定處理器的「等級」。
例如,如果芯片要用作 CPU,則每個部件都應正常工作,在特定電壓下在一定范圍的時鐘速度內(nèi)運行。然后根據(jù)這些測試結(jié)果對每個晶圓部分進行分類。
完成后,晶圓被切割成可供使用的單個部件,即「芯片」。然后,這些芯片被安裝到類似于專用主板的基板上。處理器在準備分發(fā)之前還要經(jīng)過進一步的封裝(例如,使用散熱器)。
整個過程可能需要數(shù)周的制造時間,臺積電和三星等公司對每片晶圓收取的費用很高,根據(jù)所使用的工藝節(jié)點,費用在 3,000 美元到 20,000 美元之間。
「工藝節(jié)點」是用來描述整個制造系統(tǒng)的術(shù)語。從歷史上看,它們以晶體管的柵極長度命名。然而,隨著制造技術(shù)的進步和元件尺寸的不斷縮小,命名不再遵循芯片的任何物理方面,現(xiàn)在它只是一種營銷工具。
盡管如此,每個新的工藝節(jié)點都比其前身帶來好處。它可能生產(chǎn)成本更低、在相同時鐘速度下消耗更少的功率(反之亦然),或者密度更高。后一個指標衡量給定芯片面積內(nèi)可以容納多少個組件。在下圖中,您可以看到 GPU(PC 中最大、最復雜的芯片)多年來的發(fā)展情況……
工藝節(jié)點的改進為工程師提供了一種提高產(chǎn)品功能和性能的方法,而無需使用大而昂貴的芯片。然而,上圖只展示了部分情況,因為并非處理器的每個方面都能從這些進步中受益。
芯片內(nèi)的電路可分為以下幾大類:
邏輯——處理數(shù)據(jù)、數(shù)學和決策
內(nèi)存——通常是 SRAM,用于存儲邏輯數(shù)據(jù)
模擬——管理芯片與其他設(shè)備之間的信號的電路
不幸的是,雖然隨著工藝節(jié)點技術(shù)的每一次重大進步,邏輯電路的體積都在不斷縮小,但模擬電路卻幾乎沒有變化,而 SRAM 也開始達到極限。
雖然邏輯仍然占據(jù)芯片的最大部分,但近年來,當今 CPU 和 GPU 中的 SRAM 數(shù)量已顯著增加。例如,AMD 在其 Radeon VII 顯卡(2019 年)中使用的 Vega 20 芯片總共具有 5 MB 的 L1 和 L2 緩存。僅僅兩代 GPU 之后,為 Radeon RX 6000 系列(2020 年)提供支持的 Navi 21 芯片就包含超過 130 MB 的組合緩存——顯著增加了 25 倍。
隨著新一代處理器的開發(fā),我們可以預計這些成本將繼續(xù)增加,但由于內(nèi)存的縮小幅度不如邏輯的縮小幅度,在同一工藝節(jié)點上制造所有電路的成本效益將越來越低。
在理想情況下,人們會設(shè)計一個芯片,其中模擬部分在最大和最便宜的節(jié)點上制造,SRAM 部分在小得多的節(jié)點上制造,邏輯部分則保留給絕對尖端技術(shù)。不幸的是,這在實踐中無法實現(xiàn)。不過,還有另一種方法。
分而治之
1995 年,英特爾推出了 Pentium II,這是其原始 P5 處理器的繼任者。它與當時其他處理器的不同之處在于隱藏在塑料外殼下的設(shè)計:一塊電路板容納兩個芯片。主芯片包含所有處理邏輯和模擬系統(tǒng),而一個或兩個獨立的 SRAM 模塊用作二級緩存。
雖然主芯片由英特爾制造,但緩存來自外部供應商。這種方法在 20 世紀 90 年代中后期成為臺式電腦的標準配置,直到半導體制造技術(shù)的進步使得邏輯、內(nèi)存和模擬系統(tǒng)能夠完全集成到單個芯片中。
英特爾奔騰 II – 中央處理器在中間,緩存芯片在右邊。
雖然英特爾繼續(xù)嘗試在同一封裝中集成多個芯片,但它在很大程度上堅持所謂的單片處理器方法,即一個芯片可以實現(xiàn)所有功能。對于大多數(shù)處理器而言,不需要多個芯片,因為制造技術(shù)足夠精湛(且價格合理),可以保持簡單。
然而,其他公司對采用多芯片方法更感興趣,其中最著名的是 IBM。2004 年,人們可以購買 POWER4 服務器 CPU 的 8 芯片版本,該版本包含四個處理器和四個緩存模塊,全部安裝在同一機箱內(nèi)(稱為多芯片模塊或 MCM 方法)。
大約在這個時候,「異構(gòu)集成」一詞開始出現(xiàn),部分原因是 DARPA 所做的研究工作。異構(gòu)集成旨在將處理系統(tǒng)的各個部分分開,在最適合每個部分的節(jié)點上單獨制造,然后將它們組合到同一個封裝中。
如今,這種技術(shù)更廣為人知的名字是系統(tǒng)級封裝 (SiP),自誕生之日起就一直是智能手表配備芯片的標準方法。例如,Apple Watch Series 1 就在一個結(jié)構(gòu)內(nèi)安裝了一個 CPU、一些 DRAM 和 NAND 閃存、多個控制器和其他組件。
Apple S1 SiP 的 X 光照片。來源:iFixit
通過將不同的系統(tǒng)全部放在一個芯片上(稱為 SoC 或片上系統(tǒng))可以實現(xiàn)類似的設(shè)置。但是,這種方法無法利用不同的節(jié)點價格,也無法以這種方式制造每個組件。
對于技術(shù)供應商來說,將異構(gòu)集成用于小眾產(chǎn)品是一回事,但將其用于大多數(shù)產(chǎn)品組合又是另一回事。這正是 AMD 對其處理器系列所做的。2017 年,這家半導體巨頭推出了單芯片 Ryzen 臺式機 CPU,并推出了 Zen 架構(gòu)。僅僅幾個月后,AMD 就推出了兩條多芯片產(chǎn)品線:Threadripper 和 EPYC,后者的配置最多可達四個芯片。
兩年后,隨著 Zen 2 的推出,AMD 全面擁抱了 HI、MCM、SiP(隨便你怎么稱呼它們)。他們將大部分模擬系統(tǒng)從處理器中移出,并將它們放入單獨的芯片中。這些芯片采用更簡單、更便宜的工藝節(jié)點制造,而其余邏輯和緩存則采用更先進的工藝節(jié)點。因此,小芯片成為了流行的流行詞。
越小越好
為了準確理解 AMD 選擇這個方向的原因,讓我們來看看下面的圖片。它展示了 Ryzen 5 系列的兩款較舊的 CPU——左側(cè)的 2600 采用所謂的 Zen+ 架構(gòu),右側(cè)的 3600 采用 Zen 2 架構(gòu)。
兩種型號的散熱器均已拆除,照片是使用紅外攝像機拍攝的。2600 的單個芯片內(nèi)有 8 個內(nèi)核,但此特定型號禁用了其中兩個內(nèi)核。
來源:Fritzchen Fritz
3600 也是如此,但在這里我們可以看到封裝中有兩個芯片——頂部的核心復合芯片 (CCD),包含核心和緩存,底部的輸入/輸出芯片 (IOD) 包含所有控制器(用于內(nèi)存、PCI Express、USB 等)和物理接口。
由于兩款 Ryzen CPU 都安裝在同一個主板插槽中,因此兩張圖片基本上是按比例繪制的。從表面上看,3600 中的兩個芯片的總面積似乎比 2600 中的單個芯片要大,但外表可能具有欺騙性。
如果我們直接比較包含核心的芯片,就會清楚舊型號中模擬電路占用了多少空間——所有藍綠色都圍繞著金色核心和緩存。然而,在 Zen 2 CCD 中,只有極小的芯片區(qū)域?qū)S糜谀M系統(tǒng);它幾乎完全由邏輯和 SRAM 組成。
Zen+ 芯片面積為 213 平方毫米,由 GlobalFoundries 使用其 12nm 工藝節(jié)點制造。對于 Zen 2,AMD 保留了 GlobalFoundries 為 125 平方毫米 IOD 提供的服務,但利用臺積電更先進的 N7 節(jié)點為 73 平方毫米 CCD 提供服務。
Zen+(上)與 Zen 2 CCD(下)
新款芯片的總面積更小,L3 緩存也增加了一倍,支持更快的內(nèi)存和 PCI Express。不過,小芯片方法的最大優(yōu)點是 CCD 的緊湊尺寸使 AMD 能夠在封裝中再裝一個。這一發(fā)展催生了 Ryzen 9 系列,為臺式電腦提供 12 核和 16 核型號。
更妙的是,通過使用兩個較小的芯片而不是一個大芯片,每個晶圓可以產(chǎn)生更多的芯片。以 Zen 2 CCD 為例,單個 12 英寸(300 毫米)晶圓可以比 Zen+ 型號多產(chǎn)生 85% 的芯片。
從晶圓上切下的切片越小,發(fā)現(xiàn)制造缺陷的可能性就越?。ㄒ驗樗鼈兺S機分布在光盤上),因此考慮到所有這些因素,小芯片方法不僅使 AMD 能夠擴展其產(chǎn)品組合,而且成本效益更高——相同的 CCD 可用于多種型號,每個晶圓可生產(chǎn)數(shù)百個 CCD!
但如果這種設(shè)計選擇如此有利,為什么英特爾不這樣做呢?為什么我們沒有看到它被用在其他處理器上,比如 GPU 上?
跟隨領(lǐng)先
為了回答第一個問題,英特爾也在逐步采用小芯片技術(shù)。他們推出的第一款使用小芯片的消費級 CPU 架構(gòu)名為 Meteor Lake。不過,英特爾的方法有些獨特,所以讓我們來探索一下它與 AMD 的方法有何不同。
這一代處理器使用術(shù)語「tile」而不是「chiplet」,將之前的單片設(shè)計分成四個獨立的芯片:
計算塊:包含所有核心和 L2 緩存
GFX 模塊:容納集成 GPU
SoC 模塊:集成 L3 緩存、PCI Express 和其他控制器
IO 塊:容納內(nèi)存和其他設(shè)備的物理接口
SoC 與其他三個塊之間存在高速、低延遲連接,并且它們都連接到另一個稱為中介層的芯片。該中介層為每個芯片供電,并包含它們之間的走線。然后將中介層和四個塊安裝到另一塊板上,以便封裝整個組件。
與英特爾不同,AMD 不使用任何特殊的安裝芯片,而是擁有自己獨特的連接系統(tǒng)(稱為 Infinity Fabric)來處理芯片數(shù)據(jù)交易。電力傳輸通過一個相當標準的封裝進行,AMD 使用的芯片也更少。那么為什么英特爾會這樣設(shè)計呢?
AMD 的方法面臨的一個挑戰(zhàn)是,它不太適合超移動、低功耗領(lǐng)域。這就是為什么 AMD 仍然在該領(lǐng)域使用單片 CPU 的原因。英特爾的設(shè)計允許他們混合搭配不同的芯片以滿足特定需求。例如,經(jīng)濟實惠的筆記本電腦的預算型號可以在任何地方使用小得多的芯片,而 AMD 為每個用途只提供一種尺寸的芯片。
英特爾系統(tǒng)的缺點是生產(chǎn)起來復雜且成本高昂(這導致了不同類型的問題)。然而,這兩家 CPU 公司都完全致力于小芯片概念。一旦制造鏈的每個部分都圍繞它進行設(shè)計,成本就會降低。
說到 GPU,與芯片的其余部分相比,它們包含的模擬電路相對較少。但是,內(nèi)部的 SRAM 數(shù)量一直在穩(wěn)步增加。這一趨勢促使 AMD 在 Radeon 7000 系列中利用其芯片專業(yè)知識,其中 Radeon RX 7900 GPU 具有多芯片設(shè)計。這些 GPU 包括一個用于核心和 L2 緩存的大型芯片,以及五到六個較小的芯片,每個芯片包含一個 L3 緩存和一個內(nèi)存控制器。
通過將這些組件移出主芯片,工程師能夠顯著增加邏輯數(shù)量,而無需依賴最新、最昂貴的工藝節(jié)點來保持芯片尺寸可控。雖然這項創(chuàng)新可能有助于降低總體成本,但它并沒有顯著擴大 AMD 圖形產(chǎn)品組合的廣度。
目前,英偉達和 Intel 的消費級 GPU 尚未顯示出采用 AMD 芯片方案的跡象。兩家公司都依賴臺積電完成所有制造任務,似乎滿足于生產(chǎn)超大芯片,并將成本轉(zhuǎn)嫁給消費者。
盡管如此,據(jù)悉,兩家公司都在積極探索和實施基于芯片的架構(gòu),并將其應用于部分 GPU 設(shè)計中。例如,英偉達的 Blackwell 數(shù)據(jù)中心 GPU 采用芯片設(shè)計,其中兩個大型芯片通過每秒 10 TB 的高速互連連接,可有效充當單個 GPU。
利用 Chiplet 實現(xiàn)「摩爾定律」
無論這些變化何時發(fā)生,基本事實是它們必須發(fā)生。盡管半導體制造技術(shù)取得了巨大進步,但每個元件的縮小程度還是有一定限度的。
為了繼續(xù)提高芯片性能,工程師基本上有兩種途徑——增加更多邏輯,并增加支持邏輯所需的內(nèi)存,以及提高內(nèi)部時鐘速度。關(guān)于后者,普通 CPU 多年來在這方面并沒有顯著改變。AMD 的 FX-9590 處理器(2013 年推出)在某些工作負載下可以達到 5 GHz,而其當前型號的最高時鐘速度為 5.7 GHz(使用 Ryzen 9 9950X)。
英特爾最高主頻的消費級 CPU 是酷睿 i9-14900KS,雙核最高睿頻可達 6.2 GHz。這款「特別版」處理器保持著臺式機 CPU 中開箱即用主頻最快的記錄。
然而,電路和 SRAM 的數(shù)量有所變化。前面提到的 AMD FX-9590 有 8 個內(nèi)核(和 8 個線程)和 8 MB 的 L3 緩存,而 9950X 擁有 16 個內(nèi)核、32 個線程和 64 MB 的 L3 緩存。英特爾的 CPU 在內(nèi)核和 SRAM 方面也有類似的擴展。
英偉達的首款統(tǒng)一著色器 GPU 是 2006 年推出的 G80,它在一個面積為 484 平方毫米的芯片上包含 6.81 億個晶體管、128 個內(nèi)核和 96 KB 的二級緩存??爝M到 2022 年,AD102 推出時,它現(xiàn)在在 608 平方毫米的芯片面積內(nèi)包含 763 億個晶體管、18,432 個內(nèi)核和 98,304 KB 的二級緩存。
1965 年,仙童半導體公司聯(lián)合創(chuàng)始人戈登·摩爾 (Gordon Moore) 發(fā)現(xiàn),在芯片制造的早期,芯片內(nèi)部元件的密度每年都會翻一番,而最低生產(chǎn)成本是固定的。這一觀察結(jié)果被稱為摩爾定律,后來根據(jù)制造趨勢被解釋為「芯片中晶體管的數(shù)量每兩年翻一番」。
近六十年來,摩爾定律一直相當準確地代表著半導體行業(yè)的進步。CPU 和 GPU 的邏輯和內(nèi)存的巨大進步很大程度上得益于工藝節(jié)點的不斷改進,隨著時間的推移,組件變得越來越小。然而,無論出現(xiàn)什么新技術(shù),這種趨勢都不可能永遠持續(xù)下去。
像 AMD 和英特爾這樣的公司并沒有等待這些物理極限被達到,而是采用了小芯片技術(shù),探索將這些模塊化組件組合起來的創(chuàng)新方法,以支持日益強大的處理器的創(chuàng)造。
幾十年后,普通 PC 可能會配備手掌大小的 CPU 和 GPU。但是,剝開散熱器,你會發(fā)現(xiàn)許多微型芯片——不是三四個,而是幾十個,它們都巧妙地平鋪和堆疊在一起。小芯片的主導地位才剛剛開始。
評論