Chiplet，至關(guān)重要

作者：techspot 時(shí)間：2025-01-06 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

雖然小芯片 (Chiplet) 已經(jīng)存在了幾十年，但如今它們已成為芯片制造領(lǐng)域最熱門的趨勢(shì)，為從個(gè)人電腦到服務(wù)器、手機(jī)和可穿戴設(shè)備等數(shù)百萬(wàn)臺(tái)設(shè)備提供動(dòng)力。

本文引用地址：http://www.butianyuan.cn/article/202501/466013.htm

雖然小芯片已經(jīng)存在了幾十年，但其使用在歷史上僅限于特定的專業(yè)應(yīng)用。然而，如今它們處于技術(shù)的最前沿，為全球數(shù)百萬(wàn)臺(tái)臺(tái)式電腦、工作站、服務(wù)器、游戲機(jī)、手機(jī)甚至可穿戴設(shè)備提供支持。

短短幾年間，大多數(shù)領(lǐng)先的芯片制造商都已采用小芯片技術(shù)來(lái)推動(dòng)創(chuàng)新。現(xiàn)在很明顯，小芯片即將成為行業(yè)標(biāo)準(zhǔn)。讓我們來(lái)探索一下是什么讓它們?nèi)绱酥匾?，以及它們?nèi)绾嗡茉旒夹g(shù)的未來(lái)。

什么是 Chiplet？

芯片組是分段式處理器。它不是將每個(gè)部分整合到單個(gè)芯片中（稱為單片方法），而是將特定部分制造為單獨(dú)的芯片。然后使用復(fù)雜的連接系統(tǒng)將這些單獨(dú)的芯片安裝到單個(gè)封裝中。

這種安排使得受益于最新制造方法的部件尺寸縮小，提高了工藝效率，并使其能夠容納更多的組件。

硅科學(xué)

要充分理解處理器制造商為何轉(zhuǎn)向使用小芯片，我們必須首先深入研究這些設(shè)備是如何制造的。CPU 和 GPU 最初是由超純硅制成的大圓盤，直徑通常略小于 12 英寸（300 毫米），厚度為 0.04 英寸（1 毫米）。

硅片經(jīng)過(guò)一系列復(fù)雜的工序，形成多層不同的材料層——絕緣體、電介質(zhì)和金屬。這些層的圖案是通過(guò)一種稱為光刻的工藝創(chuàng)建的，其中紫外線照射到放大的圖案（掩模版）上，然后通過(guò)透鏡縮小到所需的尺寸。

這種圖案以一定的間隔在晶圓表面重復(fù)出現(xiàn)，最終每個(gè)圖案都會(huì)變成一個(gè)處理器。由于芯片是矩形的，而晶圓是圓形的，因此圖案必須與光盤的周邊重疊。這些重疊部分最終會(huì)被丟棄，因?yàn)樗鼈儧](méi)有功能。

完成后，使用探針對(duì)每個(gè)芯片進(jìn)行測(cè)試。電氣檢查結(jié)果會(huì)根據(jù)一系列標(biāo)準(zhǔn)告知工程師處理器的質(zhì)量。這個(gè)初始階段稱為芯片分級(jí)，有助于確定處理器的「等級(jí)」。

例如，如果芯片要用作 CPU，則每個(gè)部件都應(yīng)正常工作，在特定電壓下在一定范圍的時(shí)鐘速度內(nèi)運(yùn)行。然后根據(jù)這些測(cè)試結(jié)果對(duì)每個(gè)晶圓部分進(jìn)行分類。

完成后，晶圓被切割成可供使用的單個(gè)部件，即「芯片」。然后，這些芯片被安裝到類似于專用主板的基板上。處理器在準(zhǔn)備分發(fā)之前還要經(jīng)過(guò)進(jìn)一步的封裝（例如，使用散熱器）。

整個(gè)過(guò)程可能需要數(shù)周的制造時(shí)間，臺(tái)積電和三星等公司對(duì)每片晶圓收取的費(fèi)用很高，根據(jù)所使用的工藝節(jié)點(diǎn)，費(fèi)用在 3,000 美元到 20,000 美元之間。

「工藝節(jié)點(diǎn)」是用來(lái)描述整個(gè)制造系統(tǒng)的術(shù)語(yǔ)。從歷史上看，它們以晶體管的柵極長(zhǎng)度命名。然而，隨著制造技術(shù)的進(jìn)步和元件尺寸的不斷縮小，命名不再遵循芯片的任何物理方面，現(xiàn)在它只是一種營(yíng)銷工具。

盡管如此，每個(gè)新的工藝節(jié)點(diǎn)都比其前身帶來(lái)好處。它可能生產(chǎn)成本更低、在相同時(shí)鐘速度下消耗更少的功率（反之亦然），或者密度更高。后一個(gè)指標(biāo)衡量給定芯片面積內(nèi)可以容納多少個(gè)組件。在下圖中，您可以看到 GPU（PC 中最大、最復(fù)雜的芯片）多年來(lái)的發(fā)展情況……

工藝節(jié)點(diǎn)的改進(jìn)為工程師提供了一種提高產(chǎn)品功能和性能的方法，而無(wú)需使用大而昂貴的芯片。然而，上圖只展示了部分情況，因?yàn)椴⒎翘幚砥鞯拿總€(gè)方面都能從這些進(jìn)步中受益。

芯片內(nèi)的電路可分為以下幾大類：

邏輯——處理數(shù)據(jù)、數(shù)學(xué)和決策
內(nèi)存——通常是 SRAM，用于存儲(chǔ)邏輯數(shù)據(jù)
模擬——管理芯片與其他設(shè)備之間的信號(hào)的電路

不幸的是，雖然隨著工藝節(jié)點(diǎn)技術(shù)的每一次重大進(jìn)步，邏輯電路的體積都在不斷縮小，但模擬電路卻幾乎沒(méi)有變化，而 SRAM 也開始達(dá)到極限。

雖然邏輯仍然占據(jù)芯片的最大部分，但近年來(lái)，當(dāng)今 CPU 和 GPU 中的 SRAM 數(shù)量已顯著增加。例如，AMD 在其 Radeon VII 顯卡（2019 年）中使用的 Vega 20 芯片總共具有 5 MB 的 L1 和 L2 緩存。僅僅兩代 GPU 之后，為 Radeon RX 6000 系列（2020 年）提供支持的 Navi 21 芯片就包含超過(guò) 130 MB 的組合緩存——顯著增加了 25 倍。

隨著新一代處理器的開發(fā)，我們可以預(yù)計(jì)這些成本將繼續(xù)增加，但由于內(nèi)存的縮小幅度不如邏輯的縮小幅度，在同一工藝節(jié)點(diǎn)上制造所有電路的成本效益將越來(lái)越低。

在理想情況下，人們會(huì)設(shè)計(jì)一個(gè)芯片，其中模擬部分在最大和最便宜的節(jié)點(diǎn)上制造，SRAM 部分在小得多的節(jié)點(diǎn)上制造，邏輯部分則保留給絕對(duì)尖端技術(shù)。不幸的是，這在實(shí)踐中無(wú)法實(shí)現(xiàn)。不過(guò)，還有另一種方法。

分而治之

1995 年，英特爾推出了 Pentium II，這是其原始 P5 處理器的繼任者。它與當(dāng)時(shí)其他處理器的不同之處在于隱藏在塑料外殼下的設(shè)計(jì)：一塊電路板容納兩個(gè)芯片。主芯片包含所有處理邏輯和模擬系統(tǒng)，而一個(gè)或兩個(gè)獨(dú)立的 SRAM 模塊用作二級(jí)緩存。

雖然主芯片由英特爾制造，但緩存來(lái)自外部供應(yīng)商。這種方法在 20 世紀(jì) 90 年代中后期成為臺(tái)式電腦的標(biāo)準(zhǔn)配置，直到半導(dǎo)體制造技術(shù)的進(jìn)步使得邏輯、內(nèi)存和模擬系統(tǒng)能夠完全集成到單個(gè)芯片中。

英特爾奔騰 II – 中央處理器在中間，緩存芯片在右邊。

雖然英特爾繼續(xù)嘗試在同一封裝中集成多個(gè)芯片，但它在很大程度上堅(jiān)持所謂的單片處理器方法，即一個(gè)芯片可以實(shí)現(xiàn)所有功能。對(duì)于大多數(shù)處理器而言，不需要多個(gè)芯片，因?yàn)橹圃旒夹g(shù)足夠精湛（且價(jià)格合理），可以保持簡(jiǎn)單。

然而，其他公司對(duì)采用多芯片方法更感興趣，其中最著名的是 IBM。2004 年，人們可以購(gòu)買 POWER4 服務(wù)器 CPU 的 8 芯片版本，該版本包含四個(gè)處理器和四個(gè)緩存模塊，全部安裝在同一機(jī)箱內(nèi)（稱為多芯片模塊或 MCM 方法）。

大約在這個(gè)時(shí)候，「異構(gòu)集成」一詞開始出現(xiàn)，部分原因是 DARPA 所做的研究工作。異構(gòu)集成旨在將處理系統(tǒng)的各個(gè)部分分開，在最適合每個(gè)部分的節(jié)點(diǎn)上單獨(dú)制造，然后將它們組合到同一個(gè)封裝中。

如今，這種技術(shù)更廣為人知的名字是系統(tǒng)級(jí)封裝 (SiP)，自誕生之日起就一直是智能手表配備芯片的標(biāo)準(zhǔn)方法。例如，Apple Watch Series 1 就在一個(gè)結(jié)構(gòu)內(nèi)安裝了一個(gè) CPU、一些 DRAM 和 NAND 閃存、多個(gè)控制器和其他組件。

Apple S1 SiP 的 X 光照片。來(lái)源：iFixit

通過(guò)將不同的系統(tǒng)全部放在一個(gè)芯片上（稱為 SoC 或片上系統(tǒng)）可以實(shí)現(xiàn)類似的設(shè)置。但是，這種方法無(wú)法利用不同的節(jié)點(diǎn)價(jià)格，也無(wú)法以這種方式制造每個(gè)組件。

對(duì)于技術(shù)供應(yīng)商來(lái)說(shuō)，將異構(gòu)集成用于小眾產(chǎn)品是一回事，但將其用于大多數(shù)產(chǎn)品組合又是另一回事。這正是 AMD 對(duì)其處理器系列所做的。2017 年，這家半導(dǎo)體巨頭推出了單芯片 Ryzen 臺(tái)式機(jī) CPU，并推出了 Zen 架構(gòu)。僅僅幾個(gè)月后，AMD 就推出了兩條多芯片產(chǎn)品線：Threadripper 和 EPYC，后者的配置最多可達(dá)四個(gè)芯片。

兩年后，隨著 Zen 2 的推出，AMD 全面擁抱了 HI、MCM、SiP（隨便你怎么稱呼它們）。他們將大部分模擬系統(tǒng)從處理器中移出，并將它們放入單獨(dú)的芯片中。這些芯片采用更簡(jiǎn)單、更便宜的工藝節(jié)點(diǎn)制造，而其余邏輯和緩存則采用更先進(jìn)的工藝節(jié)點(diǎn)。因此，小芯片成為了流行的流行詞。

越小越好

為了準(zhǔn)確理解 AMD 選擇這個(gè)方向的原因，讓我們來(lái)看看下面的圖片。它展示了 Ryzen 5 系列的兩款較舊的 CPU——左側(cè)的 2600 采用所謂的 Zen+ 架構(gòu)，右側(cè)的 3600 采用 Zen 2 架構(gòu)。

兩種型號(hào)的散熱器均已拆除，照片是使用紅外攝像機(jī)拍攝的。2600 的單個(gè)芯片內(nèi)有 8 個(gè)內(nèi)核，但此特定型號(hào)禁用了其中兩個(gè)內(nèi)核。

來(lái)源：Fritzchen Fritz

3600 也是如此，但在這里我們可以看到封裝中有兩個(gè)芯片——頂部的核心復(fù)合芯片 (CCD)，包含核心和緩存，底部的輸入/輸出芯片 (IOD) 包含所有控制器（用于內(nèi)存、PCI Express、USB 等）和物理接口。

由于兩款 Ryzen CPU 都安裝在同一個(gè)主板插槽中，因此兩張圖片基本上是按比例繪制的。從表面上看，3600 中的兩個(gè)芯片的總面積似乎比 2600 中的單個(gè)芯片要大，但外表可能具有欺騙性。

如果我們直接比較包含核心的芯片，就會(huì)清楚舊型號(hào)中模擬電路占用了多少空間——所有藍(lán)綠色都圍繞著金色核心和緩存。然而，在 Zen 2 CCD 中，只有極小的芯片區(qū)域?qū)Ｓ糜谀M系統(tǒng)；它幾乎完全由邏輯和 SRAM 組成。

Zen+ 芯片面積為 213 平方毫米，由 GlobalFoundries 使用其 12nm 工藝節(jié)點(diǎn)制造。對(duì)于 Zen 2，AMD 保留了 GlobalFoundries 為 125 平方毫米 IOD 提供的服務(wù)，但利用臺(tái)積電更先進(jìn)的 N7 節(jié)點(diǎn)為 73 平方毫米 CCD 提供服務(wù)。

Zen+（上）與 Zen 2 CCD（下）

新款芯片的總面積更小，L3 緩存也增加了一倍，支持更快的內(nèi)存和 PCI Express。不過(guò)，小芯片方法的最大優(yōu)點(diǎn)是 CCD 的緊湊尺寸使 AMD 能夠在封裝中再裝一個(gè)。這一發(fā)展催生了 Ryzen 9 系列，為臺(tái)式電腦提供 12 核和 16 核型號(hào)。

更妙的是，通過(guò)使用兩個(gè)較小的芯片而不是一個(gè)大芯片，每個(gè)晶圓可以產(chǎn)生更多的芯片。以 Zen 2 CCD 為例，單個(gè) 12 英寸（300 毫米）晶圓可以比 Zen+ 型號(hào)多產(chǎn)生 85% 的芯片。

從晶圓上切下的切片越小，發(fā)現(xiàn)制造缺陷的可能性就越小（因?yàn)樗鼈兺S機(jī)分布在光盤上），因此考慮到所有這些因素，小芯片方法不僅使 AMD 能夠擴(kuò)展其產(chǎn)品組合，而且成本效益更高——相同的 CCD 可用于多種型號(hào)，每個(gè)晶圓可生產(chǎn)數(shù)百個(gè) CCD！

但如果這種設(shè)計(jì)選擇如此有利，為什么英特爾不這樣做呢？為什么我們沒(méi)有看到它被用在其他處理器上，比如 GPU 上？

跟隨領(lǐng)先

為了回答第一個(gè)問(wèn)題，英特爾也在逐步采用小芯片技術(shù)。他們推出的第一款使用小芯片的消費(fèi)級(jí) CPU 架構(gòu)名為 Meteor Lake。不過(guò)，英特爾的方法有些獨(dú)特，所以讓我們來(lái)探索一下它與 AMD 的方法有何不同。

這一代處理器使用術(shù)語(yǔ)「tile」而不是「chiplet」，將之前的單片設(shè)計(jì)分成四個(gè)獨(dú)立的芯片：

計(jì)算塊：包含所有核心和 L2 緩存
GFX 模塊：容納集成 GPU
SoC 模塊：集成 L3 緩存、PCI Express 和其他控制器
IO 塊：容納內(nèi)存和其他設(shè)備的物理接口

SoC 與其他三個(gè)塊之間存在高速、低延遲連接，并且它們都連接到另一個(gè)稱為中介層的芯片。該中介層為每個(gè)芯片供電，并包含它們之間的走線。然后將中介層和四個(gè)塊安裝到另一塊板上，以便封裝整個(gè)組件。

與英特爾不同，AMD 不使用任何特殊的安裝芯片，而是擁有自己獨(dú)特的連接系統(tǒng)（稱為 Infinity Fabric）來(lái)處理芯片數(shù)據(jù)交易。電力傳輸通過(guò)一個(gè)相當(dāng)標(biāo)準(zhǔn)的封裝進(jìn)行，AMD 使用的芯片也更少。那么為什么英特爾會(huì)這樣設(shè)計(jì)呢？

AMD 的方法面臨的一個(gè)挑戰(zhàn)是，它不太適合超移動(dòng)、低功耗領(lǐng)域。這就是為什么 AMD 仍然在該領(lǐng)域使用單片 CPU 的原因。英特爾的設(shè)計(jì)允許他們混合搭配不同的芯片以滿足特定需求。例如，經(jīng)濟(jì)實(shí)惠的筆記本電腦的預(yù)算型號(hào)可以在任何地方使用小得多的芯片，而 AMD 為每個(gè)用途只提供一種尺寸的芯片。

英特爾系統(tǒng)的缺點(diǎn)是生產(chǎn)起來(lái)復(fù)雜且成本高昂（這導(dǎo)致了不同類型的問(wèn)題）。然而，這兩家 CPU 公司都完全致力于小芯片概念。一旦制造鏈的每個(gè)部分都圍繞它進(jìn)行設(shè)計(jì)，成本就會(huì)降低。

說(shuō)到 GPU，與芯片的其余部分相比，它們包含的模擬電路相對(duì)較少。但是，內(nèi)部的 SRAM 數(shù)量一直在穩(wěn)步增加。這一趨勢(shì)促使 AMD 在 Radeon 7000 系列中利用其芯片專業(yè)知識(shí)，其中 Radeon RX 7900 GPU 具有多芯片設(shè)計(jì)。這些 GPU 包括一個(gè)用于核心和 L2 緩存的大型芯片，以及五到六個(gè)較小的芯片，每個(gè)芯片包含一個(gè) L3 緩存和一個(gè)內(nèi)存控制器。

通過(guò)將這些組件移出主芯片，工程師能夠顯著增加邏輯數(shù)量，而無(wú)需依賴最新、最昂貴的工藝節(jié)點(diǎn)來(lái)保持芯片尺寸可控。雖然這項(xiàng)創(chuàng)新可能有助于降低總體成本，但它并沒(méi)有顯著擴(kuò)大 AMD 圖形產(chǎn)品組合的廣度。

目前，英偉達(dá)和 Intel 的消費(fèi)級(jí) GPU 尚未顯示出采用 AMD 芯片方案的跡象。兩家公司都依賴臺(tái)積電完成所有制造任務(wù)，似乎滿足于生產(chǎn)超大芯片，并將成本轉(zhuǎn)嫁給消費(fèi)者。

盡管如此，據(jù)悉，兩家公司都在積極探索和實(shí)施基于芯片的架構(gòu)，并將其應(yīng)用于部分 GPU 設(shè)計(jì)中。例如，英偉達(dá)的 Blackwell 數(shù)據(jù)中心 GPU 采用芯片設(shè)計(jì)，其中兩個(gè)大型芯片通過(guò)每秒 10 TB 的高速互連連接，可有效充當(dāng)單個(gè) GPU。

利用 Chiplet 實(shí)現(xiàn)「摩爾定律」

無(wú)論這些變化何時(shí)發(fā)生，基本事實(shí)是它們必須發(fā)生。盡管半導(dǎo)體制造技術(shù)取得了巨大進(jìn)步，但每個(gè)元件的縮小程度還是有一定限度的。

為了繼續(xù)提高芯片性能，工程師基本上有兩種途徑——增加更多邏輯，并增加支持邏輯所需的內(nèi)存，以及提高內(nèi)部時(shí)鐘速度。關(guān)于后者，普通 CPU 多年來(lái)在這方面并沒(méi)有顯著改變。AMD 的 FX-9590 處理器（2013 年推出）在某些工作負(fù)載下可以達(dá)到 5 GHz，而其當(dāng)前型號(hào)的最高時(shí)鐘速度為 5.7 GHz（使用 Ryzen 9 9950X）。

英特爾最高主頻的消費(fèi)級(jí) CPU 是酷睿 i9-14900KS，雙核最高睿頻可達(dá) 6.2 GHz。這款「特別版」處理器保持著臺(tái)式機(jī) CPU 中開箱即用主頻最快的記錄。

然而，電路和 SRAM 的數(shù)量有所變化。前面提到的 AMD FX-9590 有 8 個(gè)內(nèi)核（和 8 個(gè)線程）和 8 MB 的 L3 緩存，而 9950X 擁有 16 個(gè)內(nèi)核、32 個(gè)線程和 64 MB 的 L3 緩存。英特爾的 CPU 在內(nèi)核和 SRAM 方面也有類似的擴(kuò)展。

英偉達(dá)的首款統(tǒng)一著色器 GPU 是 2006 年推出的 G80，它在一個(gè)面積為 484 平方毫米的芯片上包含 6.81 億個(gè)晶體管、128 個(gè)內(nèi)核和 96 KB 的二級(jí)緩存?？爝M(jìn)到 2022 年，AD102 推出時(shí)，它現(xiàn)在在 608 平方毫米的芯片面積內(nèi)包含 763 億個(gè)晶體管、18,432 個(gè)內(nèi)核和 98,304 KB 的二級(jí)緩存。

1965 年，仙童半導(dǎo)體公司聯(lián)合創(chuàng)始人戈登·摩爾 (Gordon Moore) 發(fā)現(xiàn)，在芯片制造的早期，芯片內(nèi)部元件的密度每年都會(huì)翻一番，而最低生產(chǎn)成本是固定的。這一觀察結(jié)果被稱為摩爾定律，后來(lái)根據(jù)制造趨勢(shì)被解釋為「芯片中晶體管的數(shù)量每?jī)赡攴环埂?/p>

近六十年來(lái)，摩爾定律一直相當(dāng)準(zhǔn)確地代表著半導(dǎo)體行業(yè)的進(jìn)步。CPU 和 GPU 的邏輯和內(nèi)存的巨大進(jìn)步很大程度上得益于工藝節(jié)點(diǎn)的不斷改進(jìn)，隨著時(shí)間的推移，組件變得越來(lái)越小。然而，無(wú)論出現(xiàn)什么新技術(shù)，這種趨勢(shì)都不可能永遠(yuǎn)持續(xù)下去。

像 AMD 和英特爾這樣的公司并沒(méi)有等待這些物理極限被達(dá)到，而是采用了小芯片技術(shù)，探索將這些模塊化組件組合起來(lái)的創(chuàng)新方法，以支持日益強(qiáng)大的處理器的創(chuàng)造。

幾十年后，普通 PC 可能會(huì)配備手掌大小的 CPU 和 GPU。但是，剝開散熱器，你會(huì)發(fā)現(xiàn)許多微型芯片——不是三四個(gè)，而是幾十個(gè)，它們都巧妙地平鋪和堆疊在一起。小芯片的主導(dǎo)地位才剛剛開始。

新聞中心