Chiplet 技術(shù)取得進(jìn)展
在互聯(lián)技術(shù)、復(fù)雜分區(qū)技術(shù)以及行業(yè)經(jīng)驗(yàn)的推動(dòng)下,將 SoC 分解成各個(gè)組件,并將這些組件和其他組件組裝成某種類型的異構(gòu)組件已初具雛形。
本文引用地址:http://butianyuan.cn/article/202411/464358.htm雖然即插即用的愿景依然不變,但實(shí)現(xiàn)這一目標(biāo)遠(yuǎn)比最初想象的要復(fù)雜得多。它會(huì)因應(yīng)用和工作負(fù)載的不同而有很大差異,進(jìn)而會(huì)影響時(shí)序、延遲和成本。此外,它還會(huì)因封裝類型、是否包含人工智能、調(diào)度和優(yōu)先級(jí)排序所需軟件的數(shù)量以及所使用的互聯(lián)類型而有所不同。
Arm 系統(tǒng)架構(gòu)師兼研究員羅布·迪蒙德表示,互聯(lián)技術(shù)是粘合劑。它們包括片上網(wǎng)絡(luò),即位于 Chiplet 上的所有其他互聯(lián),以及 UCIe 芯片間連接,后者負(fù)責(zé)芯片間數(shù)據(jù)傳輸?;ヂ?lián)技術(shù)還與其他高速接口協(xié)同工作,將數(shù)據(jù)從一個(gè)邊界傳輸?shù)搅硪粋€(gè)邊界。
Cadence 高級(jí)產(chǎn)品營(yíng)銷集團(tuán)總監(jiān)阿里夫·汗說(shuō):「芯片組互連的根本挑戰(zhàn)在于了解如何進(jìn)行分解。你正在分割你的計(jì)算和數(shù)據(jù)流問(wèn)題。你的架構(gòu)是怎樣的?你是如何劃分的?你有芯片組內(nèi)的數(shù)據(jù)流,還有跨芯片組的數(shù)據(jù)流。這取決于數(shù)據(jù)的去向和背景。例如,你要解決的問(wèn)題是什么?如果是 GPU 類型的應(yīng)用,那么單個(gè) GPU 將無(wú)法容納如此龐大的語(yǔ)言模型。你需要的是一個(gè)由數(shù)百萬(wàn)個(gè) GPU 組成的人工智能工廠。然后,你會(huì)看到不同的一致性模型。事實(shí)上,即使是標(biāo)準(zhǔn)協(xié)議也無(wú)法滿足要求。」
目前,這些互聯(lián)通常是導(dǎo)線(盡管未來(lái)在封裝之間甚至封裝內(nèi)部可能會(huì)有光互聯(lián),或是二者的某種組合)。但并不是所有的導(dǎo)線都有相同的表現(xiàn)。它們可以有不同的直徑,以不同的密度排列,具有不同的絕緣層,甚至使用不同的材料。
Blue Cheetah 首席執(zhí)行官兼聯(lián)合創(chuàng)始人埃拉德·阿隆表示:「你能獲得的導(dǎo)線數(shù)量以及這些導(dǎo)線的特性都大不相同?!高@就是促使你必須以不同方式做事的原因。另一方面,人們通常希望隔離芯片組邊界的時(shí)序接口,這從根本上說(shuō)并不是物理學(xué)驅(qū)動(dòng)的,而更多是實(shí)際工程驅(qū)動(dòng)的。當(dāng) Chiplet 采用 2.5D 或 3D 封裝時(shí),會(huì)有一些操作空間,但通常的設(shè)計(jì)決定是將這些時(shí)序接口相互隔離。這主要是因?yàn)樾酒谖锢砩媳环指粼诓煌男酒?。我不想做這種多重跨芯片時(shí)序閉合的工作。這并不是說(shuō)不能做,只是出于現(xiàn)實(shí)的原因人們不愿意這么做。這也是芯片組互連與芯片上互連不同的地方。片上互連是在單個(gè)時(shí)鐘域內(nèi)進(jìn)行的,可以由更「標(biāo)準(zhǔn)」的「放置-路由」類型的流程驅(qū)動(dòng)。但是,由于導(dǎo)線數(shù)量較少,因此需要更快地運(yùn)行這些導(dǎo)線。隔離式定時(shí)接口正是模擬人員實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵所在。顯然,它需要盡可能低的面積和功耗?!?/p>
由于 Chiplet 互聯(lián)需要跨芯片傳輸數(shù)據(jù),因此這些物理接口通常速度非常快但相對(duì)較窄。然而,與 SoC 互聯(lián)不同,Chiplet 互聯(lián)通常是像通信協(xié)議一樣進(jìn)行分組化的,而不太像片上總線。
Arteris 產(chǎn)品經(jīng)理阿什利·史蒂文斯解釋道:「Chiplet 互聯(lián)通常允許數(shù)據(jù)以分組化的格式通過(guò)芯片間鏈路在非常寬的接口上發(fā)送,數(shù)據(jù)可以序列化并通過(guò)鏈路發(fā)送。芯片間互聯(lián)需要支持各種旁帶信號(hào),這在 SoC 中通常通過(guò)點(diǎn)對(duì)點(diǎn)信號(hào)(如中斷和電源管理)來(lái)處理。這些也需要通過(guò)與普通內(nèi)存和外設(shè)事務(wù)相同的鏈路以分組化的格式從芯片傳輸?shù)叫酒虼瞬粦?yīng)被忽略?!?/p>
這些互聯(lián)還需要與應(yīng)用相匹配。「Chiplet 需要一種在關(guān)鍵參數(shù)上表現(xiàn)出色的高效芯片間(D2D)互聯(lián),」Alphawave Semi 產(chǎn)品營(yíng)銷和管理副總裁萊蒂齊亞·朱利亞諾表示?!肝覀冃枰獮樾酒g互聯(lián)的 Chiplet 應(yīng)用進(jìn)行定制,以優(yōu)化給定封裝系統(tǒng)中該接口的總擁有成本。面積效率以帶寬海岸線密度來(lái)衡量,它能使每毫米岸線上的數(shù)據(jù)達(dá)到最高的 Tb/s。功率即能效,并且每比特焦耳需要盡可能低。當(dāng)我們?cè)?Chiplet 中使用 D2D 互聯(lián)時(shí),會(huì)造成 I/O 電路的重復(fù)。物理層和數(shù)字邏輯都會(huì)增加,它們需要減少對(duì)總體功耗預(yù)算的影響,并符合總體總擁有成本。」
延遲是一個(gè)關(guān)鍵的性能指標(biāo),發(fā)射器(TX)加接收器(RX)的傳輸時(shí)間需要最小化?!窪2D 互聯(lián)的設(shè)計(jì)必須在電路復(fù)雜性和 PPA(性能、功耗和面積)之間取得微妙的平衡,做到同類最佳,」朱利亞諾說(shuō)。「這可以確保我們不會(huì)過(guò)度增大電路尺寸而忽略應(yīng)用空間。例如,具有單端架構(gòu)和良好電壓調(diào)節(jié)平衡的簡(jiǎn)單接口有助于提高電源效率。同時(shí),模擬 TX 和 RX 中的緊湊電路需要對(duì)失配和噪聲進(jìn)行仔細(xì)研究?!?/p>
要最大限度地發(fā)揮異構(gòu)集成的優(yōu)勢(shì),就必須深入了解終端應(yīng)用和工作負(fù)載,以及如何最好地為特定領(lǐng)域設(shè)計(jì)解決方案?!肝覀儾荒芘c應(yīng)用空間脫節(jié),也不能將總體擁有成本降至最低,因此 D2D 架構(gòu)需要針對(duì)不同類型的封裝和凸點(diǎn)間距進(jìn)行設(shè)計(jì)?!怪炖麃喼Z指出:「在設(shè)計(jì)系統(tǒng)時(shí),我們需要考慮所有的電路損傷,以實(shí)現(xiàn)現(xiàn)實(shí)可行的實(shí)施。我們正在從芯片轉(zhuǎn)向封裝。在封裝中的 Chiplet 系統(tǒng)中,將我們的 SoC 裸片自然分解的方式是將我們的 SoC 網(wǎng)絡(luò)傳輸?shù)椒庋b上的芯片上,因此我們正在向標(biāo)稱片上傳輸層添加物理層傳輸?!?/p>
Chiplet 中的數(shù)據(jù)移動(dòng)
有多種競(jìng)爭(zhēng)性的協(xié)議可用于數(shù)據(jù)移動(dòng)。AMBA CHI、UCIe 和 BoW 是最為人所知的。哪一種或哪幾種組合最終勝出尚待觀察。但它們基本上都執(zhí)行相同的功能,即在 Chiplet 之間快速移動(dòng)數(shù)據(jù)。
「AMBA CHI 是分組化的、廣泛使用的且開(kāi)放授權(quán)的,它是 AMBA CHI C2C 的基礎(chǔ),使其能夠使用合適的芯粒物理和鏈路層在芯粒之間實(shí)現(xiàn)連接,」Arm 公司的迪蒙德介紹道?!笇?duì)于將主板上的組件集成到一個(gè)封裝中,最好在新的針對(duì)芯粒優(yōu)化的物理層上使用已有的互聯(lián)標(biāo)準(zhǔn)。對(duì)于將 SoC 分解為多個(gè)芯粒來(lái)說(shuō),同樣合理的做法是使用已有的片上互連?!?/p>
Arm 認(rèn)為,Chiplet 互聯(lián)將從現(xiàn)有的板級(jí)或片上互聯(lián)發(fā)展而來(lái)。但是,在 Chiplet 架構(gòu)中,有更多且不同的層需要考慮。
「就物理層而言,芯片之間的互聯(lián)可能會(huì)支持更少的物理連接,運(yùn)行距離更長(zhǎng),」迪蒙德解釋說(shuō)?!缚赡苄枰薪獯鳎⊿erDes)。在 AMBA CHI C2C 的情況下,該協(xié)議是分組化的,以支持在物理層之上運(yùn)行。協(xié)議層將需要一個(gè)架構(gòu)規(guī)范,以提供所需的長(zhǎng)期穩(wěn)定性,支持隨著時(shí)間的推移重復(fù)使用,并隨著生態(tài)系統(tǒng)的出現(xiàn),支持價(jià)值鏈中不同參與者之間的潛在重復(fù)使用?!?/p>
在很大程度上,Chiplet 到 Chiplet 的通信是一個(gè)分區(qū)問(wèn)題,而在汽車設(shè)計(jì)中,這個(gè)問(wèn)題尤其具有挑戰(zhàn)性。
「舉個(gè)例子——我可以從 X 公司獲得一個(gè)帶有完美 CPU 復(fù)合體的芯粒,但它沒(méi)有 GPU,」西門子數(shù)字化工業(yè)軟件公司混合與虛擬系統(tǒng)部門的副總裁戴維·弗里茨說(shuō)道?!肝艺趪L試為車載信息娛樂(lè)系統(tǒng)(IVI)做些什么,所以我需要一個(gè) GPU 來(lái)進(jìn)行渲染。有些公司會(huì)說(shuō):要不我把我們的 GPU 拿出來(lái),單獨(dú)放在一個(gè)芯粒里,然后把這個(gè)芯粒稱為一個(gè)『液滴』怎么樣?但這只是一個(gè)無(wú)法獨(dú)立存在的子系統(tǒng)模塊。人們會(huì)創(chuàng)造這些『液滴』,然后他們會(huì)說(shuō),:你拿著我們的『液滴』去找其他公司,他們會(huì)圍繞它添加他們需要的東西。所以,實(shí)際上我們又回到了出售硬宏(hard macros)的老路上?!何疫@里有 GPU,但我的內(nèi)存卻在另一個(gè)芯粒上?這行不通,因?yàn)槲覜](méi)有 GPU 所需的高帶寬,無(wú)法支持高分辨率、多顯示屏?!凰?,如果你沒(méi)有工具來(lái)探索這個(gè)領(lǐng)域的復(fù)雜性,并推導(dǎo)出那些不直觀或不明顯的更深層次、更硬性的要求,那么你最終只會(huì)做出錯(cuò)誤的決策,而無(wú)法拿出一款有競(jìng)爭(zhēng)力的產(chǎn)品。」
在異構(gòu)系統(tǒng)中,分區(qū)不僅僅關(guān)乎硬件。軟件也需要在 Chiplet 之間兼容。
「如果你考慮推理,推理通常使用較小的數(shù)據(jù)集并據(jù)此做出決策,」Eliyan 公司戰(zhàn)略營(yíng)銷副總裁凱文·唐納利表示。「處理元素可能全部包含在一個(gè)芯片內(nèi),而你需要進(jìn)行的互聯(lián)是與外部世界和內(nèi)存之間的。這決定了你擁有什么樣的互聯(lián),以及你在這些互聯(lián)上需要什么樣的帶寬。這將決定類似推理功能的芯片集的劃分方式。如果是訓(xùn)練,并且像英偉達(dá)那樣處理海量數(shù)據(jù)集,他們關(guān)注的是如何將大量的大型解聚芯片無(wú)縫地整合起來(lái),使它們看起來(lái)像是更大、更單片的芯片。在這種情況下,他們需要盡可能緊密地互連 GPU 核心,并在芯粒之間獲得盡可能多的帶寬。這種片外互連問(wèn)題正是推動(dòng)他們做出劃分決策的原因,也是他們將其旋轉(zhuǎn) 90 度(與其他人之前的做法相比)的原因,其他人之前的做法是試圖讓兩個(gè)巨大的單片芯片看起來(lái)像是一個(gè)更大、更巨大的單片芯片。然后,芯片外部的連接通向 I/O 世界和其他內(nèi)存。這就是片上互連在他們劃分中所起的作用。在軟件層面,他們能夠使兩個(gè)解耦的處理器看起來(lái)像一個(gè)巨大的處理器,根據(jù)他們公布的信息與之前的可用信息相比,這讓他們獲得了出色的性能基準(zhǔn)?!?/p>
這也可以被稱為橫截面帶寬和能耗?!府?dāng)你將事物從彼此身上分離,從一個(gè)單片芯片分離成兩個(gè)需要重新連接的異質(zhì)部分(或者就此而言,同質(zhì)部分)時(shí),這是你需要關(guān)注的兩件事,」Eliyan 公司的首席戰(zhàn)略與業(yè)務(wù)官帕特里克·索赫伊利指出?!改阏趯ふ铱梢猿惺芨喙牡膮^(qū)域,因?yàn)楝F(xiàn)在你可以在芯片外部將它們連接起來(lái)。在芯片內(nèi)部進(jìn)行連接總是更高效的,但如果沒(méi)有空間就別無(wú)選擇。所以,這是由一個(gè)決策決定的。另一個(gè)決策是,一個(gè)芯片需要與另一個(gè)芯片以多快的速度進(jìn)行通信,即橫截面帶寬需要是多少,以及是否能夠承受將它們彼此遠(yuǎn)離放置,而不是放在一個(gè)單片芯片中。這兩點(diǎn)是軟件劃分,以及確保整個(gè)系統(tǒng)將系統(tǒng)級(jí)封裝(SIP)視為一個(gè)整體——這始終是其中的關(guān)鍵部分——與 Chiplet 策略無(wú)關(guān),只是確保所有部分都能作為一個(gè)子系統(tǒng)協(xié)同工作?!?/p>
Chiplet 給互連實(shí)現(xiàn)帶來(lái)了什么
Chiplet 系統(tǒng)的出現(xiàn)帶來(lái)了創(chuàng)建可用于生產(chǎn)實(shí)現(xiàn)的新挑戰(zhàn)?!高@需要使用一種新的方法來(lái)測(cè)試 D2D 接口在不斷提高的數(shù)據(jù)速率下的表現(xiàn),并允許對(duì)良好的芯片進(jìn)行測(cè)試和篩選,」Alphawave 的朱利亞諾表示?!肝覀?nèi)绾卧诰A或封裝上測(cè)試 D2D 互連的物理層?HBM 學(xué)習(xí)是否適用于此,或者我們需要采用不同的方法?我們現(xiàn)在討論的是以更高的 32Gbps 數(shù)據(jù)速率進(jìn)行連接,并且每個(gè)引腳的數(shù)據(jù)傳輸速率達(dá)到 64Gbps,這將連接越來(lái)越多的 Chiplet。通常,這是在先進(jìn)的凸塊間距中實(shí)現(xiàn)的,而這種間距在晶圓級(jí)別上是不太可能的。在我們的物理層(PHY)內(nèi)部設(shè)計(jì)測(cè)試級(jí)結(jié)構(gòu)至關(guān)重要,這樣可以深入了解硅的健康狀況并隨時(shí)間觀察關(guān)鍵時(shí)序參數(shù)的可觀測(cè)性。」
Alphawave 已經(jīng)實(shí)施了先進(jìn)的測(cè)試和調(diào)試方法,允許其工程團(tuán)隊(duì)使用內(nèi)部回環(huán)和寄存器訪問(wèn)來(lái)測(cè)試鏈路。該公司還在與外包半導(dǎo)體組裝和測(cè)試公司合作,實(shí)施結(jié)構(gòu)測(cè)試,以確保 D2D 結(jié)構(gòu)的全面測(cè)試覆蓋。
另一個(gè)新問(wèn)題源于將來(lái)自不同供應(yīng)商且需要互操作的 D2D 互連和 Chiplet 進(jìn)行集成?!溉缃瘢覀儾渴鸬拇蠖鄶?shù)系統(tǒng)都來(lái)自單一供應(yīng)商,但我們正在與生態(tài)系統(tǒng)合作伙伴和客戶合作,為多供應(yīng)商互操作性鋪平道路。我們已經(jīng)創(chuàng)建了測(cè)試載體和發(fā)布版 Chiplet,這些可以與其他方一起使用,以進(jìn)行清晰的電氣互操作性測(cè)試和協(xié)議測(cè)試,」朱利亞諾指出。
系統(tǒng)發(fā)現(xiàn)也是 Chiplet 中需要標(biāo)準(zhǔn)化的另一個(gè)領(lǐng)域,Arteris 的史蒂文斯說(shuō)道?!敢?jiǎng)?chuàng)建一個(gè) Chiplet 生態(tài)系統(tǒng),它們需要能夠『發(fā)現(xiàn)』外部存在什么,并且如果需要支持真正的芯?;旌吓c匹配,它們需要能夠?qū)R以形成一個(gè)系統(tǒng)。今天,Chiplet 是作為一個(gè)系統(tǒng)進(jìn)行設(shè)計(jì)和驗(yàn)證的,但這缺乏協(xié)同使用的靈活性。驗(yàn)證知識(shí)產(chǎn)權(quán)(IP)對(duì)于 Chiplet 也至關(guān)重要。為了實(shí)現(xiàn)互操作性,必須有行業(yè)內(nèi)信賴的『標(biāo)準(zhǔn)』驗(yàn)證 IP。這使 Chiplet 設(shè)計(jì)可以針對(duì)驗(yàn)證 IP 進(jìn)行驗(yàn)證,而無(wú)需針對(duì)其他 Chiplet 進(jìn)行驗(yàn)證?!?/p>
從互連的角度來(lái)看,還必須考慮整體內(nèi)存映射。「內(nèi)存映射是特定地址訪問(wèn)如何映射到系統(tǒng)中的內(nèi)存控制器,」史蒂文斯說(shuō)道?!冈?Chiplet 系統(tǒng)中,內(nèi)存訪問(wèn)可以跨越 Chiplet。這種映射會(huì)對(duì)性能產(chǎn)生影響。細(xì)粒度的映射會(huì)將訪問(wèn)均勻地分散到各個(gè) Chiplet 上,但可能會(huì)由于遠(yuǎn)程 Chiplet 的較長(zhǎng)延遲而導(dǎo)致性能問(wèn)題。粗粒度的映射可能更好,但訪問(wèn)可能不會(huì)分散得那么均勻,因此存在一個(gè)棘手的權(quán)衡。系統(tǒng)架構(gòu)師應(yīng)該對(duì)此進(jìn)行建模,但另一種方法是使其在引導(dǎo)時(shí)配置,以便在硅調(diào)試之后可以進(jìn)行試驗(yàn)?!?/p>
Chiplet 架構(gòu)的另一個(gè)重要考量是,并非所有 Chiplet 劃分和架構(gòu)都適用 D2D 互連?!噶私?KPI 以便為 D2D 鏈路和 Chiplet 分區(qū)選擇正確的配置,這一點(diǎn)至關(guān)重要,」朱利亞諾指出?!肝覀儜{借自身在 Chiplet 定制硅片和 D2D 互連領(lǐng)域的領(lǐng)先地位,指導(dǎo)客戶正確劃分系統(tǒng),并在實(shí)現(xiàn) TCO 和上市時(shí)間之間找到最佳平衡點(diǎn)。一個(gè)重要的例子是封裝技術(shù),以及特定配置所需的 D2D 配置。選擇過(guò)程需要涉及芯?;ミB的所有層級(jí)。然后,將電氣物理層(PHY)和封裝類型轉(zhuǎn)移到互連協(xié)議和特定于域架構(gòu)的芯粒劃分上?!?/p>
Alphawave 的多標(biāo)準(zhǔn) I/OChiplet。來(lái)源:Alphawave Semi
在更深入地了解 Chiplet 互連后,一個(gè)關(guān)鍵問(wèn)題浮現(xiàn):商業(yè) Chiplet 市場(chǎng)何時(shí)能成形。雖然英特爾、AMD、英偉達(dá)和蘋果等公司已經(jīng)在使用 Chiplet,但這些 Chiplet 是專為它們自己的設(shè)備設(shè)計(jì)的。要實(shí)現(xiàn)基本即插即用的商業(yè) Chiplet,還有很長(zhǎng)的路要走。
「我們將看到的下一個(gè)階段是,當(dāng)前的主要參與者圍繞其知識(shí)產(chǎn)權(quán)開(kāi)放生態(tài)系統(tǒng),允許配套 Chiplet 的出現(xiàn),」Synopsys 技術(shù)產(chǎn)品管理高級(jí)總監(jiān)蒂姆·科格爾表示?!高@將需要一套完整的架構(gòu)和協(xié)作工具方法。特別是在汽車行業(yè),這是一個(gè)非常重要的趨勢(shì)。在歐洲,有 imec 汽車 Chiplet 計(jì)劃(ACP)。日本則有先進(jìn)汽車系統(tǒng)芯片研究(ASRA)聯(lián)盟。有負(fù)責(zé)架構(gòu)協(xié)作和物理方面的工作小組。我們?nèi)绾卧谛盘?hào)層面實(shí)現(xiàn)協(xié)同工作?我們?nèi)绾卧诤暧^架構(gòu)層面實(shí)現(xiàn)協(xié)同工作,以便將各部分整合在一起?特別是在汽車行業(yè),這一趨勢(shì)尤為強(qiáng)勁,因?yàn)樗麄兦宄乜吹搅耸褂?Chiplet 概念實(shí)現(xiàn)可擴(kuò)展架構(gòu)的好處。他們希望從低端汽車到中端再到高端,只需簡(jiǎn)單地說(shuō)『這是一個(gè),這是兩個(gè),這是四個(gè) Chiplet』就能實(shí)現(xiàn)。他們看到了巨大的經(jīng)濟(jì)規(guī)模,并計(jì)劃通過(guò) Chiplet 路徑來(lái)實(shí)現(xiàn)這一點(diǎn)?!?/p>
然而,要實(shí)現(xiàn)這一目標(biāo),還有很多工作要做。作為一個(gè)行業(yè),我們?nèi)栽诹私?Chiplet 及其標(biāo)準(zhǔn),所有這些標(biāo)準(zhǔn)都涉及不同的領(lǐng)域,Keysight 的信號(hào)完整性應(yīng)用科學(xué)家兼高速數(shù)字應(yīng)用產(chǎn)品經(jīng)理表示?!感袠I(yè)面臨的一大挑戰(zhàn)是,要確保所有這些標(biāo)準(zhǔn)都能協(xié)同工作,因?yàn)檫t早它們都需要相互連接并協(xié)同發(fā)揮作用。」
評(píng)論