新聞中心

EEPW首頁 > EDA/PCB > 設(shè)計應(yīng)用 > 以系統(tǒng)為中心的全層次納米級SoC設(shè)計方法學(xué)

以系統(tǒng)為中心的全層次納米級SoC設(shè)計方法學(xué)

作者:■Cadence公司Aurangzeb Khan 時間:2005-04-29 來源:電子設(shè)計應(yīng)用 收藏

引言
2003年的收入達到了310億美元,隨著通信行業(yè)及個人電子設(shè)備市場的快速發(fā)展,這一數(shù)字有望在2008年再翻上一番。其主要應(yīng)用領(lǐng)域包括:數(shù)字蜂窩式移動電話及基礎(chǔ)設(shè)施、存儲設(shè)備、視頻游戲機、消費類顯示設(shè)備、圖形卡、數(shù)字電視、個人電腦用主板、寬帶接入設(shè)備以及DVD等。
個人電子設(shè)備需求的持續(xù)上升表示設(shè)計正發(fā)展到一個轉(zhuǎn)折點,因為此類系統(tǒng)的產(chǎn)品壽命一般都不會超過一年,而新產(chǎn)品的問世周期為兩年。
研究表明,一項高科技新產(chǎn)品只要延遲上市6個月,其生命周期內(nèi)的收入就要減少大概30%。而且,近年來這種商業(yè)影響有愈演愈烈之勢,有份報告指出,大容量存儲設(shè)備推遲三個月上市至少造成了5億美元的損失。
但是,在過去四年,芯片的一次、二次和三次設(shè)計的成功率正在逐步下降,目前,能夠?qū)崿F(xiàn)一次成功的芯片設(shè)計還不到總量的39%。雖然功能設(shè)計和邏輯設(shè)計的錯誤是導(dǎo)致設(shè)計重制的最大影響因素,但電子、物理及光學(xué)作用也正對芯片設(shè)計起著越來越重要的影響。
本文詳盡地描述了三代開發(fā)過程中所得到的工程設(shè)計結(jié)論,舉例說明了這些設(shè)計方法在設(shè)計需求驅(qū)動下的持續(xù)進步,同時還提出了與最新開發(fā)的設(shè)計技術(shù)同時獲得的新結(jié)論。

以系統(tǒng)為中心的
全層次設(shè)計方法學(xué)
基于模塊的全層次設(shè)計方法學(xué)通過同步實現(xiàn)多個VLSI規(guī)模的模塊設(shè)計和頂層設(shè)計達到了加快設(shè)計進度的目的。
在業(yè)內(nèi)首創(chuàng)的單芯片全雙工OC48流量管理器及ATM分裝重組(OC48 TM/ATM SAR)SoC的開發(fā)期間,從網(wǎng)表到流片的全層次設(shè)計方法擴展到整個架構(gòu)開發(fā)以及RTL設(shè)計和驗證的過程之中(見圖1a和1b)。
該方法論延伸了結(jié)構(gòu)/RTL級設(shè)計以及電子/物理設(shè)計之間的并行性(交錯推進),也使得模塊設(shè)計與頂層設(shè)計能夠協(xié)同進行。該方法包括兩個關(guān)鍵的部分:第一,利用定制的FPGA平臺來驗證RTL設(shè)計并開發(fā)出“黃金RTL”(GRTL),該平臺提供的有效驗證吞吐量比起單仿真方法要高出70萬倍;第二,GRTL的設(shè)計層次在開發(fā)過程中保留了下來,架構(gòu)中同樣的模塊邊界、接口以及同樣的GRTL和FPGA分塊級擴大了同步設(shè)計的范圍,進而使硅片設(shè)計的時間縮短了一半。
該芯片在8層金屬、0.15mm、1.2V的CMOS工藝中集成了大概7800萬個(SRAM約占6600萬個)晶體管。SPI4.2接口以450MHz DDR運行,有效吞吐量可達900Mb/s。該芯片功率為6W,采用定制設(shè)計的1803 FCBGA封裝。電路的性能和系統(tǒng)驗證電路板如圖2a和圖2b所示。
第一款節(jié)約成本的、可升級的、160Gb/s的單芯片交換核心(SF:Switch-Fabric)處理器使用了320Gb/s共享存儲架構(gòu),使效率提高了8倍,并在8層金屬、130nm的工藝中集成了3000萬個晶體管,64個SerDes端口以及4個3.125GHz的鎖相環(huán)。
在這個業(yè)內(nèi)首個SoC芯片的開發(fā)過程中,同時開發(fā)出了基于電路并確保無沖突翻轉(zhuǎn)的三態(tài)總線構(gòu)架,可以把整個頂層布線信號的數(shù)量減少3/4如每個三態(tài)總線的節(jié)點數(shù)從5400減少到了1400,使該設(shè)計能夠在現(xiàn)有的8層金屬中實現(xiàn)。
類似于一個圓的獨特雙軸對稱布局規(guī)劃(見圖3)使整個電路的連線總長度最短并使頂層設(shè)計的布線堵塞最小化,從而優(yōu)化頂層布線網(wǎng)絡(luò)(見圖4a),同時該元件的電氣功能正確,最大溫度梯度為25攝氏度(見圖4b)。
本集成電路是一個單芯片中的完整交換板,具有160Gb/s的吞吐量和不高于15W的功耗,并支持10Gb/s到80Gb/s的線路卡。本集成電路使可線性升級的系統(tǒng)的直接設(shè)計(straightforward design)具有160Gb/s到1.28Tb/s的吞吐量。圖5a和圖5b為測量得出的眼圖。
該設(shè)計方法在數(shù)千兆位(Multi-Gigabit)交換網(wǎng)絡(luò)系統(tǒng)的130nm芯片(Gb/s SNS IC)的設(shè)計與開發(fā)過程中得到了進一步改善,同時也開發(fā)出新的設(shè)計技術(shù),使設(shè)計進度加快了28%,電壓降(IR drop)減少到20mV以內(nèi),時鐘扭曲(clock skew)也小于90ps,在超過220萬節(jié)點的網(wǎng)表中,只需要對其中少于0.1%的的節(jié)點進行布線后優(yōu)化,同時滿足了新的片上變化(OCV)、可制造性設(shè)計(DFM: design-for-manufacture)和良率設(shè)計(DFY: design-for-yield)的要求(見圖6a和6b)。
因此,此芯片首次投片就滿足了功能設(shè)計和電子設(shè)計的需求,并在8層金屬的130nm低壓(LV) CMOS工藝中實現(xiàn),同時集成了大概7600萬個晶體管和高達625MHz DDR的時鐘,封裝形式為1932 FCBGA封裝。

電子/物理設(shè)計優(yōu)化方法
SoC設(shè)計中需要考慮的內(nèi)容包括軟/硬件協(xié)同設(shè)計以及結(jié)構(gòu)/RTL級設(shè)計和驗證。電子/物理設(shè)計需要考慮的內(nèi)容包括:電源分布,時鐘架構(gòu)和電學(xué)特性收斂(electrical convergence),后者還包括時序、片上以及輸入/輸出信號完整性,OCV、DFM和DFY所涉及的部分也要考慮在內(nèi)。
頂層模塊級物理規(guī)劃的優(yōu)化
硅虛擬原型使模塊間和模塊內(nèi)的可布線性需求可視化,對優(yōu)化布局規(guī)劃起到了直接的作用。此外,基于物理信息的邏輯網(wǎng)表重新綜合使得以連線為中心的設(shè)計自動化過程進一步得到優(yōu)化。在OC48 TM/ATM SAR SoC的開發(fā)過程中,邏輯綜合的優(yōu)化使電路時序得到了明顯改善:布局前時序正確的網(wǎng)表在布線后有1182條沖突路徑,最差負間隙(negatire slack)為-2ns;而經(jīng)過邏輯綜合優(yōu)化的網(wǎng)表在布線后只有250條沖突路徑,最差負間隙為-0.3ns。
在Gb/s SNS IC的開發(fā)過程中, 8個VLSI規(guī)模的不同模塊連同頂層模塊中超過210萬個元件被并行設(shè)計,包括置入大約500個帶有預(yù)先設(shè)置時序約束的SRAM塊,用于預(yù)測時序收斂。該方法能夠使布局開發(fā)和驗證、層次化設(shè)計以及網(wǎng)表優(yōu)化在1天內(nèi)進行3~5次迭代。
接下來對設(shè)計模塊進行分組和尺寸調(diào)整,可以在1天內(nèi)完成1次完整的設(shè)計迭代——從網(wǎng)表到布局后的靜態(tài)時序分析(STA)再到工程更改單(ECO)的生成。
芯片設(shè)計從最終的功能網(wǎng)表到流片能夠在大約8周之內(nèi)完成,與以前的方法相比,該方法能夠使進度加快28%。
基于圖形的布線技術(shù)
新一代基于圖形的布線技術(shù)已經(jīng)用于優(yōu)化最終布線,與自動布線技術(shù)的結(jié)合能夠在信號完整性、可制造性、可布線性以及時序之間進行協(xié)同平衡。源自設(shè)計試探搜索方法和設(shè)計收斂規(guī)則的布線規(guī)則可用于優(yōu)化層選擇、層排序、平行走線長度縮短、節(jié)點屏蔽以及整個布線拓撲。
在Gb/s SNS IC的開發(fā)階段,基于精確的物理連線信息和內(nèi)置的時序同信號完整性分析引擎,能夠同時進行詳細布線及連線優(yōu)化,可使布線后還需要優(yōu)化的節(jié)點數(shù)減少到1/10:按照傳統(tǒng)布線技術(shù)開發(fā)的具有約210萬個節(jié)點的集成電路中一般有不到1%的節(jié)點需要布線后優(yōu)化;而該電路有著220多萬個節(jié)點,在布線后卻只有不到0.1%的節(jié)點需要優(yōu)化。
時鐘分布
此類設(shè)計一般包含25~40萬個觸發(fā)器,在10~100個物理域中工作,其片上頻率為125~626MHz DDR。
時鐘樹綜合可以用于提供對由OCV引起的時鐘偏斜的不足控制以及對插入延遲的管理,因此,頂層模塊級時鐘分布網(wǎng)絡(luò)拓撲一般能基于每一主模塊中的觸發(fā)器,為該模塊定制開發(fā)。此類網(wǎng)表一般都不受網(wǎng)表修訂的影響,因而加快了設(shè)計進度。此外,功率管理、模塊級插入延遲、壓擺率(slew rate)及相關(guān)的時鐘偏斜要求能夠獨立于頂層規(guī)劃進行優(yōu)化。
在OC48 TM/ATM SAR SoC中,一個專為優(yōu)化觸發(fā)器分布、具有低電阻金屬RC延遲的全定制拓撲支持低于1%的占空比變化,并為源同步接口提供小于15ps的時鐘偏斜。
在160Gb/s SF SoC中,平衡的時鐘拓撲提供了小于60ps的模塊內(nèi)時鐘偏斜和小于150ps的頂層最壞情況下的時鐘偏斜。頂層帶有緩沖鏈的手工布線可以實現(xiàn)匹配所有域的精確插入延遲。
在Gb/s SNS 集成電路中,最壞情況下頂層模塊間的時鐘偏斜小于30ps,模塊內(nèi)的時鐘偏斜小于90ps。
時序及電子設(shè)計
能夠反映出邊界輸入/輸出負載及驅(qū)動特性的精確“黑盒子”模型對于芯片時序和信號完整性驗證至關(guān)重要。基于非線性的電流源模型和全分布式耦合RC布線模型的數(shù)字延遲計算器可用于計算全芯片路徑延遲、實現(xiàn)時序驗證并預(yù)先考慮信號完整性問題。
數(shù)字的、非線性高效電流源模型(ECSM)用于表征瞬時驅(qū)動充/放電流,專為各電路中的每一個輸入到輸出時序通路而創(chuàng)建,應(yīng)用于特定節(jié)點的RC連線模型中,以計算驅(qū)動點和受驅(qū)動點雙方的信號壓擺率和連線延遲(見圖7a和7b)。
該技術(shù)通過生成和分級傳播ECSM模塊級模型到頂層來實現(xiàn)全層次時序設(shè)計。因此,在計算頂層延遲時能夠基于實際的模塊前邊界條件把設(shè)計層次也考慮進去。
延遲計算精確性的提高對設(shè)計進度的加快有著直接的影響:在一個包含26萬可放置對象和18.7萬個節(jié)點的小型模塊的設(shè)計中,相對于全電路仿真,延遲計算的不確定性能夠從10%縮減到5%,從而使干擾時序的節(jié)點數(shù)從2807減少到1512。由于節(jié)點數(shù)量的減少而消除的不確定通路也就不再需要投入額外的工程設(shè)計工作了。
電源分布
M6到M8上符合物理規(guī)則的拓撲一般都用于此類集成電路中的電源分布(主要因為這些金屬層有著大概低于50%的電阻系數(shù))。
在Gb/s SNS 集成電路中,RDL層中接近60%的布線資源以及M6、M7和M8各層中大概15%的布線資源都用于電源分布。最壞條件下的VDD和VSS IR 壓降總共加起來不超過20mV,其中芯片核心部分的VDD為1V,功耗為18W。
電源網(wǎng)絡(luò)中的IR壓降以及電遷移一致性通過對芯片中的電流建模來完成驗證,該模型以能精確反映出實際片上電源分布網(wǎng)絡(luò)情況的阻抗網(wǎng)孔為基礎(chǔ),此類網(wǎng)孔一般都包含3000萬到3億個電阻來保證對電流的精確建模。
功率管理
該設(shè)計方法論經(jīng)過擴展,能在自動布局布線模塊中支持多個電壓域(包括電壓接口單元的管理)及多個開啟電壓電路,可以降低動態(tài)功耗和漏電流。在一個包含大概28萬個元件(以及額外的SRAM塊)、工作頻率為300MHz的設(shè)計時鐘的開發(fā)過程中,分析結(jié)果表明,該方法可降低42%的功耗(其中輸入/輸出單元功耗的降低約占50%)(見圖8a和8b)。
輸入/輸出和封裝設(shè)計
SoC電路一般都有超過200~1000個可同步切換的輸入/輸出端。通過優(yōu)化輸入/輸出電路、總線輸入/輸出、時鐘/控制器輸入/輸出、VDD/VSS 引腳分配、封裝設(shè)計以及封裝基板設(shè)計可以解決輸入/輸出并發(fā)開關(guān)噪聲效應(yīng)問題。
對于160Gb/s SF SoC而言,建有14層布線的896腳FCBGA封裝可以支持10種不同的VDD 電源布線,向芯片提供約12A的電流。該系統(tǒng)帶有1個散熱片以及1m/s的空氣流,可支持20W的功耗。封裝的基板設(shè)計考慮了每一個256 Tx/Rx信號(都在3.125Gb/s下運行)的位置,使串?dāng)_、布線長度以及阻抗匹配變化最小,同時避免了電遷移問題。

X架構(gòu)
X 架構(gòu)的主要特征是在中間和頂部金屬層全面使用45度布線,能降低芯片內(nèi)部20%的互連或布線資源。有代表性的X 架構(gòu)布線如圖9a和圖9b所示。
采用X結(jié)構(gòu)的RISC處理器核心的設(shè)計使芯片關(guān)鍵路徑的延遲縮短了19.8%,芯片面積減小了10%,4個主要模塊的連線總長度也分別減少了13%~25%不等,同時通孔數(shù)量也相應(yīng)有28%~37%的減少。這些結(jié)果對芯片的性能、功耗、面積以及成本都有著重要影響(見圖10a)。
圖10b為傳統(tǒng)架構(gòu)同X架構(gòu)設(shè)計的靜態(tài)時序分析(STA)比較柱狀圖,使用X架構(gòu)可將最壞情況下通路延遲間隙(slack)從-50ps增加到+940ps。
利用X架構(gòu)的首款商用產(chǎn)品已經(jīng)實現(xiàn),該芯片應(yīng)用于數(shù)字電視領(lǐng)域,采用130nm CMOS工藝,集成了270萬門電路,工作頻率為180MHz。在該設(shè)計中,M4和M5為45度布線,借助X架構(gòu),使用了層次化設(shè)計方法論完成設(shè)計,與利用傳統(tǒng)技術(shù)實現(xiàn)的芯片相比,速度提高了11%,而面積減少了10%(見圖11a和11b)。

技術(shù)就備
技術(shù)就備(Technology Ready)能夠在新技術(shù)的預(yù)測性能與實際性能之間建立起清楚的相關(guān)性,有利于實現(xiàn)芯片一次設(shè)計成功,并在量產(chǎn)初期得到高的良品率。通過分析實際測試芯片的性能與預(yù)測性能之間的差異可促使設(shè)計師們采取措施來改進性能。
第一款采用90nm CMOS工藝、含30萬門的測試芯片已經(jīng)制造出來了(見圖12)。該設(shè)計在5層金屬上實現(xiàn),M3/M4為45度布線,與采用傳統(tǒng)技術(shù)的設(shè)計相比,總連線長度縮短了14%,通孔數(shù)也減少了27%。
該方法可用于驗證65nm工藝中層和頂層連線中45度布線的可制造性。此類中層連線的線間距(wiring pitch)將在2007年定義為195nm,在2010年減少到135nm,與此同時,頂層連線的線間距將分別定義為290nm和205nm。
目前,連線線寬/線間距分別為113/113nm和113/226nm的測試芯片都已制造出來。在前一測試環(huán)境中,測量均值是117nm,3d極限為+/-7nm,即線寬(Critical Dimension)的6.2%;在后一測試環(huán)境中,平均值為115nm,3d極限為+/-10nm,即線寬的8.8%。
在該芯片中,同時采用了傳統(tǒng)構(gòu)架和X構(gòu)架,采用同樣的光學(xué)近似修正(OPC)、金屬填充(metal fill)、光罩流(mask flow)以及光刻技術(shù),并無需任何特殊的步驟,圖形在轉(zhuǎn)彎處以及Z型處有很高的保真度(見圖13a和13b)。

結(jié)語
本文向讀者展示了針對SoC開發(fā)的電子/物理設(shè)計方法的主要特征,該方法始終都在為實現(xiàn)業(yè)內(nèi)主流SoC的一次設(shè)計成功貢獻力量,也為及時實現(xiàn)SoC的商業(yè)目標同技術(shù)目標而推波助瀾?!?/P>

參考文獻
1 Gartner- Worldwide /ASSP, FPGA/PLD and SLI/SOC App. Forecast, 1Q04
2 Gartner- and FPGA Suppliers Answer the Call, Jan. 2004
3 A.Khan, "Recent Developments in High-Performance System-on-Chip IC Design," In Proc. IEEE ICICDT, May 2004
4 Collett International Research: 2000, 2002 Functional Verification Studies; 2003 Design Closure Study, Jan. 2004
5 Clark & Wheelwright, "The Product Development Challenge," HBS 1994
6 Craig Matsumoto, "But integration bandwagon not for everyone," EE Times, Oct. 1999
7 A.Khan, et al., "A 150 MHz Graphics Rendering Processor with 256Mb Embedded DRAM," Proc. ISSCC, pp. 150-151, 442, Feb. 2001
8 A.Khan et al., "Design and Development of the First Single-Chip Full-Duplex OC48 Traffic Manager and ATM SAR SoC," CICC, Sep. 03

依次為 圖1a-圖13a

依次為圖1b-圖13b



關(guān)鍵詞: Cadence SoC ASIC

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉