以系統(tǒng)為中心的全層次納米級SoC設(shè)計(jì)方法學(xué)
引言
2003年SoC的收入達(dá)到了310億美元,隨著通信行業(yè)及個(gè)人電子設(shè)備市場的快速發(fā)展,這一數(shù)字有望在2008年再翻上一番。其主要應(yīng)用領(lǐng)域包括:數(shù)字蜂窩式移動(dòng)電話及基礎(chǔ)設(shè)施、存儲設(shè)備、視頻游戲機(jī)、消費(fèi)類顯示設(shè)備、圖形卡、數(shù)字電視、個(gè)人電腦用主板、寬帶接入設(shè)備以及DVD等。
個(gè)人電子設(shè)備需求的持續(xù)上升表示SoC設(shè)計(jì)正發(fā)展到一個(gè)轉(zhuǎn)折點(diǎn),因?yàn)榇祟愊到y(tǒng)的產(chǎn)品壽命一般都不會超過一年,而新產(chǎn)品的問世周期為兩年。
研究表明,一項(xiàng)高科技新產(chǎn)品只要延遲上市6個(gè)月,其生命周期內(nèi)的收入就要減少大概30%。而且,近年來這種商業(yè)影響有愈演愈烈之勢,有份報(bào)告指出,大容量存儲設(shè)備推遲三個(gè)月上市至少造成了5億美元的損失。
但是,在過去四年,芯片的一次、二次和三次設(shè)計(jì)的成功率正在逐步下降,目前,能夠?qū)崿F(xiàn)一次成功的芯片設(shè)計(jì)還不到總量的39%。雖然功能設(shè)計(jì)和邏輯設(shè)計(jì)的錯(cuò)誤是導(dǎo)致設(shè)計(jì)重制的最大影響因素,但電子、物理及光學(xué)作用也正對芯片設(shè)計(jì)起著越來越重要的影響。
本文詳盡地描述了三代SoC開發(fā)過程中所得到的工程設(shè)計(jì)結(jié)論,舉例說明了這些設(shè)計(jì)方法在設(shè)計(jì)需求驅(qū)動(dòng)下的持續(xù)進(jìn)步,同時(shí)還提出了與最新開發(fā)的設(shè)計(jì)技術(shù)同時(shí)獲得的新結(jié)論。
以系統(tǒng)為中心的
全層次設(shè)計(jì)方法學(xué)
基于模塊的全層次設(shè)計(jì)方法學(xué)通過同步實(shí)現(xiàn)多個(gè)VLSI規(guī)模的模塊設(shè)計(jì)和頂層設(shè)計(jì)達(dá)到了加快設(shè)計(jì)進(jìn)度的目的。
在業(yè)內(nèi)首創(chuàng)的單芯片全雙工OC48流量管理器及ATM分裝重組(OC48 TM/ATM SAR)SoC的開發(fā)期間,從網(wǎng)表到流片的全層次設(shè)計(jì)方法擴(kuò)展到整個(gè)架構(gòu)開發(fā)以及RTL設(shè)計(jì)和驗(yàn)證的過程之中(見圖1a和1b)。
該方法論延伸了結(jié)構(gòu)/RTL級設(shè)計(jì)以及電子/物理設(shè)計(jì)之間的并行性(交錯(cuò)推進(jìn)),也使得模塊設(shè)計(jì)與頂層設(shè)計(jì)能夠協(xié)同進(jìn)行。該方法包括兩個(gè)關(guān)鍵的部分:第一,利用定制的FPGA平臺來驗(yàn)證RTL設(shè)計(jì)并開發(fā)出“黃金RTL”(GRTL),該平臺提供的有效驗(yàn)證吞吐量比起單仿真方法要高出70萬倍;第二,GRTL的設(shè)計(jì)層次在開發(fā)過程中保留了下來,架構(gòu)中同樣的模塊邊界、接口以及同樣的GRTL和FPGA分塊級擴(kuò)大了同步設(shè)計(jì)的范圍,進(jìn)而使硅片設(shè)計(jì)的時(shí)間縮短了一半。
該芯片在8層金屬、0.15mm、1.2V的CMOS工藝中集成了大概7800萬個(gè)(SRAM約占6600萬個(gè))晶體管。SPI4.2接口以450MHz DDR運(yùn)行,有效吞吐量可達(dá)900Mb/s。該芯片功率為6W,采用定制設(shè)計(jì)的1803 FCBGA封裝。電路的性能和系統(tǒng)驗(yàn)證電路板如圖2a和圖2b所示。
第一款節(jié)約成本的、可升級的、160Gb/s的單芯片交換核心(SF:Switch-Fabric)處理器使用了320Gb/s共享存儲架構(gòu),使效率提高了8倍,并在8層金屬、130nm的工藝中集成了3000萬個(gè)晶體管,64個(gè)SerDes端口以及4個(gè)3.125GHz的鎖相環(huán)。
在這個(gè)業(yè)內(nèi)首個(gè)SoC芯片的開發(fā)過程中,同時(shí)開發(fā)出了基于電路并確保無沖突翻轉(zhuǎn)的三態(tài)總線構(gòu)架,可以把整個(gè)頂層布線信號的數(shù)量減少3/4如每個(gè)三態(tài)總線的節(jié)點(diǎn)數(shù)從5400減少到了1400,使該設(shè)計(jì)能夠在現(xiàn)有的8層金屬中實(shí)現(xiàn)。
類似于一個(gè)圓的獨(dú)特雙軸對稱布局規(guī)劃(見圖3)使整個(gè)電路的連線總長度最短并使頂層設(shè)計(jì)的布線堵塞最小化,從而優(yōu)化頂層布線網(wǎng)絡(luò)(見圖4a),同時(shí)該元件的電氣功能正確,最大溫度梯度為25攝氏度(見圖4b)。
本集成電路是一個(gè)單芯片中的完整交換板,具有160Gb/s的吞吐量和不高于15W的功耗,并支持10Gb/s到80Gb/s的線路卡。本集成電路使可線性升級的系統(tǒng)的直接設(shè)計(jì)(straightforward design)具有160Gb/s到1.28Tb/s的吞吐量。圖5a和圖5b為測量得出的眼圖。
該設(shè)計(jì)方法在數(shù)千兆位(Multi-Gigabit)交換網(wǎng)絡(luò)系統(tǒng)的130nm芯片(Gb/s SNS IC)的設(shè)計(jì)與開發(fā)過程中得到了進(jìn)一步改善,同時(shí)也開發(fā)出新的設(shè)計(jì)技術(shù),使設(shè)計(jì)進(jìn)度加快了28%,電壓降(IR drop)減少到20mV以內(nèi),時(shí)鐘扭曲(clock skew)也小于90ps,在超過220萬節(jié)點(diǎn)的網(wǎng)表中,只需要對其中少于0.1%的的節(jié)點(diǎn)進(jìn)行布線后優(yōu)化,同時(shí)滿足了新的片上變化(OCV)、可制造性設(shè)計(jì)(DFM: design-for-manufacture)和良率設(shè)計(jì)(DFY: design-for-yield)的要求(見圖6a和6b)。
因此,此芯片首次投片就滿足了功能設(shè)計(jì)和電子設(shè)計(jì)的需求,并在8層金屬的130nm低壓(LV) CMOS工藝中實(shí)現(xiàn),同時(shí)集成了大概7600萬個(gè)晶體管和高達(dá)625MHz DDR的時(shí)鐘,封裝形式為1932 FCBGA封裝。
電子/物理設(shè)計(jì)優(yōu)化方法
SoC設(shè)計(jì)中需要考慮的內(nèi)容包括軟/硬件協(xié)同設(shè)計(jì)以及結(jié)構(gòu)/RTL級設(shè)計(jì)和驗(yàn)證。電子/物理設(shè)計(jì)需要考慮的內(nèi)容包括:電源分布,時(shí)鐘架構(gòu)和電學(xué)特性收斂(electrical convergence),后者還包括時(shí)序、片上以及輸入/輸出信號完整性,OCV、DFM和DFY所涉及的部分也要考慮在內(nèi)。
頂層模塊級物理規(guī)劃的優(yōu)化
硅虛擬原型使模塊間和模塊內(nèi)的可布線性需求可視化,對優(yōu)化布局規(guī)劃起到了直接的作用。此外,基于物理信息的邏輯網(wǎng)表重新綜合使得以連線為中心的設(shè)計(jì)自動(dòng)化過程進(jìn)一步得到優(yōu)化。在OC48 TM/ATM SAR SoC的開發(fā)過程中,邏輯綜合的優(yōu)化使電路時(shí)序得到了明顯改善:布局前時(shí)序正確的網(wǎng)表在布線后有1182條沖突路徑,最差負(fù)間隙(negatire slack)為-2ns;而經(jīng)過邏輯綜合優(yōu)化的網(wǎng)表在布線后只有250條沖突路徑,最差負(fù)間隙為-0.3ns。
在Gb/s SNS IC的開發(fā)過程中, 8個(gè)VLSI規(guī)模的不同模塊連同頂層模塊中超過210萬個(gè)元件被并行設(shè)計(jì),包括置入大約500個(gè)帶有預(yù)先設(shè)置時(shí)序約束的SRAM塊,用于預(yù)測時(shí)序收斂。該方法能夠使布局開發(fā)和驗(yàn)證、層次化設(shè)計(jì)以及網(wǎng)表優(yōu)化在1天內(nèi)進(jìn)行3~5次迭代。
接下來對設(shè)計(jì)模塊進(jìn)行分組和尺寸調(diào)整,可以在1天內(nèi)完成1次完整的設(shè)計(jì)迭代——從網(wǎng)表到布局后的靜態(tài)時(shí)序分析(STA)再到工程更改單(ECO)的生成。
芯片設(shè)計(jì)從最終的功能網(wǎng)表到流片能夠在大約8周之內(nèi)完成,與以前的方法相比,該方法能夠使進(jìn)度加快28%。
基于圖形的布線技術(shù)
新一代基于圖形的布線技術(shù)已經(jīng)用于優(yōu)化最終布線,與自動(dòng)布線技術(shù)的結(jié)合能夠在信號完整性、可制造性、可布線性以及時(shí)序之間進(jìn)行協(xié)同平衡。源自設(shè)計(jì)試探搜索方法和設(shè)計(jì)收斂規(guī)則的布線規(guī)則可用于優(yōu)化層選擇、層排序、平行走線長度縮短、節(jié)點(diǎn)屏蔽以及整個(gè)布線拓?fù)洹?BR>在Gb/s SNS IC的開發(fā)階段,基于精確的物理連線信息和內(nèi)置的時(shí)序同信號完整性分析引擎,能夠同時(shí)進(jìn)行詳細(xì)布線及連線優(yōu)化,可使布線后還需要優(yōu)化的節(jié)點(diǎn)數(shù)減少到1/10:按照傳統(tǒng)布線技術(shù)開發(fā)的具有約210萬個(gè)節(jié)點(diǎn)的集成電路中一般有不到1%的節(jié)點(diǎn)需要布線后優(yōu)化;而該電路有著220多萬個(gè)節(jié)點(diǎn),在布線后卻只有不到0.1%的節(jié)點(diǎn)需要優(yōu)化。
時(shí)鐘分布
此類設(shè)計(jì)一般包含25~40萬個(gè)觸發(fā)器,在10~100個(gè)物理域中工作,其片上頻率為125~626MHz DDR。
時(shí)鐘樹綜合可以用于提供對由OCV引起的時(shí)鐘偏斜的不足控制以及對插入延遲的管理,因此,頂層模塊級時(shí)鐘分布網(wǎng)絡(luò)拓?fù)湟话隳芑诿恳恢髂K中的觸發(fā)器,為該模塊定制開發(fā)。此類網(wǎng)表一般都不受網(wǎng)表修訂的影響,因而加快了設(shè)計(jì)進(jìn)度。此外,功率管理、模塊級插入延遲、壓擺率(slew rate)及相關(guān)的時(shí)鐘偏斜要求能夠獨(dú)立于頂層規(guī)劃進(jìn)行優(yōu)化。
在OC48 TM/ATM SAR SoC中,一個(gè)專為優(yōu)化觸發(fā)器分布、具有低電阻金屬RC延遲的全定制拓?fù)渲С值陀?%的占空比變化,并為源同步接口提供小于15ps的時(shí)鐘偏斜。
在160Gb/s SF SoC中,平衡的時(shí)鐘拓?fù)涮峁┝诵∮?0ps的模塊內(nèi)時(shí)鐘偏斜和小于150ps的頂層最壞情況下的時(shí)鐘偏斜。頂層帶有緩沖鏈的手工布線可以實(shí)現(xiàn)匹配所有域的精確插入延遲。
在Gb/s SNS 集成電路中,最壞情況下頂層模塊間的時(shí)鐘偏斜小于30ps,模塊內(nèi)的時(shí)鐘偏斜小于90ps。
時(shí)序及電子設(shè)計(jì)
能夠反映出邊界輸入/輸出負(fù)載及驅(qū)動(dòng)特性的精確“黑盒子”模型對于芯片時(shí)序和信號完整性驗(yàn)證至關(guān)重要。基于非線性的電流源模型和全分布式耦合RC布線模型的數(shù)字延遲計(jì)算器可用于計(jì)算全芯片路徑延遲、實(shí)現(xiàn)時(shí)序驗(yàn)證并預(yù)先考慮信號完整性問題。
數(shù)字的、非線性高效電流源模型(ECSM)用于表征瞬時(shí)驅(qū)動(dòng)充/放電流,專為各電路中的每一個(gè)輸入到輸出時(shí)序通路而創(chuàng)建,應(yīng)用于特定節(jié)點(diǎn)的RC連線模型中,以計(jì)算驅(qū)動(dòng)點(diǎn)和受驅(qū)動(dòng)點(diǎn)雙方的信號壓擺率和連線延遲(見圖7a和7b)。
該技術(shù)通過生成和分級傳播ECSM模塊級模型到頂層來實(shí)現(xiàn)全層次時(shí)序設(shè)計(jì)。因此,在計(jì)算頂層延遲時(shí)能夠基于實(shí)際的模塊前邊界條件把設(shè)計(jì)層次也考慮進(jìn)去。
延遲計(jì)算精確性的提高對設(shè)計(jì)進(jìn)度的加快有著直接的影響:在一個(gè)包含26萬可放置對象和18.7萬個(gè)節(jié)點(diǎn)的小型模塊的設(shè)計(jì)中,相對于全電路仿真,延遲計(jì)算的不確定性能夠從10%縮減到5%,從而使干擾時(shí)序的節(jié)點(diǎn)數(shù)從2807減少到1512。由于節(jié)點(diǎn)數(shù)量的減少而消除的不確定通路也就不再需要投入額外的工程設(shè)計(jì)工作了。
電源分布
M6到M8上符合物理規(guī)則的拓?fù)湟话愣加糜诖祟惣呻娐分械碾娫捶植?主要因?yàn)檫@些金屬層有著大概低于50%的電阻系數(shù))。
在Gb/s SNS 集成電路中,RDL層中接近60%的布線資源以及M6、M7和M8各層中大概15%的布線資源都用于電源分布。最壞條件下的VDD和VSS IR 壓降總共加起來不超過20mV,其中芯片核心部分的VDD為1V,功耗為18W。
電源網(wǎng)絡(luò)中的IR壓降以及電遷移一致性通過對芯片中的電流建模來完成驗(yàn)證,該模型以能精確反映出實(shí)際片上電源分布網(wǎng)絡(luò)情況的阻抗網(wǎng)孔為基礎(chǔ),此類網(wǎng)孔一般都包含3000萬到3億個(gè)電阻來保證對電流的精確建模。
功率管理
該設(shè)計(jì)方法論經(jīng)過擴(kuò)展,能在自動(dòng)布局布線模塊中支持多個(gè)電壓域(包括電壓接口單元的管理)及多個(gè)開啟電壓電路,可以降低動(dòng)態(tài)功耗和漏電流。在一個(gè)包含大概28萬個(gè)元件(以及額外的SRAM塊)、工作頻率為300MHz的設(shè)計(jì)時(shí)鐘的開發(fā)過程中,分析結(jié)果表明,該方法可降低42%的功耗(其中輸入/輸出單元功耗的降低約占50%)(見圖8a和8b)。
輸入/輸出和封裝設(shè)計(jì)
SoC電路一般都有超過200~1000個(gè)可同步切換的輸入/輸出端。通過優(yōu)化輸入/輸出電路、總線輸入/輸出、時(shí)鐘/控制器輸入/輸出、VDD/VSS 引腳分配、封裝設(shè)計(jì)以及封裝基板設(shè)計(jì)可以解決輸入/輸出并發(fā)開關(guān)噪聲效應(yīng)問題。
對于160Gb/s SF SoC而言,建有14層布線的896腳FCBGA封裝可以支持10種不同的VDD 電源布線,向芯片提供約12A的電流。該系統(tǒng)帶有1個(gè)散熱片以及1m/s的空氣流,可支持20W的功耗。封裝的基板設(shè)計(jì)考慮了每一個(gè)256 Tx/Rx信號(都在3.125Gb/s下運(yùn)行)的位置,使串?dāng)_、布線長度以及阻抗匹配變化最小,同時(shí)避免了電遷移問題。
X架構(gòu)
X 架構(gòu)的主要特征是在中間和頂部金屬層全面使用45度布線,能降低芯片內(nèi)部20%的互連或布線資源。有代表性的X 架構(gòu)布線如圖9a和圖9b所示。
采用X結(jié)構(gòu)的RISC處理器核心的設(shè)計(jì)使芯片關(guān)鍵路徑的延遲縮短了19.8%,芯片面積減小了10%,4個(gè)主要模塊的連線總長度也分別減少了13%~25%不等,同時(shí)通孔數(shù)量也相應(yīng)有28%~37%的減少。這些結(jié)果對芯片的性能、功耗、面積以及成本都有著重要影響(見圖10a)。
圖10b為傳統(tǒng)架構(gòu)同X架構(gòu)設(shè)計(jì)的靜態(tài)時(shí)序分析(STA)比較柱狀圖,使用X架構(gòu)可將最壞情況下通路延遲間隙(slack)從-50ps增加到+940ps。
利用X架構(gòu)的首款商用產(chǎn)品已經(jīng)實(shí)現(xiàn),該芯片應(yīng)用于數(shù)字電視領(lǐng)域,采用130nm CMOS工藝,集成了270萬門電路,工作頻率為180MHz。在該設(shè)計(jì)中,M4和M5為45度布線,借助X架構(gòu),使用了層次化設(shè)計(jì)方法論完成設(shè)計(jì),與利用傳統(tǒng)技術(shù)實(shí)現(xiàn)的芯片相比,速度提高了11%,而面積減少了10%(見圖11a和11b)。
技術(shù)就備
技術(shù)就備(Technology Ready)能夠在新技術(shù)的預(yù)測性能與實(shí)際性能之間建立起清楚的相關(guān)性,有利于實(shí)現(xiàn)芯片一次設(shè)計(jì)成功,并在量產(chǎn)初期得到高的良品率。通過分析實(shí)際測試芯片的性能與預(yù)測性能之間的差異可促使設(shè)計(jì)師們采取措施來改進(jìn)性能。
第一款采用90nm CMOS工藝、含30萬門的測試芯片已經(jīng)制造出來了(見圖12)。該設(shè)計(jì)在5層金屬上實(shí)現(xiàn),M3/M4為45度布線,與采用傳統(tǒng)技術(shù)的設(shè)計(jì)相比,總連線長度縮短了14%,通孔數(shù)也減少了27%。
該方法可用于驗(yàn)證65nm工藝中層和頂層連線中45度布線的可制造性。此類中層連線的線間距(wiring pitch)將在2007年定義為195nm,在2010年減少到135nm,與此同時(shí),頂層連線的線間距將分別定義為290nm和205nm。
目前,連線線寬/線間距分別為113/113nm和113/226nm的測試芯片都已制造出來。在前一測試環(huán)境中,測量均值是117nm,3d極限為+/-7nm,即線寬(Critical Dimension)的6.2%;在后一測試環(huán)境中,平均值為115nm,3d極限為+/-10nm,即線寬的8.8%。
在該芯片中,同時(shí)采用了傳統(tǒng)構(gòu)架和X構(gòu)架,采用同樣的光學(xué)近似修正(OPC)、金屬填充(metal fill)、光罩流(mask flow)以及光刻技術(shù),并無需任何特殊的步驟,圖形在轉(zhuǎn)彎處以及Z型處有很高的保真度(見圖13a和13b)。
結(jié)語
本文向讀者展示了針對SoC開發(fā)的電子/物理設(shè)計(jì)方法的主要特征,該方法始終都在為實(shí)現(xiàn)業(yè)內(nèi)主流SoC的一次設(shè)計(jì)成功貢獻(xiàn)力量,也為及時(shí)實(shí)現(xiàn)SoC的商業(yè)目標(biāo)同技術(shù)目標(biāo)而推波助瀾?!?/P>
參考文獻(xiàn)
1 Gartner- Worldwide ASIC/ASSP, FPGA/PLD and SLI/SOC App. Forecast, 1Q04
2 Gartner- ASIC and FPGA Suppliers Answer the Call, Jan. 2004
3 A.Khan, "Recent Developments in High-Performance System-on-Chip IC Design," In Proc. IEEE ICICDT, May 2004
4 Collett International Research: 2000, 2002 Functional Verification Studies; 2003 Design Closure Study, Jan. 2004
5 Clark & Wheelwright, "The Product Development Challenge," HBS 1994
6 Craig Matsumoto, "But integration bandwagon not for everyone," EE Times, Oct. 1999
7 A.Khan, et al., "A 150 MHz Graphics Rendering Processor with 256Mb Embedded DRAM," Proc. ISSCC, pp. 150-151, 442, Feb. 2001
8 A.Khan et al., "Design and Development of the First Single-Chip Full-Duplex OC48 Traffic Manager and ATM SAR SoC," CICC, Sep. 03
依次為 圖1a-圖13a
依次為圖1b-圖13b
評論