測(cè)量并抑制存儲(chǔ)器件中的軟誤差
軟誤差是半導(dǎo)體器件中無(wú)法有意再生的“干擾”(即數(shù)據(jù)丟失)。它是由那些不受設(shè)計(jì)師控制的外部因素所引起的,包括α粒子、宇宙射線(xiàn)和熱中子。許多系統(tǒng)能夠容忍一定程度的軟誤差。例如,如果為音頻、視頻或靜止成像系統(tǒng)設(shè)計(jì)一個(gè)預(yù)壓縮捕獲緩沖器或后置解壓縮重放緩沖器,則一個(gè)偶然出現(xiàn)的缺陷位可能不會(huì)被察覺(jué),而且對(duì)用戶(hù)而言也許并不重要。然而,當(dāng)存儲(chǔ)元件在關(guān)鍵任務(wù)應(yīng)用中負(fù)責(zé)控制系統(tǒng)的功能時(shí),軟誤差的不良影響就會(huì)嚴(yán)重得多,不僅會(huì)損壞數(shù)據(jù),而且還有可能導(dǎo)致功能缺失和關(guān)鍵系統(tǒng)故障。本文將討論產(chǎn)生這些軟誤差的根源、不同的測(cè)量技術(shù)以及抵御這些軟誤差的方法。
軟誤差率(SER)問(wèn)題是于上個(gè)世紀(jì)70年代后期作為一項(xiàng)存儲(chǔ)器數(shù)據(jù)課題而受到人們的廣泛關(guān)注的,當(dāng)時(shí)DRAM開(kāi)始呈現(xiàn)出隨機(jī)故障的征兆。隨著工藝幾何尺寸的不斷縮小,引起失調(diào)所需的臨界電荷的減少速度要比存儲(chǔ)單元中的電荷聚集區(qū)的減小速度快得多。這意味著: 當(dāng)采用諸如90nm這樣的較小工藝幾何尺寸時(shí),軟誤差是一個(gè)更加值得關(guān)注的問(wèn)題,并需要采取進(jìn)一步的措施來(lái)確保軟誤差率被維持在一個(gè)可以接受的水平上。
SER的傾向和含意
工藝尺寸的壓縮已經(jīng)是實(shí)現(xiàn)行業(yè)生存的主要工具,而且對(duì)增加密度、改善性能和降低成本起著重要的推動(dòng)作用。隨著器件加工工藝向深亞微米門(mén)信號(hào)寬度(0.25mm→ 90nm?)邁進(jìn),存儲(chǔ)器產(chǎn)品的單元尺寸繼續(xù)縮小,從而導(dǎo)致電壓越來(lái)越低(5V→3.3V→1.8V……)以及存儲(chǔ)單元內(nèi)部電容的減小(10fF→5fF……)。由于電容的減小,存儲(chǔ)器件中的臨界電荷量(一個(gè)存儲(chǔ)單元用于保存數(shù)據(jù)所需的最小電荷量)繼續(xù)縮小,因而使得它們對(duì)SER的自然抵御能力下降。這反過(guò)來(lái)又意味著能量低得多的a粒子或宇宙射線(xiàn)都有可能對(duì)存儲(chǔ)單元形成干擾。
系統(tǒng)級(jí)的含意和重要性
軟誤差是以FIT來(lái)衡量的。FIT率只不過(guò)是10億個(gè)器件操作小時(shí)中所出現(xiàn)的故障數(shù)。1000 FIT對(duì)應(yīng)于一個(gè)約144年的MTTF(平均無(wú)故障時(shí)間)。為了對(duì)軟誤差的重要性有所了解,我們不妨來(lái)看一下它們?cè)诘湫痛鎯?chǔ)應(yīng)用中所具有的潛在影響的一些實(shí)例。比如,一部采用了一個(gè)軟誤差率為1000 FIT/Mbit的4Mbit低功率存儲(chǔ)器的蜂窩電話(huà)將很可能每28年出現(xiàn)一次軟誤差。而一個(gè)采用了軟誤差率為600 FIT/Mbit的100Gbits同步SRAM的標(biāo)準(zhǔn)高端路由器則有可能每17個(gè)小時(shí)出現(xiàn)一次錯(cuò)誤。此外,軟誤差之所以重要還在于目前其FIT率是硬可靠性故障的典型FIT率的10倍以上。顯然,對(duì)于蜂窩電話(huà)而言軟誤差并無(wú)大礙,但那些采用大量存儲(chǔ)器的系統(tǒng)則有可能受到嚴(yán)重影響。
SER的根源
現(xiàn)在,您對(duì)軟誤差已經(jīng)有了一個(gè)總的概念,下面對(duì)這些引發(fā)軟誤差的不同根源的機(jī)理逐個(gè)做一下簡(jiǎn)單的探討。
α粒子的影響
半導(dǎo)體器件封裝所采用的壓模化合物中有可能含有諸如Th232 和U238等雜質(zhì),這些物質(zhì)往往會(huì)隨著時(shí)間的推移發(fā)生衰變。這些雜質(zhì)會(huì)釋放出能量范圍為2~9MeV(百萬(wàn)電子伏特)的α粒子。在硅材料中,形成電子空穴對(duì)所需的能量為3.6eV。這就意味著α粒子有可能生成約106個(gè)電子空穴對(duì)。耗盡區(qū)中的電場(chǎng)將導(dǎo)致電荷漂移,從而使晶體管承受電流擾動(dòng)。如果電荷轉(zhuǎn)移量在0或1的狀態(tài)下超過(guò)了存儲(chǔ)于存儲(chǔ)單元中的臨界電荷量(QCRIT),則存儲(chǔ)數(shù)據(jù)會(huì)發(fā)生翻轉(zhuǎn)。
宇宙射線(xiàn)的影響
高能量的宇宙射線(xiàn)和太陽(yáng)粒子會(huì)與高空大氣層起反應(yīng)。當(dāng)發(fā)生這種情況時(shí),將產(chǎn)生高能量的質(zhì)子和中子。中子尤其難對(duì)付,因?yàn)樗鼈兡軌驖B透到大多數(shù)人造結(jié)構(gòu)中(例如,中子能夠輕易地穿透5英尺厚的混凝土)。這種影響的強(qiáng)度會(huì)隨著所處的緯度和海拔高度的不同而變化。在倫敦,該影響要比在赤道地區(qū)嚴(yán)重1.2倍。在丹佛,由于其地處高海拔,因此這種影響要比地處海平面的舊金山強(qiáng)三倍。而在飛機(jī)上,這種影響將是地面上的100~800倍。
高能量中子的能量范圍為10~800MeV,而且,由于它們不帶電荷,所以與硅材料的反應(yīng)不同于α粒子。事實(shí)上,中子必須轟擊硅原子核才會(huì)引起軟誤差。這種碰撞有可能產(chǎn)生α粒子及其他質(zhì)量較重的離子,從而生成電子空穴對(duì),但這種電子空穴所具有的能量比來(lái)自壓模化合物的典型α粒子所具有的能量高。
熱中子的影響
熱中子有可能是導(dǎo)致軟故障的一個(gè)主要根源,它們所具有的能量一般非常低(約25meV)。這些低能量中子很容易被大量存在于BPSG(硼磷硅酸鹽玻璃)電介質(zhì)層當(dāng)中的B10同位素所俘獲。俘獲中子將導(dǎo)致一個(gè)產(chǎn)生裂變的鋰、一個(gè)α粒子和一根γ射線(xiàn)。熱中子只在存在BPSG的情況下才是一項(xiàng)問(wèn)題。所以熱中子對(duì)SER的這一影響可以通過(guò)徹底放棄使用B10來(lái)抵消。表1為產(chǎn)生軟誤差根源的比較。
測(cè)量技術(shù)
測(cè)量器件對(duì)軟誤差的敏感度有多種方法。一種方法是加速測(cè)量,另一種方法涉及系統(tǒng)級(jí)測(cè)量。測(cè)試地點(diǎn)所處的地理位置對(duì)于最終獲得的數(shù)據(jù)有著很大的影響。為了最大限度地減小不同公司之間的測(cè)量數(shù)據(jù)差異,并在不同的產(chǎn)品售主之間維持一個(gè)公共的基準(zhǔn)點(diǎn),業(yè)界采取的標(biāo)準(zhǔn)是讓所有的售主公布其調(diào)整至紐約市/海平面這一地理位置的SER FIT率。
加速SER數(shù)據(jù)測(cè)量有兩種方法:α粒子加速測(cè)試和宇宙射線(xiàn)加速測(cè)試。器件對(duì)α粒子的敏感性可通過(guò)在去封頭芯片上布設(shè)一個(gè)釷或鈾離子源,并測(cè)量某一特定時(shí)間內(nèi)的總失調(diào)數(shù)以及推斷Fit/Mbits的方法來(lái)測(cè)定。
上述的兩種加速數(shù)據(jù)測(cè)量法是對(duì)FIT率的一個(gè)合理的近似,但往往夸大了實(shí)際的故障率。加速數(shù)據(jù)可被用作計(jì)算一個(gè)系統(tǒng)SER測(cè)量所需總時(shí)間的良好近似。
另一方面,系統(tǒng)SER測(cè)量需要在電路板上布設(shè)數(shù)以千計(jì)的器件,并對(duì)系統(tǒng)進(jìn)行連續(xù)監(jiān)控,以測(cè)量所產(chǎn)生的失調(diào)的總數(shù)。系統(tǒng)SER是α粒子和宇宙射線(xiàn)SER的累積,而且,該數(shù)據(jù)在很大程度上取決于系統(tǒng)所處的地理位置。消除一個(gè)系統(tǒng)中的α粒子-宇宙射線(xiàn)影響的良策之一是在把系統(tǒng)置于數(shù)米深的地下(此時(shí)宇宙射線(xiàn)的影響可以忽略)的情況下進(jìn)行數(shù)據(jù)測(cè)量,并隨后在高海拔上(此時(shí)α粒子的影響完全可以忽略不計(jì))對(duì)系統(tǒng)實(shí)施監(jiān)控。
系統(tǒng)軟誤差率測(cè)量成本相當(dāng)昂貴,常常由存儲(chǔ)器售主從技術(shù)(而不是器件)的層面上來(lái)進(jìn)行,旨在縮減成本。
抑制SER
降低SER的方法分為幾類(lèi),包括工藝變更(埋層、三層阱等)、電路強(qiáng)化(阻性反饋、在存儲(chǔ)節(jié)點(diǎn)上設(shè)置較高的電容、較高的驅(qū)動(dòng)電壓等)、設(shè)計(jì)強(qiáng)化(冗余等)和系統(tǒng)級(jí)變更。
系統(tǒng)級(jí)對(duì)策
在系統(tǒng)級(jí)上,可根據(jù)讀操作來(lái)進(jìn)行誤差檢測(cè)和校正,并通過(guò)使SRAM的延遲(等待時(shí)間)略有增加的方法來(lái)抑制SRAM的SER上升。這樣可對(duì)數(shù)據(jù)進(jìn)行一位誤差校正并報(bào)告多位誤差。還可以借助系統(tǒng)和存儲(chǔ)器架構(gòu)設(shè)計(jì)來(lái)實(shí)現(xiàn)某些改進(jìn)。存儲(chǔ)器拓?fù)湮粓D可以按照使一個(gè)實(shí)際的多位事件在一個(gè)字節(jié)中導(dǎo)致一個(gè)多位或一位誤差的方式來(lái)構(gòu)成。ECC在校正一位誤差方面是非常有效的,但采用它同時(shí)也意味著芯片面積將至少增加20%。
器件工藝/封裝級(jí)對(duì)策
從器件設(shè)計(jì)的角度來(lái)看,抑制SER并增強(qiáng)器件對(duì)SER的抵御能力的途徑之一是增加存儲(chǔ)單元中所存儲(chǔ)的臨界電荷量。人們注意到,PMOS門(mén)限電壓可減少存儲(chǔ)單元的恢復(fù)時(shí)間,這間接起到了提高SER抵御能力的作用。另外,在發(fā)生軟誤差期間所產(chǎn)生的電荷可利用埋入式結(jié)點(diǎn)(三層阱架構(gòu))來(lái)驅(qū)散,以增加遠(yuǎn)離放射性區(qū)的再結(jié)合。這將生成一個(gè)與NMOS耗盡層方向相反的電場(chǎng),并強(qiáng)制電荷進(jìn)入襯底。然而,這種三層阱架構(gòu)只是在輻射發(fā)生于NMOS區(qū)域中的時(shí)候才能起到一定的補(bǔ)救作用。
結(jié)語(yǔ)
隨著加工工藝尺寸的日益縮小,“軟”誤差對(duì)存儲(chǔ)器件的影響已經(jīng)從原先的“無(wú)關(guān)緊要”演變成為系統(tǒng)設(shè)計(jì)中需要加以認(rèn)真考慮的重要事項(xiàng)。賽普拉斯等SRAM售主已經(jīng)在工藝開(kāi)發(fā)和產(chǎn)品設(shè)計(jì)當(dāng)中采取了相應(yīng)的對(duì)策,以求最大限度地降低器件對(duì)SER的敏感度,并由此將SRAM的應(yīng)用范圍擴(kuò)展到遠(yuǎn)遠(yuǎn)小于90nm的工藝幾何尺寸。憑借在系統(tǒng)設(shè)計(jì)和產(chǎn)品設(shè)計(jì)水平的正確對(duì)策,SRAM仍將是多代工藝中一種可行的存儲(chǔ)器解決方案。■
評(píng)論