軟錯誤是如何損壞重要信息的?
軟錯誤是指高能粒子與硅元素之間的相互作用而在半導體中造成的隨機、臨時的狀態(tài)改變或瞬變。隨著SRAM工藝的性能日益提高,越來越低的電壓和節(jié)點電容使得SRAM器件更易出現(xiàn)軟錯誤。軟錯誤不僅會損壞數(shù)據(jù),而且還有可能導致功能喪失和嚴重的系統(tǒng)故障。各種工業(yè)控制器、軍事裝備、網(wǎng)絡系統(tǒng)、醫(yī)療設備、汽車電子設備、服務器、手持設備和消費類應用都易受到軟錯誤的傷害。一個未經(jīng)糾正的軟錯誤有可能導致各類任務關鍵型應用D如植入式醫(yī)療設備、軍用和汽車電子設備中使用的高端安全系統(tǒng)等D出現(xiàn)系統(tǒng)故障。
本文引用地址:http://butianyuan.cn/article/201610/306208.htm本文旨在解釋軟錯誤是如何發(fā)生,以及如何破壞半導體存儲器中存儲的重要數(shù)據(jù)的。為此,本文將闡述軟錯誤的來源以及它們的發(fā)生概率。此外,本文還將解釋軟錯誤是如何影響存儲單元(每個單元存儲一個位)并導致它們改變狀態(tài)的。本文還將探究軟錯誤的不同來源,以及用于消減其影響的技術-包括工藝和系統(tǒng)層面上的技術。最后,本文將簡要描述存儲器中的片上糾錯碼(ECC)是如何消減軟錯誤影響的。
近年來,半導體技術取得了巨大進步,但這種進步也帶來了新的問題。當今的CMOS工藝已縮至很小的尺寸,以至于地外輻射和芯片封裝正導致越來越多的故障。由于這些故障是可逆的,它們被稱為軟錯誤。軟錯誤首次出現(xiàn)于1978年,由于受鈾污染的封裝模塊,英特爾公司無法向ATT交付其生產(chǎn)的芯片。20世紀70年代,軟錯誤主要與動態(tài)RAM(DRAM)有關,這是因為它們的芯片封裝材料含有微量的放射性污染物。
軟錯誤是指高能粒子與硅元素之間的相互作用而在半導體中造成的隨機、臨時的狀態(tài)改變或瞬變。但與硬錯誤不同的是,一個簡單的復位/重寫操作可以恢復受影響器件的正常運行。數(shù)字和模擬電路、傳輸線路和磁存儲器中都可能發(fā)生軟錯誤,但半導體存儲器最易出現(xiàn)軟錯誤,其原因是它們的單元尺寸較大,而且每個位保持某種狀態(tài)的時間較長(因此增加了風險)。 軟錯誤有可能翻轉一個或多個位,這取決于誘發(fā)粒子到達器件時的能量。一個高能粒子與半導體襯底之間的相互作用將產(chǎn)生多個電子空穴對。它們在耗盡區(qū)中產(chǎn)生的電場將導致一次電荷漂移,從而導致電流擾動。如果這個電流移動的電荷跨越了存儲單元(每個單元存儲一個位)的臨界電荷,所存儲的數(shù)據(jù)就有可能翻轉,從而導致下一次被讀取時出現(xiàn)錯誤。
軟錯誤分為兩級-芯片級和系統(tǒng)級。當芯片中的放射性原子衰變并釋放出阿爾法粒子時,芯片級軟錯誤將發(fā)生。它們通常是由高能粒子的輻射導致的(在下文中解釋)。這些阿爾法粒子與某個存儲單元碰撞,從而導致其改變狀態(tài)。當所傳輸?shù)臄?shù)據(jù)遇到噪聲時,系統(tǒng)級軟性錯誤將發(fā)生。這種錯誤通常在數(shù)據(jù)位于總線而非存儲器中時發(fā)生??刂破鲗⒃肼暯庾x為數(shù)據(jù)。這個錯誤數(shù)據(jù)最終被視為正確數(shù)據(jù),從而導致尋址或處理錯誤。
用于衡量軟錯誤發(fā)生率的軟錯誤率(SER)決定了器件因高能粒子發(fā)生故障的概率。由于軟錯誤是隨機的,軟錯誤的發(fā)生并不決定存儲器的可靠性,而是決定其故障率。在那些采用了軟錯誤應對機制的系統(tǒng)中(主要是高安全性和高可靠性系統(tǒng)),如果一個軟錯誤(被稱為“所檢測到的不可恢復的錯誤”-DUE)被檢測到,系統(tǒng)將重啟,以避免損壞重要數(shù)據(jù)。如果未重啟,它最終將成為一次無記載數(shù)據(jù)損壞(SDC)。SDC要比DUE危險得多,因為SDC會導致數(shù)據(jù)丟失,而DUE只會導致系統(tǒng)在短時間內不可用。在大量的消費電子設備中,軟錯誤的風險并不很大,它們更可能因軟件錯誤或部件損耗發(fā)生故障。
軟錯誤的發(fā)生概率取決于眾多因素,如入射粒子、撞擊區(qū)域和電路設計等。電容和電壓更高的電路更不容易出現(xiàn)軟錯誤, 但這會招致更慢的邏輯門和更高的功耗。因此,隨著芯片工藝的不斷進步,軟錯誤的發(fā)生概率也越來越大。電容和電壓的組合被稱為臨界電荷(Qcrit)。它被定義為一次粒子撞擊導致電路發(fā)生故障所必需擁有的電荷。由于邏輯電路中的每個節(jié)點都有其獨特的電容和輸出距離,因此,Qcrit通常以節(jié)點為單位測量。此外還必須注意,Qcrit 會隨溫度緩慢變化。
電路軟錯誤 = k X 通量 X 面積 X e-Qcrit/Qcoil
其中,k = 取決于具體工藝的常數(shù)
通量 =中子通量
面積 = 對軟錯誤敏感的電路面積
Qcoll = 所采集電荷與所生成電荷的比率
該模型被稱為中子誘發(fā)型電路軟錯誤的Hazucha Svensson模型。
導致軟錯誤的原因
阿爾法粒子
阿爾法粒子由兩個質子和兩個中子組成,類似于一個氦核。它們由放射性原子核在阿爾法衰變過程中釋放。 阿爾法粒子擁有數(shù)個MeV的動能,低于中子。阿爾法粒子擁有一個致密的電荷層,在穿過半導體襯底時將產(chǎn)生多個電子空穴對。如果這種擾動足夠強,它就有可能翻轉某個位。由于這種情況通常只會持續(xù)幾分之一納秒,因此很難被檢測出。
芯片被封裝在含有微量放射性污染物的材料,如錫球或加工材料中。塑封材料、封裝和其它裝配材料中的微量鈾- 238、鈾- 232的放射性衰變會產(chǎn)生低能阿爾法粒子。然而,我們幾乎不可能維持實現(xiàn)大多數(shù)電路的可靠性能所需的理想材料純度(小于0.001次/小時/平方厘米)。微量的環(huán)氧樹脂可為芯片屏蔽阿爾法輻射,從而降低軟錯誤的發(fā)生概率。
宇宙射線
制造商已設法控制了釋放阿爾法粒子的污染物,但他們卻無法抗擊宇宙輻射。事實上,在現(xiàn)代半導體器件中,宇宙射線是最可能導致軟錯誤的原因。宇宙射線中的主要粒子通常不能抵達地球表面,但它們會產(chǎn)生一串高能次級粒子,其中大多數(shù)是高能中子。中子不帶電荷,因此不會導致軟錯誤,但卻能被芯片中的原子核俘獲,從而生成阿爾法粒子,繼而導致軟錯誤。中子所經(jīng)歷的衰減很小,可穿透厚達5英寸的混凝土。
由于大氣屏蔽效應隨著海拔的升高而減弱,宇宙輻射將隨之增加。因此,飛機和衛(wèi)星中的存儲器模塊極易出現(xiàn)軟錯誤,軟錯誤率是地面模塊的數(shù)百倍甚至數(shù)千倍。此外,由于上述大氣屏蔽效應的減弱,位于極地的存儲模塊也極易出現(xiàn)軟錯誤。為減少軟錯誤,高風險應用中所使用的模塊需要經(jīng)過一個名為輻射硬化的工藝。盡管如此,由于生產(chǎn)輻射硬化芯片需要大量測試(和時間),它們一般都屬于舊的工藝節(jié)點。
熱中子
由于存在中子俘獲反應,欠缺動能的中子是軟錯誤的一個重要來源。(硼磷硅玻璃介電層中大量存在的)硼同位素(10B)原子核俘獲一個熱中子后將釋放一個阿爾法粒子、鋰原子核和伽馬射線。阿爾法粒子和鋰原子核都能導致軟錯誤。硼在生產(chǎn)中被用于降低玻璃的融化溫度,因此具備更好的回流和整平特性。
在重要設計中,貧硼(只含11B)可用于降低軟錯誤率,通過使用磷硅玻璃(PSG)氧化層替代硼磷硅玻璃(BPSG)來實現(xiàn)。貧硼對于腫瘤放射治療中使用的醫(yī)療電子設備尤其重要。中子和治療中使用的光子束相結合將形成一個熱中子通量,從而導致極高的軟錯誤率。盡管如此,熱中子并非目前導致軟錯誤的主要原因,制造商已通過150nm工藝節(jié)點消除了含硼酸介電層。
消減軟錯誤的影響
改進工藝和存儲單元布局
我們可以通過增加存儲單元中所存儲的臨界電荷提升存儲器的可靠性。此外,我們還可以使用一種可消減擴散層厚度的工藝提高存儲器抵御軟錯誤的能力。該工藝可縮短帶電粒子在存儲單元中存在的時間。三阱架構也可用于將電荷驅離有源區(qū)。該工藝形成一個與 NMOS耗盡區(qū)相反的電場,迫使電荷進入襯底。它僅適用于NMOS區(qū)發(fā)生軟錯誤的情況。
系統(tǒng)層面的消減技術
在系統(tǒng)層面上,設計人員可以使用外部糾錯碼(ECC)邏輯消減軟錯誤的影響。在該技術中,用戶使用額外的帶奇偶校驗位的存儲芯片檢測和糾正錯誤。正如人們所料,系統(tǒng)層面的消減技術較為昂貴,而且增加了FPGA軟件的復雜性。
改變芯片設計和架構
這是抗擊軟錯誤的最佳方法。芯片設計人員可以通過將ECC算法植入到芯片中消減軟錯誤的影響。在寫操作時,ECC編碼器算法為存儲器中存儲的每一個可尋址的數(shù)據(jù)字寫入奇偶校驗位。在讀操作時,ECC檢測算法使用奇偶校驗位確定數(shù)據(jù)位是否已經(jīng)改變。如果出現(xiàn)單位錯誤,ECC糾錯算法將確定相關位的位置,然后通過將該數(shù)據(jù)位翻轉至其互補值協(xié)助糾錯。
盡管如此,ECC不能獨立應對多位翻轉錯誤。因此,設計人員必須采用位交織技術。該技術組織位線的方法是將物理上相鄰的位映射到不同的字寄存器上。位交織距離將映射到同一個字寄存器上的兩個連續(xù)位分開。如果位交織距離大于一次多單元撞擊的擴散范圍,它將在多個字中導致單位翻轉,而不是在一個字中導致一次多位翻轉。
典型的位交織距離取決于具體工藝。中子測試和隨后的物理MPU分析用于確定每種工藝節(jié)點的安全交織距離。在一個位交織存儲器中,單位錯誤糾正算法可用于檢測和糾正所有錯誤。ECC算法僅適用于受影響數(shù)據(jù)字的副本。存儲器中的數(shù)據(jù)仍然含有已翻轉的位。如果存儲器中的這個已翻轉的位沒有被糾正,同一個數(shù)據(jù)字中的另一次位翻轉就可能導致一次多位翻轉。因此,ECC邏輯必須指示出單位翻轉的發(fā)生和糾錯。然后,系統(tǒng)可以使用該信息識別該事件,并回寫糾正后的數(shù)據(jù)。這種技術被稱為存儲器刷洗技術。
隨著半導體芯片變得越來越小,發(fā)生軟錯誤的風險也在不斷升高。存儲單元的Qcrit會隨著其尺寸的縮小而減少,這使得其更易翻轉。因此,很多專家預測,軟錯誤將成為這種趨勢的制約因素,而且最終將達到飽和點,除非我們開發(fā)出能夠克服軟錯誤的新技術。此外,隨著技術進入人類生活的更多領域,人們對于可靠性的要求只會越來越高。這種趨勢催生了對存儲器模塊的片上ECC的需求。所有存儲器廠商都已開始推出具備片上ECC功能的芯片,以滿足市場對高可靠性存儲器的需求。SRAM領域的全球領導者賽普拉斯公司擁有一個基于ECC的異步SRAM系列,該系列是當今市場上可靠性最高的異步SRAM。具備ECC功能的16Mbit異步SRAM已開始投產(chǎn),4Mbi版本也已開始提供樣品。
評論