關 閉

新聞中心

EEPW首頁 > 安全與國防 > 設計應用 > Teledyne e2v宇航級數字處理產品的輻射緩解技術

Teledyne e2v宇航級數字處理產品的輻射緩解技術

作者: 時間:2022-08-11 來源:電子產品世界 收藏

摘要

本文引用地址:http://www.butianyuan.cn/article/202208/437251.htm

最先進的耐輻射 CPU 和存儲器使用的技術會受太空嚴苛輻射環(huán)境的影響。為了應對銀河宇宙射線、質子或中子撞擊對器件產生的單粒子效應(SEE),我們必須采取措施。了解特定輻射環(huán)境下的輻射效應對制定、設計和驗證使用耐輻射器件的宇航系統的流程以及提出方案非常重要。合適的技術需考慮輻射環(huán)境和電子器件的不同,這一點是降低成本、提高系統可用性和吞吐帶寬并減少引入的誤差的關鍵。在設計階段,必須計算模型和錯誤率,以預測系統的性能需求。 可提供最先進的可在嚴苛輻射環(huán)境下工作的耐輻射數字器件,并幫助驗證輻射緩解技術是否適用于宇航環(huán)境,是否能最大程度地為當前和未來的設計降低系統輻射效應。本文將首先介紹在半導體上可觀測到的一般輻射效應,然后討論在 的計算密集型宇航器件上觀測到的典型輻射效應,最后提出并討論針對這些輻射效應的可用的輻射緩解技術。

1660204505112137.png

1. 太空輻射效應的介紹

輻射對半導體的影響與多個因數有關,例如工藝制程、器件幾何結構、電路實現和器件應用的太空輻射環(huán)境(低地球軌道(LEO)、中地球軌道(MEO)或地球靜止/地球同步軌道(GEO/GSO))。太空中有 3 種主要的輻射源:銀河宇宙射線、太陽輻射和輻射帶(粒子受地球磁場的影響聚集在地球附近的某個區(qū)域)。在特定輻射環(huán)境下半導體器件的性能壽命通常用總電離劑量(TID)和單粒子效應發(fā)生的頻率(SEE)表述。太空中的電子系統所受的輻射與軌道、任務壽命和屏蔽措施有關。輻射帶附近的離子通量的能量范圍在 0.1 到 10MeV 之間,會擊穿半導體的封裝并導致總電離劑量(TID)效應和單粒子效應(SEE)。具體來說,動能超過 300KeV 的輻射離子有更大的潛力穿透塑料、陶瓷或金屬的半導體封裝從而影響到內部的裸片。

輻射通過兩種方式影響半導體:1)累積效應(很多高能粒子通過而導致的長期效應)或 2)單個粒子通過而導致的事件。累積輻射劑量效應通常用總電離劑量(TID)量化,即捕獲并計算特定器件內由輻射產生的電荷,它會隨時間的累積導致器件參數的漂移。由單個粒子產生的效應被稱為單粒子效應(SEE),它是一種隨機/瞬時的中斷。

SEE 會導致破壞性或非破壞性的異常。非破壞性的 SEE 會破壞輸出或數據狀態(tài),但不會影響或損壞器件本身。當發(fā)生非破壞性 SEE 時,只要非平衡電荷和其效應完成重組并保持穩(wěn)定,就無需外部輸入來恢復系統的狀態(tài)。非破壞性 SEE 包括:SET(單粒子瞬變)、SEU(單粒子翻轉)、SEFI(單粒子功能中斷)和某些限制最大電流并不造成器件損壞的 SEL(單粒子栓鎖)。破壞性的 SEE 會破壞輸出或數據狀態(tài),并導致半導體器件損壞。破壞性 SEE 包括離子撞擊導致的低阻抗/大電流對器件造成的永久損壞。如果器件不是永久性損壞,則需重新上電(關/開)以恢復正常運行。除了破壞性的 SEL 之外,SEGR(單粒子柵穿)和 SEB(單粒子燒毀)也是災難性的事件,它們會導致電源和地之間突然出現低阻抗通路,并在輻射事件結束之后依然存在。


2. TELEDYNE E2V 的產品的輻射效應

用高能重離子和質子對耐輻射 CPU 和存儲器樣片進行輻射,在加速器中實現 SEE,從而測試待測器件(DUT)的輻射性能。當 DUT 上電并在正常條件下運行時(SEL 是例外,需在最大電壓和溫度下測試),我們會檢測電源電流和輸出狀態(tài)。隨后,我們用重離子或質子轟擊 DUT,并記錄電源電流和輸出狀態(tài)的任何瞬態(tài)變化。線性能量傳遞(LET)是電離粒子在單位距離內傳遞到器件上的能量。LET 取決于離子束的離子和能量,因此不同的離子會有不同的 LET。LET 會影響 SEE 的概率。LET 越高,硅中產生的載流子越多,載流子被困在電場中的概率越大,這種效應是可以被測量的。

對于數字設備,我們監(jiān)視其被輻射時產生的單粒子效應(SEE)(即由單個高能粒子撞擊產生的任何可測量或可觀察的性能狀態(tài)的變化)。SEE 包括單粒子翻轉(SEU)、單粒子功能中斷(SEFI)、單位/多位錯誤(S/MBE)和單粒子栓鎖(SEL)。檢測 SEE 通常需要打開封裝以露出裸片的有效區(qū)域。例如,采用倒裝結構封裝的器件需要移除蓋子并將裸片打薄至大約 75 微米,以最大化其所受的輻射影響。

除 SEE 測試外,我們還進行 TID 測試,流程如下:1)將晶圓單位封裝 2)使用自動測試設備(ATE)測試待測器件 (DUT)的電性能 3)將 DUT 放在測試板上,使其一半處于正常工作條件 4)將測試板暴露于輻射源下,對其進行額定 TID 的輻射,溫度為室溫,并檢測其狀態(tài) 5)使用 ATE 重新測試 DUT 以確保器件的功能依然正常,且沒有任何關鍵參數漂移出數據手冊的范圍。對于耐輻射器件,Teledyne e2v 的總劑量(TID)的目標值是 100krad,栓鎖 (SEL)的免疫值為最低 60MeV.cm2/mg。這是面向 GEO 軌道的參數。即使器件有能力耐受高輻射水平和劑量, 它們依然會發(fā)生 SEU 和 SEFI 事件。

對于存儲器產品(例如 DDR4),我們通常會檢測字錯誤(SBE 和 MBE),包括:1)行和列 2)SEFI 3)stuck 位。對于處理器產品(即 LS1046-Space),需檢測的錯誤通常包括:緩存上的 SEU 以及核心和外設上的 SEFI。

從根本上說,太空/衛(wèi)星研發(fā)團隊必須準確了解特定的耐輻射存儲器和/或 CPU 器件在太空飛行中可能出現的錯誤類型。顯然,若器件沒有出現某種類型的錯誤,則無需對這種從未發(fā)生的錯誤實施任何緩解技術。而對于出現過某種錯誤的存儲器和處理器器件,則需使用輻射緩解技術以消除或減少錯誤率,從而優(yōu)化太空飛行的運行狀態(tài)。Teledyne e2v 通過分析錯誤截面與 LET 的關系并繪制威布爾曲線(圖 1)來計算器件的 SEE 概率 (即 SEU、SEFI 等)。為了計算和預測在軌錯誤率,需將數據擬合到威布爾曲線上。若要完全了解器件對重離子和質子輻射的響應,可能需要進行多次試驗。若產品發(fā)生任何重大變更,如使用新的硅片設計或版本變更,通常需要重復進行 SEE 特性測試。

image.png

另一個例子是 QLS1046-Space 處理模塊(圖 2)。這個處理模塊使用一片 LS1046-Space 處理器和一片高速 DDR4 存儲器。我們對其進行了多次輻射測試,以測試處理器和存儲器的性能。對于 DDR4 存儲器,我們觀察到 4 種不同類型的事件:孤立字錯誤、行/列錯誤、SEFI 事件和 stuck 位。

1660204844334674.png

在測試存儲器時,孤立字錯誤(圖 3)是由于記憶單元上的局部離子撞擊,改變了 1 位 (SBE)或幾位(MBE)的狀態(tài),而導致的錯誤。

1660204887832800.png

在完成了器件的測試后,我們可計算出軌道錯誤率,以估算不采用任何緩解措施時,在特定條件下發(fā)生事件的頻率。表 1 是 LS1046-Space 的 SEU 錯誤結果的例子。

image.png

3. 數字產品的可用的緩解技術

由于測試得到的錯誤率對于某些應用可能不夠低,我們可以采用一些緩解技術,以進一步降低錯誤率并使其器件達到所需的性能或滿足可用性的需求。宇航/衛(wèi)星開發(fā)的輻射緩解技術要求選擇并實現耐輻射的器件,并結合最新的尖端的 COTS 技術以平衡性能和可用性。宇航/衛(wèi)星的開發(fā)遵循兩種設計方法:1)傳統:使用錯誤率低、價格昂貴的防輻射設計(RHBD)器件(采用獨特的設計以防止器件損壞并減弱輻射的影響,以及抵抗大電離劑量)。這些為特定目的設計的半導體器件通常不會使用最先進的技術。2)新宇航:更注重任務的成功執(zhí)行,愿意使用耐輻射器件,這些器件使用最新的工藝并可擁有強大的性能。

半導體的輻射耐受性取決于多種可控或不可控的變量。由于錯誤的發(fā)生難以避免,設計帶有內置糾錯電路(ECC)的耐輻射產品是很重要的,必要時還可使用冗余糾錯電路。例如,Teledyne e2v 的 QLS1046-Space 處理模塊已完成了開發(fā)和測試流程,它使用了多種輻射緩解技術(冗余和非冗余),可滿足給定輻射環(huán)境下所需的性能指標。為了管理輻射效應,典型的緩解技術需要使用板上 ECC(糾錯電路)。ECC 在 DDR4 存儲器中使用一個專用的額外字節(jié),因此存儲器的 72 位字大小被分為 64 位的實際數據和 8 位的糾錯碼。ECC 引擎內置于 LS1046-Space 處理器的 DDR4 控制器里。因此,DDR4 存儲器的 ECC 字節(jié)的行為與其他的數據字節(jié)完全相同,而錯誤緩解由 LS1046 處理器完成。ECC 可檢測和糾正 SBE,用戶只需簡單地啟用這個功能即可緩解這些錯誤。避免 SBE 的累積(由于多次離子撞擊導致)非常重要,因為隨著時間的推移可能會導致 MBE。LS1046 還具有一個擦除引擎,可定期掃描整個 DDR4 存儲器的內容,并糾正發(fā)生的 SBE。

為了解決輻射耐受的問題,我們還采用了電路級(多芯片)減少 SEE 的方法。常見的電路級設計技術包括:1)增加電路驅動能力并提供驅動冗余 2)增加額外的電路用于檢測和糾正錯誤位。錯誤檢測通常需要額外的 1 位來存儲每個數據字的奇偶校驗(無論字長如何)。當發(fā)生單位翻轉(SBU)時,數據的奇偶校驗結果與校驗位不同。奇偶校驗電路允許在兩個電路(和存儲器寬度)中以最小的成本檢測單個位錯誤。不幸的是,奇偶校驗電路的實現有兩個缺點: 1)它只是一個檢測系統,無法糾正錯誤 2)多位翻轉(MBU)無法被檢測出,會一直留在存儲器中。這就是所謂的靜默數據損壞。

如今,耐輻射系統需要不斷提高可靠性級別,同時避免發(fā)生靜默數據損壞,并最大限度地提高處理器的可用性和性能。系統 級架構可通過雙模冗余電路(DMR,圖 6)或三模冗余電路(TMR,圖 7)實現。這兩種架構可在邏輯路徑中檢測 SEU 或 SEFI 錯誤。對于 DMR 系統,當兩個輸出不同時,觸發(fā)錯誤檢測。對于 TMR 系統,錯誤檢測通過否決裁決器的另外兩個有效輸入實現。TMR 方法需使用 2 到 3 倍的硅片面積作為無保護數據路徑,并需要專門的仿真工具來識別關鍵邏輯路徑。最激進 且最昂貴的錯誤檢測和糾正電路也可通過系統級冗余的方式實現。這需要使用重復的冗余處理器內核——多個相同的內核以 lockstep 的方式運行(同一時間執(zhí)行相同的代碼)。由于在每個冗余的內核上都運行相同的計算和指令流,這種方法無論在硅片面積和功耗方面都很昂貴。除了上述的錯誤糾正技術,我們還使用了數據擦除技術。數據擦除技術通過一個后臺任務定期檢查主存儲器是否有錯誤,并通過冗余數據糾正檢測到的錯誤。它降低了單個可糾正錯誤積累成不可糾正錯誤的風險,并可檢查數據的不一致性,從而預防硬件和軟件系統失效。擦除速率由SEU率決定(例如速率可以是1/天到1/5000天)。

1660205328261284.png

1660205345335548.png

結論

如今的 CPU 和存儲器越來越復雜,測試越來越難,而且它們對輻射效應越來越敏感。使用這些器件實現新的輻射緩解技術對未來宇航飛行系統的發(fā)展具有重大的戰(zhàn)略意義。我們必須測試器件的 SEE 錯誤,計算發(fā)生錯誤的概率,以理解輻射效應并實現最有效的輻射緩解技術。最重要的是,深入了解不同的錯誤率和概率與輻射環(huán)境之間的關系,以最低的成本、最少的引入誤差實現最大的系統可用性和吞吐帶寬。Teledyne e2v 可為開發(fā)團隊提供關于耐輻射產品的信息和支持??蛻羧缬行枰?,我們可提供專門的輻射緩解應用筆記。



評論


相關推薦

技術專區(qū)

關閉