一種基于Flash型FPGA的高可靠系統(tǒng)設(shè)計(jì)
本文設(shè)計(jì)中采用的改進(jìn)型 TMR,實(shí)質(zhì)上是一種 3+n模冗余,N個(gè)子系統(tǒng)中昀多只有三個(gè)子系統(tǒng)同時(shí)處于運(yùn)行狀態(tài),其余的 N-3個(gè)子系統(tǒng)作為備份隊(duì)列,當(dāng)某個(gè)子系統(tǒng)出現(xiàn)錯(cuò)誤時(shí),表決模塊用備份的子系統(tǒng)替換下錯(cuò)誤的子系統(tǒng),繼續(xù)維持 TMR結(jié)構(gòu)。當(dāng)已無(wú)備份可用時(shí), 3模冗余系統(tǒng)可以進(jìn)行降級(jí)重構(gòu),由 3模冗余降級(jí)為 1模。由于延長(zhǎng)了三模冗余系統(tǒng)的工作時(shí)間,整個(gè)系統(tǒng)的可靠性得到了很大提高。
考慮到資源消耗與可靠性提高的平衡,本文設(shè)計(jì)中采用了 3+1模結(jié)構(gòu),也就是 3模冗余, 1模備份。3+1模結(jié)構(gòu)的工作方式為:正常時(shí)進(jìn)行三模冗余表決輸出,出現(xiàn)第 1次永久性故障時(shí)表決處理模塊能夠檢測(cè)出錯(cuò)誤,在輸出正常信號(hào)的同時(shí)用備用子系統(tǒng)替換故障子系統(tǒng),繼續(xù)維持 TMR結(jié)構(gòu);出現(xiàn)第 2 次永久故障時(shí),表決處理模塊仍然能夠檢測(cè)出錯(cuò)誤,在輸出正常信號(hào)的同時(shí)切除故障子系統(tǒng),自動(dòng)降級(jí)為單模工作直至單模子系統(tǒng)完全損壞。這種 3+1模結(jié)構(gòu)借鑒了軟件容錯(cuò)中的恢復(fù)塊技術(shù)和動(dòng)態(tài)冗余結(jié)構(gòu),能夠容忍至少 2個(gè)子系統(tǒng)錯(cuò)誤。由于 APA300實(shí)現(xiàn)遙控系統(tǒng)資源余量較大,采用了單片 FPGA片內(nèi)冗余的方案,進(jìn)一步簡(jiǎn)化了系統(tǒng)的復(fù)雜度。
3+1模結(jié)構(gòu)的狀態(tài)轉(zhuǎn)移圖如下, TMR、SMR和 Failure三個(gè)狀態(tài)分別代表三模冗余、單模工作和系統(tǒng)失效。
在設(shè)計(jì)中,通過(guò)冗余單元的互鎖機(jī)制(Inter-Lock, IL)來(lái)防止錯(cuò)誤數(shù)據(jù)通過(guò)冗余單元邊界傳播,為此采用了分區(qū)約束的方法進(jìn)行布局布線(xiàn)設(shè)計(jì)。分區(qū)設(shè)計(jì)不僅能夠隔離錯(cuò)誤,而且可以充分利用 APA300的 Spine分布,減少路徑延遲。
在用戶(hù)約束文件 GCF文件中作如下約束:
這四條語(yǔ)句把 U1~U4四個(gè)子系統(tǒng)分別限制在一個(gè) spine內(nèi),除了全局時(shí)鐘線(xiàn)和輸入輸出線(xiàn)以外,子系統(tǒng)之間沒(méi)有直接的連接,這樣分區(qū)布局布線(xiàn)以后就能夠有效地隔離錯(cuò)誤。
在保證可靠性的同時(shí),3+1模設(shè)計(jì)昀大程度的保證了輸出的實(shí)時(shí)性,不需要經(jīng)過(guò)關(guān)機(jī)等待周期、重發(fā)指令周期或者輸出不確定周期,能夠連續(xù)輸出正確結(jié)果直到系統(tǒng)完全倒向錯(cuò)誤狀態(tài)。為了避免系統(tǒng)重構(gòu)時(shí)過(guò)快降級(jí),考慮到很多錯(cuò)誤是瞬時(shí)出現(xiàn)又隨即恢復(fù)的軟錯(cuò)誤,因此設(shè)定錯(cuò)誤出現(xiàn)一定次數(shù)(例如 3次)以后才去掉故障模塊。
對(duì)于 3+1模結(jié)構(gòu),可靠性提高的代價(jià)是付出了 4倍的資源開(kāi)銷(xiāo),另外輸出時(shí)間延遲會(huì)略有增加,因?yàn)殛P(guān)鍵路徑上的表決器增加了判斷、替換的邏輯單元。因此這種結(jié)構(gòu)只適用于資源充裕、系統(tǒng)頻率不高的場(chǎng)合。在空間應(yīng)用系統(tǒng)中,工作速度往往不是昀重要的,因而 3+1模結(jié)構(gòu)實(shí)質(zhì)上是用速度換面積(可靠性),在資源不足的情況下可以只對(duì)關(guān)鍵模塊、錯(cuò)誤敏感率高的模塊進(jìn)行冗余,以節(jié)省資源。
4 系統(tǒng)可靠性分析
假設(shè)單機(jī)的可靠性為(運(yùn)行 5年后) , 普通 TMR和本文中改進(jìn)型 TMR的可靠性分別為。由于 2個(gè)以上子系統(tǒng)同時(shí)發(fā)生錯(cuò)誤的概率很小,假定同一時(shí)刻昀多只有一個(gè)子系統(tǒng)發(fā)生錯(cuò)誤。
TMR可以容忍 1個(gè)子系統(tǒng)錯(cuò)誤,可靠性相當(dāng)于 3個(gè)子系統(tǒng)都正常的可靠性加上某一個(gè)子系統(tǒng)錯(cuò)誤、其它兩個(gè)子系統(tǒng)正常的可靠性:
同理,改進(jìn)型 TMR的可靠性相當(dāng)于以下三種情況的可靠性之和:
1)4個(gè)子系統(tǒng)都正常
2)1個(gè)子系統(tǒng)錯(cuò)誤,其它 3個(gè)子系統(tǒng)正常
3)2個(gè)子系統(tǒng)錯(cuò)誤,其它 2個(gè)子系統(tǒng)正常
評(píng)論