基于FPGA的TMR方法改進(jìn)策略

作者：時(shí)間：2011-09-08 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://butianyuan.cn/article/150248.htm

　　2.1 TMR與Scrubbing結(jié)合

　　由于TMR本身不具備錯(cuò)誤模塊修復(fù)能力，若僅一個(gè)模塊出現(xiàn)錯(cuò)誤時(shí)，系統(tǒng)功能不受影響，但如果在另一個(gè)模塊出現(xiàn)錯(cuò)誤前不能對(duì)已出現(xiàn)的錯(cuò)誤模塊進(jìn)行修復(fù)，那么冗余方法會(huì)失效。所以當(dāng)出現(xiàn)一個(gè)錯(cuò)誤的時(shí)候，必須及時(shí)地對(duì)出錯(cuò)的模塊進(jìn)行修復(fù)。

　　隨著動(dòng)態(tài)可重構(gòu)技術(shù)的發(fā)展，出現(xiàn)了Scrubbing這種對(duì)FPGA進(jìn)行配置的方法。由于對(duì)于空間電子系統(tǒng)來(lái)說(shuō)影響最嚴(yán)重的是SEU等軟故障，而軟故障可以通過(guò)重構(gòu)來(lái)解決，所以周期性地對(duì)配置存儲(chǔ)器進(jìn)行刷新可以實(shí)現(xiàn)對(duì)這類錯(cuò)誤的修復(fù)。

　　Scrubbing和TMR配合使用對(duì)防止SEU的產(chǎn)生可以起到很好的效果。但很多研究同樣只考慮到單個(gè)錯(cuò)誤的影響，而忽略了多個(gè)SEU同時(shí)出現(xiàn)的可能性。理論上一個(gè)快速的刷新率可以保證某一時(shí)間內(nèi)只有一個(gè)錯(cuò)誤的存在。然而實(shí)際中錯(cuò)誤的出現(xiàn)是隨機(jī)的，這意味著任何刷新率都不能保證在一個(gè)刷新周期內(nèi)最多只出現(xiàn)一個(gè)錯(cuò)誤。在實(shí)際中使用這種方法時(shí)，必須通過(guò)復(fù)雜的實(shí)驗(yàn)過(guò)程對(duì)SEU出現(xiàn)的概率進(jìn)行估計(jì)。選取Scru-bbing的刷新率的經(jīng)驗(yàn)原則是使刷新率比估算的出錯(cuò)率高一個(gè)數(shù)量級(jí)。而現(xiàn)在隨著FPGA的規(guī)模越來(lái)越大，用來(lái)裝載整個(gè)配置位流的時(shí)間會(huì)達(dá)到幾百毫秒，刷新率更得不到保障，且系統(tǒng)功耗增大。

　　隨著部分TMR的實(shí)現(xiàn)，可以設(shè)計(jì)出具有檢錯(cuò)和定位功能的表決器，當(dāng)某個(gè)模塊出錯(cuò)時(shí)，表決器的信號(hào)直接觸發(fā)重構(gòu)功能，動(dòng)態(tài)地只對(duì)出錯(cuò)部分的電路進(jìn)行重構(gòu)。這樣可以解決Scrubbing時(shí)間和功耗的問(wèn)題，并為防止錯(cuò)誤積累提供了解決途徑。

　　為了防止表決器出錯(cuò)，表決器可以采用對(duì)輻射不敏感的器件來(lái)實(shí)現(xiàn)而替代基于SRAM的材料，這樣提高了表決器的穩(wěn)健性。文獻(xiàn)也提出了一種改進(jìn)的表決器。它不再使用多數(shù)表決器對(duì)三個(gè)冗余模塊的輸出進(jìn)行表決，而是將三個(gè)冗余模塊相應(yīng)的輸出通過(guò)三態(tài)緩沖器和少數(shù)表決器后分別由FPGA的三個(gè)輸出管腳輸出，最后在印刷電路板(PCB)上“線或”為一個(gè)信號(hào)。少數(shù)表決器電路負(fù)責(zé)判斷本冗余模塊的信號(hào)是否是少數(shù)

　　值，如果是少數(shù)值，則相對(duì)應(yīng)的緩沖器輸出高阻，如果不是，則使相應(yīng)的信號(hào)正常輸出。

　　Readback是在Scrubbing的基礎(chǔ)上發(fā)展起來(lái)的。它是指將配置數(shù)據(jù)回讀與最初的配置數(shù)據(jù)進(jìn)行比較，發(fā)現(xiàn)錯(cuò)誤后進(jìn)行重構(gòu)。文獻(xiàn)中使用了這樣的方法，另外它還采用了糾錯(cuò)碼來(lái)保護(hù)配置數(shù)據(jù)。每一個(gè)配置幀的數(shù)據(jù)被12位的see-dec漢明碼保護(hù)，而且FPGA中每個(gè)基本單元的識(shí)別碼都不一樣，通過(guò)ICAP(InternalConfiguration Access Port)回讀配置文件后，糾錯(cuò)碼可以給出錯(cuò)位的位置。

　　Scrubbing可以在不中斷電路工作的情況下修復(fù)SEU在LUT、布線矩陣和CLB中所造成的功能錯(cuò)誤。但是它不能改變LUT中觸發(fā)器中的內(nèi)容，所以它也就不能重置寄存器的狀態(tài)。當(dāng)存儲(chǔ)單元的值發(fā)生了翻轉(zhuǎn)，此時(shí)只能通過(guò)系統(tǒng)復(fù)位來(lái)得到修復(fù)。然而系統(tǒng)復(fù)位將使系統(tǒng)功能中斷，嚴(yán)重影響系統(tǒng)的性能。

　　2.2 小粒度TMR技術(shù)

　　隨著部分動(dòng)態(tài)重構(gòu)技術(shù)的出現(xiàn)，產(chǎn)生了小粒度的TMR方法?？梢砸暂^小的粒度為步長(zhǎng)，采用合理的布局與布線實(shí)現(xiàn)TMR以達(dá)到要求的資源開(kāi)銷并得到最大的可靠性。文獻(xiàn)中對(duì)在出現(xiàn)多個(gè)錯(cuò)誤的情況下不同粒度TMR的容錯(cuò)性能進(jìn)行了實(shí)驗(yàn)分析，結(jié)果表明小粒度TMR比以整個(gè)系統(tǒng)為粒度進(jìn)行TMR的效果好。

　　在全局TMR不可行的情況下(例如資源有限)，小粒度TMR是一個(gè)較好的選擇，可以在使用較少資源的情況下提高系統(tǒng)的可靠性。由于不是對(duì)所有的模塊都采用冗余措施，所以在實(shí)現(xiàn)的時(shí)候必須著重于對(duì)那些可以相對(duì)更高地提高系統(tǒng)可靠性的模塊應(yīng)用TMR技術(shù)。此時(shí)表決器的數(shù)量和位置也是一個(gè)需要考慮的問(wèn)題。由于采用三模冗余的模塊前后需要額外的布線，而邏輯電路和布線資源都對(duì)SEU敏感，所以這樣的結(jié)果會(huì)降低系統(tǒng)可靠性。如圖2所示，圖中陰影部分是對(duì)SEU敏感的，由圖可以看出(c)中敏感的部分比(b)中多，這是由于表決器和額外的布線造成的。所以需要限制三模冗余電路和未采用三模冗余的電路的轉(zhuǎn)變，這樣可以通過(guò)集中使用三模冗余技術(shù)而提高系統(tǒng)可靠性。

　　為了選擇需要進(jìn)行三模冗余的模塊并進(jìn)行合理的布局布線，將系統(tǒng)出現(xiàn)的錯(cuò)誤分為持續(xù)性錯(cuò)誤和非持續(xù)性錯(cuò)誤。持續(xù)性的錯(cuò)誤是指由SEU產(chǎn)生的改變了電路內(nèi)部狀態(tài)的錯(cuò)誤;非持續(xù)性錯(cuò)誤是指可以通過(guò)FPGA重構(gòu)而消除的錯(cuò)誤，而持續(xù)性錯(cuò)誤在重構(gòu)后依然存在。

　　結(jié)合以上的分析，實(shí)施部分TMR的優(yōu)先級(jí)別如下：

　　第一級(jí)是會(huì)產(chǎn)生持續(xù)性錯(cuò)誤的部分。

　　第二級(jí)是會(huì)導(dǎo)致能產(chǎn)生連續(xù)性錯(cuò)誤電路部分出錯(cuò)的電路，以降低TMR和非TMR之間的轉(zhuǎn)換為準(zhǔn)則。

　　第三級(jí)是會(huì)產(chǎn)生持續(xù)性錯(cuò)誤電路的前向部分，同樣以降低TMR和非TMR之間的轉(zhuǎn)換為準(zhǔn)則。

　　第四級(jí)是與會(huì)產(chǎn)生持續(xù)性錯(cuò)誤電路部分獨(dú)立的部分。

　　可以通過(guò)靜態(tài)的分析來(lái)對(duì)電路進(jìn)行劃分。這里存在的問(wèn)題是在標(biāo)準(zhǔn)的全局TMR中，所有的輸入、輸出以及時(shí)鐘都進(jìn)行了三模冗余，而使用部分TMR時(shí)，對(duì)I/O以及時(shí)鐘的冗余有可能不能被實(shí)現(xiàn)。和沒(méi)有采用TMR的邏輯電路一樣，沒(méi)有進(jìn)行TMR的時(shí)鐘和I/O同樣可以產(chǎn)生不能被檢測(cè)的錯(cuò)誤。

　　由實(shí)驗(yàn)結(jié)果來(lái)看，由于此方法主要著重于能產(chǎn)生持續(xù)性錯(cuò)誤的電路部分，所以當(dāng)所使用的冗余資源增多時(shí)，持續(xù)性的錯(cuò)誤出現(xiàn)的幾率很快的降低，最終幾乎全部被克服掉。所以采用部分TMR可以在資源和可靠性間達(dá)到平衡，在最小限度影響可靠性的條件下，最大限度地提高資源利用率。

　　另外，一個(gè)翻轉(zhuǎn)有可能改變配置存儲(chǔ)器中控制布線的配置位，而使得兩個(gè)不同冗余模塊間的連線短路，這樣一個(gè)翻轉(zhuǎn)影響了TMR中不止一個(gè)模塊，導(dǎo)致輸出錯(cuò)誤。而配置資源中的90%都用來(lái)控制布線，所以這個(gè)問(wèn)題是需要考慮的。產(chǎn)生這種錯(cuò)誤的可能性還依賴于TMR的布局，而TMR的布局直接依賴于多數(shù)表決器的數(shù)量。當(dāng)表決器增多時(shí)，模塊之間需要額外的連接，所以各模塊必須靠得很近，這樣使得一次翻轉(zhuǎn)導(dǎo)致模塊之間短路的可能性增加。為了降低會(huì)影響TMR穩(wěn)健性的產(chǎn)生改變布線的錯(cuò)誤的可能性，必須最大可能地減少各個(gè)模塊之間的連接。如果多數(shù)表決器的數(shù)量可以被降下來(lái)，那么模塊之間的連接可以減少。

　　解決這個(gè)問(wèn)題的方法是采用較大粒度的TMR以降低它們之間的連接，且表決器只應(yīng)用在電路輸出部分。但同時(shí)又出現(xiàn)了一個(gè)新的問(wèn)題，例如為對(duì)存儲(chǔ)單元的狀態(tài)進(jìn)行修復(fù)，Xilinx提出了將表決器應(yīng)用在有寄存器的地方并加入反饋以糾正翻轉(zhuǎn)對(duì)寄存器中值的影響的XTMR方法，如果內(nèi)部的表決器被去掉，那么出錯(cuò)部分存儲(chǔ)單元的錯(cuò)誤將得不到糾正，所以重構(gòu)后它與其他模塊工作的狀態(tài)不同步。

　　文獻(xiàn)中解決這個(gè)問(wèn)題的方法是通過(guò)從外部存儲(chǔ)器中讀取存儲(chǔ)的工作狀態(tài)。但是這個(gè)方法需要三個(gè)模塊離線后才能進(jìn)行狀態(tài)的存儲(chǔ)和重置進(jìn)而達(dá)到同步。顯然可行性不高，尤其是對(duì)實(shí)時(shí)性要求高的電路。

　　針對(duì)此問(wèn)題，文獻(xiàn)提出了一種同步技術(shù)，該技術(shù)TMR系統(tǒng)中采用狀態(tài)寄存器復(fù)制機(jī)制，并在三個(gè)冗余模塊之間引入數(shù)據(jù)通路來(lái)傳輸狀態(tài)寄存器的數(shù)據(jù)。當(dāng)某一個(gè)冗余模塊發(fā)生故障被局部重構(gòu)后，能夠通過(guò)接受主控制器的令牌，從正常模塊復(fù)制狀態(tài)寄存器的數(shù)據(jù)來(lái)完成同步而及時(shí)地恢復(fù)工作。該方法縮短了故障模塊從修復(fù)到重新加入系統(tǒng)工作的時(shí)間，從而減小發(fā)生故障積累的概率，提高冗余系統(tǒng)的可靠性。

　　另一種方法是預(yù)測(cè)其他模塊最快會(huì)達(dá)到的狀態(tài)，然后對(duì)重構(gòu)后的模塊進(jìn)行狀態(tài)的預(yù)置。這時(shí)只需使要重構(gòu)的模塊停止工作而不影響其他兩個(gè)模塊的工作，當(dāng)工作模塊的狀態(tài)和預(yù)置的狀態(tài)同步時(shí)，三個(gè)模塊又一起工作。此時(shí)狀態(tài)選擇是一個(gè)問(wèn)題，這個(gè)狀態(tài)到達(dá)的頻率必須很高，而且會(huì)在較快時(shí)間內(nèi)到達(dá)，另外多個(gè)狀態(tài)可以提高效率但同時(shí)會(huì)使預(yù)置信號(hào)寬度增加。

　　如果寄存器中狀態(tài)不可預(yù)測(cè)，例如寄存器鏈和加法器，那么不能使用這個(gè)方法，所以這種方法需要改進(jìn)以提高其適應(yīng)性。在TMR各模塊布線時(shí)，盡量將它們相隔有一定的距離，這樣也可以降低一個(gè)模塊出現(xiàn)錯(cuò)誤后對(duì)其他模塊造成影響的可能性。

上一頁(yè) 1 2 3 下一頁(yè)

新聞中心

基于FPGA的TMR方法改進(jìn)策略

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)