錯誤檢測與糾正電路的設(shè)計與實現(xiàn)
在一些電磁環(huán)境比較惡劣的情況下,一些大規(guī)模集成電路常常會受到干擾,導(dǎo)致不能正常工作。特別是像RAM這種利用雙穩(wěn)態(tài)進行存儲的器件,往往會在強干擾下發(fā)生翻轉(zhuǎn),使原來存儲的"0"變?yōu)?1",或者"1"變?yōu)?0",造成的后果往往是很嚴重的。例如導(dǎo)致一些控制程序跑飛,存儲的關(guān)鍵數(shù)據(jù)出錯等等。現(xiàn)在,隨著芯片集成度的增加,發(fā)生錯誤的可能性也在增大。在一些特定的應(yīng)用中,這已經(jīng)成為一個不能忽視的問題。例如在空間電子應(yīng)用領(lǐng)域,單粒子翻轉(zhuǎn)效應(yīng)就成為困擾設(shè)計師的一個難題。
在這種情況下,我們可以采用錯誤檢測與糾正EDAC(Error Detection And Correction)電路來有效地減少或避免這種情況的出現(xiàn)。根據(jù)檢錯、糾錯的原理,主要思想是在數(shù)據(jù)寫入時,根據(jù)寫入的數(shù)據(jù)生成一定位數(shù)的校驗碼,與相應(yīng)的數(shù)據(jù)一起保存起來;當讀出時,同時也將校驗碼讀出,進行判決。如果出現(xiàn)一位錯誤則自動糾正,將正確的數(shù)據(jù)送出,并同時將改正以后的數(shù)據(jù)回寫覆蓋原來錯誤的數(shù)據(jù);如果出現(xiàn)兩位錯誤則產(chǎn)生中斷報告,通知CPU進行異常處理。所有這一切動作都是靠硬件設(shè)計自動完成的,具有實時性和自動完成的特點。通過這樣的EDAC電路,能大大提高系統(tǒng)的抗干擾能力,從而提高系統(tǒng)的可靠性。
當然,有一些現(xiàn)成的集成電路芯片可以完成上述功能,如74系列的74630芯片等。但由于嵌入式系統(tǒng)中,往往由于集成化的需要,要將這樣的功能集成到FPGA中去實現(xiàn),因此采用VHDL語言進行設(shè)計具有靈活性和通用性的特點。
1 檢錯與糾錯原理
首先來看看檢錯和糾錯的基本原理。進行差錯控制的基本思想是在信息碼組中以一定規(guī)則加入不同方式的冗余碼,以便在信息讀出的時候依靠多余的監(jiān)督碼或校驗碼來發(fā)現(xiàn)或自動糾正錯誤。
針對誤碼發(fā)生的特點,即錯誤發(fā)生的隨機性和小概率性,它幾乎總是隨機地影響某個字節(jié)中的某一位(bit),因此,如果能夠設(shè)計自動糾正一位錯誤,而檢測兩位錯誤的編碼方式,就可以大大的提高系統(tǒng)的可靠性。
現(xiàn)在我們以16位的CPU數(shù)據(jù)總線為例,假定信息源的位數(shù)為16,要構(gòu)造一種能夠糾正一位錯誤,檢查兩位錯誤的編碼方式。根據(jù)"糾錯定理",需要設(shè)計最小漢明距離≥4的碼組。我們可以采用線形分組碼,利用線性分組碼的概念可以構(gòu)造六位監(jiān)督碼,它們由如下線性關(guān)系產(chǎn)生:
其中,d0~d15為16位數(shù)據(jù)(15為最高位MSB,0為最低位LSB),C0~C5為產(chǎn)生的六位監(jiān)督碼,表示進行異或運算。
在數(shù)據(jù)讀出時,我們只需要考察伴隨式S=[S0 S1 S2 S3 S4 S5],其中:
很容易證明,根據(jù)伴隨式進行誤差診斷,符合表 1所列情況。
表1 誤差診斷碼表
當S = [0 0 0 0 0 0]時,數(shù)據(jù)正確無誤;
當S = [0 0 1 0 1 1]時,數(shù)據(jù)錯一位,并且錯誤發(fā)生在d0位,可將d0位的數(shù)據(jù)取反加以糾正;
當S = [0 0 1 1 0 1]時,數(shù)據(jù)錯一位,并且錯誤發(fā)生在d1位,可將d1位的數(shù)據(jù)取反加以糾正;
當S= [1 1 0 1 0 0]時,數(shù)據(jù)錯一位,并且錯誤發(fā)生在d15位,可將d15位的數(shù)據(jù)取反加以糾正;
當S = [0 0 0 0 0 1]時,數(shù)據(jù)錯一位,并且錯誤發(fā)生在C0位;
當S = [1 0 0 0 0 0]時,數(shù)據(jù)錯一位,并且錯誤發(fā)生在C5位;
當S為其它情況時,至少發(fā)生兩位錯誤。
可以看出,這種編碼方式可以滿足自動糾正一位錯誤,而發(fā)現(xiàn)兩位錯誤的要求。下面就進一步討論如何用電路來實現(xiàn)。
2 EDAC電路的設(shè)計
EDAC電路必須配合CPU的讀寫時序進行工作,不同類型CPU的時序往往是不一樣的。一般來說,總可以分為讀周期和寫周期。在寫周期時,按照上面的設(shè)計邏輯,根據(jù)16位數(shù)據(jù)位生成6位的校驗字,這時,數(shù)據(jù)位是輸入,校驗位是輸出,并在該寫周期中將數(shù)據(jù)位和校驗位都存儲到相應(yīng)的存儲器位置中去,這種情況比較簡單。在讀周期時,情況復(fù)雜些,可以設(shè)計成三步完成。第一步,在CPU讀信號來之前,由于存儲器地址和片選信號已經(jīng)有效,可先將數(shù)據(jù)位和校驗位讀入, 這時,數(shù)據(jù)位和校驗位都是作為輸入。第二步,在讀信號來時,將數(shù)據(jù)位、校驗位鎖存,同時進行檢測,如果無錯,則不進行任何處理,直接將數(shù)據(jù)輸出;如果發(fā)現(xiàn)二位錯,則產(chǎn)生中斷;如果是一位錯,在輸出上有所反應(yīng),并進入下一步。第三步,如果是數(shù)據(jù)位出錯,將其自動更正,并將正確的值再回寫到相應(yīng)的內(nèi)存地址中, 將正確的數(shù)據(jù)值輸出到數(shù)據(jù)總線;如果是校驗位出錯,可以直接將正確的數(shù)據(jù)位輸出到數(shù)據(jù)總線上。這部分功能是EDAC功能的核心,可以用VHDL語言來實現(xiàn),以下是設(shè)計思路。
(1) 對輸入的設(shè)計
① 數(shù)據(jù)位和校驗位的輸入。
?、?控制端的輸入。經(jīng)過前面的分析,一共有四種狀態(tài)(寫一種狀態(tài)、讀三種狀態(tài)),可以設(shè)計兩個控制端,設(shè)為C0、C1。其功能見表 2。
(2) 對輸出的設(shè)計
?、?數(shù)據(jù)位和校驗位的輸出。其中校驗位的輸出在讀周期和寫周期有所不同:在寫周期校驗位輸出是生成的校驗位;而讀周期就沒有必要輸出校驗位了,可以設(shè)計為輸出伴隨式S。
② 錯誤標記輸出。在應(yīng)用中,可以設(shè)計兩種錯誤標記輸出,分別記為ERR和INT。其中ERR輸出"1"表示數(shù)據(jù)位有錯誤產(chǎn)生,包括可自動糾正的一位錯誤和兩位或兩位以上錯誤。INT輸出"1"則表示發(fā)生了兩位或以上錯誤,無法自動糾正,向CPU申請中斷,由CPU進行異常處理。
在表2中,總結(jié)了上面所描述的功能設(shè)計。
表2 EDAC模塊功能表
{{分頁}}
圖1為EDAC部分邏輯等效圖。
圖1 EDAC模塊等效邏輯圖
由于邏輯關(guān)系已經(jīng)非常明確了,下面討論采用VHDL語言實現(xiàn)上述EDAC模塊的功能??梢杂袃煞N方法來實現(xiàn)VHDL編程,即RTL級語言描述和行為級語言描述。其中RTL級描述的實現(xiàn)難度比較大,需要根據(jù)前面設(shè)計的邏輯功能,轉(zhuǎn)換為基本的門來描述;有效率高和受邏輯綜合軟件的影響小等優(yōu)點,但可讀性差, 實現(xiàn)起來比較困難。因此我們采用的是行為級描述,根據(jù)四個輸入作敏感量,用一個進程(process)就可以實現(xiàn)。編程思路是:根據(jù)控制端C0和C1進行判斷,如果是寫周期,直接將輸入的數(shù)據(jù)相應(yīng)位進行異或后輸出;如果是讀周期,先生成伴隨式S,然后判斷S,用CASE語句執(zhí)行相應(yīng)的輸出。需要強調(diào)的是在不需要輸出的時候,要把輸出端用高阻封住。
利用這個EDAC模塊再輔以簡單的外圍電路就可以實現(xiàn)較強的EDAC功能,可以把這一部分整個電路都集成到FPGA中。
3 仿真結(jié)果
仿真環(huán)境:MAX+plus II 10.0。
仿真模擬器件:FLEX 10K系列,EPF10K10LC84-3。
信號功能說明見表 3。
表3 仿真信號說明
(1) 寫周期的仿真
圖2所示仿真圖中,275~500 ns仿真了一個寫周期,數(shù)據(jù)輸入是AA55,而校驗位輸出是00,通過驗證是符合上面的設(shè)計邏輯的。
圖2 仿真結(jié)果
(2) 讀周期的仿真
在讀周期的仿真中,我們模擬了以下四種情況。
?、?正確的讀周期:出現(xiàn)在650~975ns,校驗位、數(shù)據(jù)位都是正確值。
?、?數(shù)據(jù)位出現(xiàn)一位錯誤:圖2中1.25~1.65 μs模擬了數(shù)據(jù)位產(chǎn)生一位錯誤的情況。數(shù)據(jù)正確的情況下應(yīng)該是AA55,但現(xiàn)在d8位發(fā)生了錯誤,讀入的數(shù)據(jù)變?yōu)锳B55,可以看出數(shù)據(jù)已經(jīng)被自動更正為 AA55;同時,ERR輸出"1"表明有錯誤發(fā)生,CBOUT輸出為23,即100011,從表 1可以看出是d8位發(fā)生了錯誤。
?、?校驗位出現(xiàn)一位錯誤:圖2中1.8~2.0μs模擬了校驗位產(chǎn)生一位錯誤的情況。校驗位正確的情況下應(yīng)該是00,但現(xiàn)在C2位發(fā)生了錯誤,讀入的數(shù)據(jù)變?yōu)?04,可以看出數(shù)據(jù)沒變,仍為正確值A(chǔ)A55;同時,ERR沒有輸出,CBOUT輸出為04,即000100,從表一可以看出是C2位發(fā)生了錯誤。
?、?發(fā)生了兩位錯誤:圖 2中2.4~2.75μs模擬了數(shù)據(jù)位產(chǎn)生兩位錯誤的情況。數(shù)據(jù)正確的情況下應(yīng)該是AA55,但現(xiàn)在d8位和d0位發(fā)生了錯誤,讀入的數(shù)據(jù)變?yōu)锳B54, 可以看出EDAC電路已經(jīng)無法自動更正。 ERR和INT同時輸出"1"表明有多位錯誤發(fā)生,INT信號可以向CPU申請中斷,用中斷服務(wù)程序進行異常處理。
可以看出仿真結(jié)果可以滿足設(shè)計時的思想,能夠起到自動糾正一位錯誤和檢測兩位錯誤的功能。
結(jié)語
本文利用糾錯編碼的基本知識,提出了一種簡單實用的能自動糾正一位錯誤和檢查兩位錯誤的編碼方法,并且通過VHDL語言編程,用FPGA器件來實現(xiàn)。在我們自己的嵌入式系統(tǒng)中,EDAC電路已經(jīng)得到了應(yīng)用和驗證。現(xiàn)在越來越多的嵌入式系統(tǒng)對可靠性要求越來越高,采用EDAC技術(shù)可以簡單有效地提高系統(tǒng)的容錯能力;但針對不同系統(tǒng),EDAC和CPU的時序配合可能會有所不同。例如,對于一些時鐘頻率比較高的CPU,可能需要插入等待周期等等,但由于采用 VHDL語言進行設(shè)計,有很大的靈活性,稍加改動就可以滿足不同場合的需求。
參考文獻
1 王新梅, 等. 計算機中的糾錯碼技術(shù).北京:人民郵電出版社,1999
2 侯伯亨, 顧新. VHDL硬件描述語言與數(shù)字邏輯電路設(shè)計. 西安:西安電子科技大學(xué)出版社,1997
3 伍志剛. 星載SAR計算機可靠性設(shè)計與糾錯編研究:[碩士學(xué)位論文]. 北京:中國科學(xué)院,2000
評論