關(guān) 閉

新聞中心

EEPW首頁 > 安全與國防 > 設(shè)計應(yīng)用 > 在關(guān)鍵系統(tǒng)中降低災(zāi)難性硬件故障引起的損失

在關(guān)鍵系統(tǒng)中降低災(zāi)難性硬件故障引起的損失

作者:Analog Devices公司 Sean Gilmour 時間:2004-07-21 來源:電子產(chǎn)品世界 收藏
許多原始設(shè)備制造商(OEM)在服務(wù)器、PC和其它系統(tǒng)的設(shè)計中都采用了監(jiān)控器件來保證系統(tǒng)電源出現(xiàn)問題時把它及時關(guān)閉,從而避免損壞硬件。
但是,很少有OEM廠商在如何針對電源單元(PSU)問題做出反應(yīng)方面為最終用戶提供選擇。例如,考慮一個運行繁忙的電子商務(wù)網(wǎng)站的任務(wù)關(guān)鍵服務(wù)器。如果系統(tǒng)檢測到過壓情況,服務(wù)器很可能會立即關(guān)閉以保護硬件。反應(yīng)如此快使得系統(tǒng)無法軟關(guān)機,因此很可能會丟失數(shù)據(jù)并失去潛在的客戶。
在許多情況下,數(shù)據(jù)要遠比硬件重要,根據(jù)問題的類型,在允許系統(tǒng)軟關(guān)機的情況下仍可使硬件風險最低。俗話說“條條大路通羅馬”,系統(tǒng)設(shè)計的目標是使系統(tǒng)在此時的總體損失最小,因此處理電源問題的方法也不止一種。
幾乎任何類型系統(tǒng)中都會發(fā)生的一種情形是電源故障導致電壓下降。圖1給出了一個簡單的例子,利用Analog Devices公司ADM1024等系統(tǒng)硬件監(jiān)測IC來監(jiān)測兩路獨立電源。對ADM1024器件進行編程,當電壓高于預(yù)先編程設(shè)定的一個電壓數(shù)值或低于另一個預(yù)先設(shè)定的電壓數(shù)值時,器件將產(chǎn)生一個中斷,也就是說,該器件為每個電壓通道提供了一個內(nèi)置的窗口比較器。如果一路電源的電壓輸出開始漂移,那么當輸出超出編程設(shè)定的電壓范圍時,器件將會自動產(chǎn)生一個中斷。然后由系統(tǒng)管理控制器決定如何針對這一信息做出響應(yīng)。請注意獨立的過壓保護機制,這是為了在嚴重過壓時實現(xiàn)硬件保護。還有這樣的可能性,就是在系統(tǒng)管理控制器從系統(tǒng)監(jiān)測電路中讀取電壓數(shù)值并決定行動方式時,系統(tǒng)電壓可能會上升到危險的水平。最終是否需要此類保護電路取決于每個電源的故障機制是否會導致PSU故障過程中出現(xiàn)危險性的過壓情況。

圖1  監(jiān)測兩個獨立的PSU



圖2  PSU故障時的可能響應(yīng)



圖3  管理不同級別的故障


圖2中的流程圖示出了可供用戶選擇的可能操作,需要指出的重要一點是電源出現(xiàn)問題時數(shù)據(jù)備份的方式。當系統(tǒng)電源不穩(wěn)定時,如果用戶試圖保存數(shù)據(jù)很容易導致數(shù)據(jù)破壞。這種狀態(tài)下的連續(xù)操作很容易損壞整個數(shù)據(jù)庫,從而使得整個電源故障響應(yīng)機制出現(xiàn)問題。如果保護未保存數(shù)據(jù)的成本遠小于數(shù)據(jù)丟失的成本,那么可以為緊急關(guān)機提供一個替代存儲位置。
通過將當前事務(wù)拷貝到一個替代位置(例如,拷貝到非易失性RAM或備用硬盤驅(qū)動器中)以便進行事后分析,可以將損壞已穩(wěn)定數(shù)據(jù)區(qū)域的可能性降到最小。如果能夠通過這種方式保存當前數(shù)據(jù),那么即使受到一定的破壞,仍有機會恢復(fù)數(shù)據(jù)。
不管怎樣,在系統(tǒng)設(shè)計時都可以確定哪種電源故障狀態(tài)容易導致數(shù)據(jù)破壞,同時通過縮小電源監(jiān)測IC的窗口比較器范圍來降低數(shù)據(jù)破壞的可能性。
結(jié)合其它監(jiān)測到的信息,包括遠程溫度、IRQ、風扇速度等,可以獲得系統(tǒng)故障的更確切情況,從而使設(shè)計人員可更好地針對不同情況做出反應(yīng)。
然而,響應(yīng)速度最快的方式是利用監(jiān)測IC中斷來報告可能的系統(tǒng)問題,中斷表明系統(tǒng)出現(xiàn)了故障,然后系統(tǒng)管理控制器立即對這一信息做出反應(yīng)。在系統(tǒng)中,PSU自身問題會很快表現(xiàn)出來,而對有些問題,系統(tǒng)管理控制器讀取寄存器并試圖形成解決方案的過程可能就太慢了。解決這一問題的方法是利用兩片監(jiān)測IC,如Analog Devices公司的ADM1024(參看圖3)。每片IC的19引腳(Vccp1)連接在一起。在一片IC上,對窗口比較器編程來監(jiān)測較小的PSU問題;在第二片IC上,對窗口比較器編程來監(jiān)測更為嚴重的問題(比如,其界限可編程為接近系統(tǒng)安全工作的最大和最小額定電壓)。來自第一片監(jiān)測IC的中斷使系統(tǒng)通知用戶出現(xiàn)問題,并立即執(zhí)行預(yù)設(shè)定的策略,將服務(wù)中斷造成的影響降到最小。來自第二片IC的中斷表明系統(tǒng)處于崩潰的危險邊緣,系統(tǒng)應(yīng)當采用更為迫切的反應(yīng)措施。
盡管這種機制的可行性要視系統(tǒng)而定,但通常在檢測到系統(tǒng)出現(xiàn)問題時并不是只有立即關(guān)閉系統(tǒng)一種選擇,還有許多其它的選擇。主動監(jiān)測一系列系統(tǒng)參數(shù)能夠提供足夠的信息來構(gòu)建對硬件和數(shù)據(jù)最安全的解決方案,從而最終節(jié)約大量成本。■


關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉