嵌入式系統(tǒng)的高可用性
設(shè)計人員正在調(diào)整各種高可用體系結(jié)構(gòu),以滿足客戶對用于下一代超級可靠嵌入式系統(tǒng)應(yīng)用的持久數(shù)據(jù)接口的需求。
本文引用地址:http://butianyuan.cn/article/151218.htm要點
高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)實現(xiàn)動態(tài)路徑,人們能圍繞不可操作的子系統(tǒng)重新設(shè)定信息路由。
管理軟件自動監(jiān)視系統(tǒng)工作,并在發(fā)生故障或性能降低時用冗余元件來替換。
熱插拔特性實現(xiàn)無中斷的修理和升級,并為發(fā)展容錯自愈系統(tǒng)鋪平了道路。
刀片計算機集群以更低的采購和運營成本支持可擴展、高密度、高可用的服務(wù)器系統(tǒng)。
隨著普適計算時代的到來(屆時用戶將可隨時隨地訪問信息和服務(wù)),嵌入式系統(tǒng)設(shè)計人員在提高服務(wù)器、遠程設(shè)備、數(shù)據(jù)傳輸基礎(chǔ)設(shè)施的可用性方面承受著日益增大的壓力。鑒于其應(yīng)用,人們對嵌入式系統(tǒng)可靠性的期望遠遠高于對多數(shù)其它計算系統(tǒng)的期望。終止或重啟其中一些關(guān)鍵應(yīng)用系統(tǒng)需要承擔(dān)人身財產(chǎn)或重要信息損失的風(fēng)險。在滿足這些要求的過程中,嵌入式系統(tǒng)設(shè)計者運用各種智能硬件和軟件冗余技巧在日常運行中實現(xiàn)高達99.999%的可用性,即每年停機時間不到六分鐘。
“高可用性”描述系統(tǒng)特性,它們使系統(tǒng)在發(fā)生硬件或軟件故障時能夠保持連續(xù)工作。高可用系統(tǒng)具有內(nèi)置監(jiān)視和復(fù)制數(shù)據(jù)路徑,透明地取代可選硬件或軟件組件復(fù)制正常功能,在出現(xiàn)故障時也能照常工作。一般而言,高可用性系統(tǒng)還支持在不中斷運行的前提下替換故障組件或升級。隨著通用連接的問世,數(shù)據(jù)安全也成了可用性的一個要素,這是因為未授權(quán)的黑客、惡意軟件或外部“拒絕服務(wù)”攻擊會導(dǎo)致預(yù)期功能中斷??捎眯砸话愣x為MTBF/(MTBF+MTTR),其中MTBF是指平均無故障時間,MTTR是指平均修理時間。
高可用性對于越來越多的嵌入式系統(tǒng)應(yīng)用都變得十分必要,而不斷提高的技術(shù)趨勢使系統(tǒng)設(shè)計任務(wù)日益困難。例如,可以預(yù)見,隨著客戶需要嵌入式設(shè)備中有更多功能,增加的硬件和軟件組件帶來了新的故障模式。顯然,增加的的組件不利于達到更高的可用性,甚至產(chǎn)生其它冗余性,從而不斷加劇系統(tǒng)復(fù)雜性。當(dāng)前向普遍連接發(fā)展的趨勢也給高可用嵌入式系統(tǒng)設(shè)計者帶來了許多數(shù)據(jù)安全與通信可靠性問題。雖然最可靠的系統(tǒng)可能使用有限資源的簡便的單獨設(shè)備,但設(shè)計者必須采用一種提高任意嵌入配置可用性的戰(zhàn)略。
不間斷運行
當(dāng)前多數(shù)用于提高服務(wù)可用性的訣竅和技巧均源自電信行業(yè)。多年來,電信設(shè)備制造商設(shè)計了多種方案,以便提供不間斷的服務(wù),即使發(fā)生硬件和軟件故障也是如此。遺憾的是,多數(shù)方案都是專有的,維護費用高,并且難以在要求演變時進行更新。它們還需要很長的開發(fā)周期。設(shè)備設(shè)計者無法利用COTS(商用現(xiàn)貨)構(gòu)件,這是因為沒有通用內(nèi)置設(shè)備提高服務(wù)可用性。為了解決可用性難題,電路板制造商制定一系列可與專有系統(tǒng)性能匹敵的硬件和軟件規(guī)范。
IPMI(智能平臺管理接口)規(guī)范是用來解決可用性問題的最早標(biāo)準(zhǔn)之一,它由戴爾、英特爾、惠普、NEC公司制定,旨在從本地和遠程監(jiān)視設(shè)備,以便執(zhí)行電源管理、冷卻、電子鍵控和熱插拔等事務(wù)處理。IPMI與管理控制器相互配合,后者在主機處理器出現(xiàn)故障時可依靠自身運行。借助平臺管理,操作人員能監(jiān)視設(shè)備是否出現(xiàn)邊際操作或潛在問題,并能在它們變成系統(tǒng)故障之前糾正它們。PICMG(PeripheralComponentInterconnectIndustrialComputerManufacturersGroup)組織把IPMI的若干變體都包含到電路板級CompactPCI規(guī)范和ATCA(高級電信計算架構(gòu))規(guī)范中。
為了最大限度發(fā)揮IPMI的優(yōu)勢,設(shè)備客戶需要具備熱插拔功能,以便在不關(guān)閉系統(tǒng)的情況下替換出故障的系統(tǒng)板。熱插拔系統(tǒng)要求硬件和軟件能夠在等待修理的同時,動態(tài)設(shè)定信號路由,使其繞過出故障的組件。必備熱插拔技術(shù)之一是系統(tǒng)板和背板之間的物理連接。如果不控制電源涌流和背板信號連接,簡單直連可能會干擾總線上的其它板。例如,CompactPCI利用不同長度的分級引腳來控制通向背板的物理連接??ㄆ瑢?dǎo)向器確保板的插入垂直于背板。較長的引腳首先對接、供電并接地,以便對PCI總線信號預(yù)充電。串聯(lián)電阻限制了電源電流浪涌。中等長度引腳連至處于預(yù)充電、高阻抗或禁用狀態(tài)的PCI總線信號。最短的引腳支持總線通信。
防故障交換結(jié)構(gòu)
串行交換結(jié)構(gòu)技術(shù)是另一種設(shè)計創(chuàng)新,對于高可用性系統(tǒng)有多種好處。這些體系結(jié)構(gòu)允許在計算節(jié)點之間設(shè)立動態(tài)數(shù)據(jù)路徑,并支持多路并發(fā)數(shù)據(jù)傳輸。交換結(jié)構(gòu)的一個主要好處是,每條連接均為直接的點到點數(shù)據(jù)路徑,并帶來更好的電特性,允許的頻率和帶寬高于總線體系結(jié)構(gòu)。典型的交換結(jié)構(gòu)使用多級開關(guān)在源和目標(biāo)之間建立路由。這些動態(tài)路徑對于高可用性設(shè)計也很有價值,使人們能圍繞不可操作的子系統(tǒng)設(shè)定數(shù)據(jù)路由。多數(shù)主要電路板標(biāo)準(zhǔn)現(xiàn)在都規(guī)定交換結(jié)構(gòu),盡管它們并未提出具體的交換結(jié)構(gòu)技術(shù)實現(xiàn)數(shù)據(jù)傳輸。與此相反,一系列附屬規(guī)范為以太網(wǎng)、InfiniBand、StaRFabric、PCIExpress、RapidIO等各種交換結(jié)構(gòu)對背板進行詳細定義。雖然這種方法滿足了業(yè)內(nèi)不同觀點的要求,但它也可能造成同一標(biāo)準(zhǔn)內(nèi)部的互操作問題。
VITA(VMEbus International Trade Association)41 VXS 為廣泛應(yīng)用的 VMEbus (Versa-module eurocard bus)增添了一些交換結(jié)構(gòu)技術(shù)高可用性優(yōu)勢。VXS 規(guī)范定義了一種有效載荷卡、一種交換卡、一種新型高帶寬背板連接器,并保留標(biāo)準(zhǔn)的并行 VMEbus 連接器。每個新型交換結(jié)構(gòu)端口均包含兩組四聯(lián)串行位通道——一組用于輸入數(shù)據(jù),另一組用于輸出數(shù)據(jù),對于每條串行通道均支持 10 Gbps 數(shù)據(jù)速率。交換卡包含必要的結(jié)構(gòu)交換功能,以便在有效負(fù)荷卡之間或圍繞故障設(shè)定串行數(shù)據(jù)路由,或使其繞過故障。為了保持交換結(jié)構(gòu)任意性,VITA 41子規(guī)范為 InfiniBand、串行RapidIO、GbE(千兆以太網(wǎng))、PCI Express 定義了交換卡和有效載荷卡。
PICMG(PCI Industrial Computer Manufacturers Group)針對電信設(shè)備的獨特要求,發(fā)布了 ATCA 規(guī)范,提供 VME 和 CompactPCI 等開放體系結(jié)構(gòu)的替代結(jié)構(gòu)。ATCA 重點強調(diào)高可用性特性,采用高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)。超大板面積支持復(fù)雜的電信電路,并提供輸入電源和冷卻功能,實現(xiàn)每插槽高達 200 W 的功率。ATCA 規(guī)范具有適用于所有板和有源模塊的熱插拔功能,因此最大限度減少系統(tǒng)中斷。一個機架管理元件(其規(guī)范基于IPMI)監(jiān)視各插入模塊的健康、功率、冷卻甚至鍵控情況,以確保各子系統(tǒng)在高效率工作。各模塊從冗余-48V直流饋電器獲得電力,并從冗余控制與數(shù)據(jù)板獲取數(shù)據(jù),以防止單一故障使整個機箱停止運行。
評論