新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 嵌入式系統(tǒng)的高可用性:始終可用

嵌入式系統(tǒng)的高可用性:始終可用

作者:Warren Webb,EDN技術(shù)編輯 時間:2008-09-02 來源:EDN China 收藏

  設(shè)計人員正在調(diào)整各種高可用體系結(jié)構(gòu),以滿足客戶對用于下一代超級可靠系統(tǒng)應(yīng)用的持久數(shù)據(jù)接口的需求。

  要 點

  ·高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)實現(xiàn)動態(tài)路徑,人們能圍繞不可操作的子系統(tǒng)重新設(shè)定信息路由。

  ·管理軟件自動監(jiān)視系統(tǒng)工作,并在發(fā)生故障或性能降低時用冗余元件來替換。

  ·熱插拔特性實現(xiàn)無中斷的修理和升級,并為發(fā)展容錯自愈系統(tǒng)鋪平了道路。

  ·刀片計算機集群以更低的采購和運營成本支持可擴展、高密度、高可用的服務(wù)器系統(tǒng)。

本文引用地址:http://butianyuan.cn/article/87623.htm

  隨著普適計算時代的到來(屆時用戶將可隨時隨地訪問信息和服務(wù)),系統(tǒng)設(shè)計人員在提高服務(wù)器、遠程設(shè)備、數(shù)據(jù)傳輸基礎(chǔ)設(shè)施的可用性方面承受著日益增大的壓力。鑒于其應(yīng)用,人們對系統(tǒng)可靠性的期望遠遠高于對多數(shù)其它計算系統(tǒng)的期望。終止或重啟其中一些關(guān)鍵應(yīng)用系統(tǒng)需要承擔(dān)人身財產(chǎn)或重要信息損失的風(fēng)險。在滿足這些要求的過程中,嵌入式系統(tǒng)設(shè)計者運用各種智能硬件和軟件冗余技巧在日常運行中實現(xiàn)高達 99.999% 的可用性,即每年停機時間不到六分鐘。

  “”描述系統(tǒng)特性,它們使系統(tǒng)在發(fā)生硬件或軟件故障時能夠保持連續(xù)工作。高可用系統(tǒng)具有內(nèi)置監(jiān)視和復(fù)制數(shù)據(jù)路徑,透明地取代可選硬件或軟件組件復(fù)制正常功能,在出現(xiàn)故障時也能照常工作。一般而言,系統(tǒng)還支持在不中斷運行的前提下替換故障組件或升級。隨著通用連接的問世,數(shù)據(jù)安全也成了可用性的一個要素,這是因為未授權(quán)的黑客、惡意軟件或外部“拒絕服務(wù)”攻擊會導(dǎo)致預(yù)期功能中斷??捎眯砸话愣x為 /(+MTTR),其中 是指平均無故障時間,MTTR 是指平均修理時間。

  對于越來越多的嵌入式系統(tǒng)應(yīng)用都變得十分必要,而不斷提高的技術(shù)趨勢使系統(tǒng)設(shè)計任務(wù)日益困難。例如,可以預(yù)見,隨著客戶需要嵌入式設(shè)備中有更多功能,增加的硬件和軟件組件帶來了新的故障模式。顯然,增加的的組件不利于達到更高的可用性,甚至產(chǎn)生其它冗余性,從而不斷加劇系統(tǒng)復(fù)雜性。當(dāng)前向普遍連接發(fā)展的趨勢也給高可用嵌入式系統(tǒng)設(shè)計者帶來了許多數(shù)據(jù)安全與通信可靠性問題。雖然最可靠的系統(tǒng)可能使用有限資源的簡便的單獨設(shè)備,但設(shè)計者必須采用一種提高任意嵌入配置可用性的戰(zhàn)略。

  不間斷運行

  當(dāng)前多數(shù)用于提高服務(wù)可用性的訣竅和技巧均源自電信行業(yè)。多年來,電信設(shè)備制造商設(shè)計了多種方案,以便提供不間斷的服務(wù),即使發(fā)生硬件和軟件故障也是如此。遺憾的是,多數(shù)方案都是專有的,維護費用高,并且難以在要求演變時進行更新。它們還需要很長的開發(fā)周期。設(shè)備設(shè)計者無法利用 COTS(商用現(xiàn)貨)構(gòu)件,這是因為沒有通用內(nèi)置設(shè)備提高服務(wù)可用性。為了解決可用性難題,電路板制造商制定一系列可與專有系統(tǒng)性能匹敵的硬件和軟件規(guī)范。

   (智能平臺管理接口)規(guī)范是用來解決可用性問題的最早標(biāo)準(zhǔn)之一,它由戴爾、英特爾、惠普、NEC 公司制定,旨在從本地和遠程監(jiān)視設(shè)備,以便執(zhí)行電源管理、冷卻、電子鍵控和熱插拔等事務(wù)處理。 與管理控制器相互配合,后者在主機處理器出現(xiàn)故障時可依靠自身運行。借助平臺管理,操作人員能監(jiān)視設(shè)備是否出現(xiàn)邊際操作或潛在問題,并能在它們變成系統(tǒng)故障之前糾正它們。PICMG (Peripheral Component Interconnect Industrial Computer Manufacturers Group)組織把 的若干變體都包含到電路板級 CompactPCI 規(guī)范和 ATCA(高級電信計算架構(gòu))規(guī)范中。

  為了最大限度發(fā)揮 IPMI 的優(yōu)勢,設(shè)備客戶需要具備熱插拔功能,以便在不關(guān)閉系統(tǒng)的情況下替換出故障的系統(tǒng)板。熱插拔系統(tǒng)要求硬件和軟件能夠在等待修理的同時,動態(tài)設(shè)定信號路由,使其繞過出故障的組件。必備熱插拔技術(shù)之一是系統(tǒng)板和背板之間的物理連接。如果不控制電源涌流和背板信號連接,簡單直連可能會干擾總線上的其它板。例如,CompactPCI 利用不同長度的分級引腳來控制通向背板的物理連接??ㄆ瑢?dǎo)向器確保板的插入垂直于背板。較長的引腳首先對接、供電并接地,以便對 PCI 總線信號預(yù)充電。串聯(lián)電阻限制了電源電流浪涌。中等長度引腳連至處于預(yù)充電、高阻抗或禁用狀態(tài)的 PCI 總線信號。最短的引腳支持總線通信。

  防故障交換結(jié)構(gòu)

  串行交換結(jié)構(gòu)技術(shù)是另一種設(shè)計創(chuàng)新,對于高可用性系統(tǒng)有多種好處。這些體系結(jié)構(gòu)允許在計算節(jié)點之間設(shè)立動態(tài)數(shù)據(jù)路徑,并支持多路并發(fā)數(shù)據(jù)傳輸。交換結(jié)構(gòu)的一個主要好處是,每條連接均為直接的點到點數(shù)據(jù)路徑,并帶來更好的電特性,允許的頻率和帶寬高于總線體系結(jié)構(gòu)。典型的交換結(jié)構(gòu)使用多級開關(guān)在源和目標(biāo)之間建立路由。這些動態(tài)路徑對于高可用性設(shè)計也很有價值,使人們能圍繞不可操作的子系統(tǒng)設(shè)定數(shù)據(jù)路由。多數(shù)主要電路板標(biāo)準(zhǔn)現(xiàn)在都規(guī)定交換結(jié)構(gòu),盡管它們并未提出具體的交換結(jié)構(gòu)技術(shù)實現(xiàn)數(shù)據(jù)傳輸。與此相反,一系列附屬規(guī)范為以太網(wǎng)、InfiniBand、StaRFabric、PCI Express、RapidIO 等各種交換結(jié)構(gòu)對背板進行詳細定義。雖然這種方法滿足了業(yè)內(nèi)不同觀點的要求,但它也可能造成同一標(biāo)準(zhǔn)內(nèi)部的互操作問題。

  VITA(VMEbus International Trade Association)41 VXS 為廣泛應(yīng)用的 VMEbus (Versa-module eurocard bus)增添了一些交換結(jié)構(gòu)技術(shù)高可用性優(yōu)勢。VXS 規(guī)范定義了一種有效載荷卡、一種交換卡、一種新型高帶寬背板連接器,并保留標(biāo)準(zhǔn)的并行 VMEbus 連接器。每個新型交換結(jié)構(gòu)端口均包含兩組四聯(lián)串行位通道——一組用于輸入數(shù)據(jù),另一組用于輸出數(shù)據(jù),對于每條串行通道均支持 10 Gbps 數(shù)據(jù)速率。交換卡包含必要的結(jié)構(gòu)交換功能,以便在有效負荷卡之間或圍繞故障設(shè)定串行數(shù)據(jù)路由,或使其繞過故障。為了保持交換結(jié)構(gòu)任意性,VITA 41子規(guī)范為 InfiniBand、串行RapidIO、GbE(千兆以太網(wǎng))、PCI Express 定義了交換卡和有效載荷卡。

  PICMG(PCI Industrial Computer Manufacturers Group)針對電信設(shè)備的獨特要求,發(fā)布了 ATCA 規(guī)范,提供 VME 和 CompactPCI 等開放體系結(jié)構(gòu)的替代結(jié)構(gòu)。ATCA 重點強調(diào)高可用性特性,采用高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)。超大板面積支持復(fù)雜的電信電路,并提供輸入電源和冷卻功能,實現(xiàn)每插槽高達 200 W 的功率。ATCA 規(guī)范具有適用于所有板和有源模塊的熱插拔功能,因此最大限度減少系統(tǒng)中斷。一個機架管理元件(其規(guī)范基于IPMI)監(jiān)視各插入模塊的健康、功率、冷卻甚至鍵控情況,以確保各子系統(tǒng)在高效率工作。各模塊從冗余-48V直流饋電器獲得電力,并從冗余控制與數(shù)據(jù)板獲取數(shù)據(jù),以防止單一故障使整個機箱停止運行。

  Adlink Technology公司利用 ATCA 的熱插拔和機架管理特性優(yōu)勢,并延伸了它的性能極限,于最近發(fā)布了aTCA-6900 CPU刀片服務(wù)器,該服務(wù)器配備兩顆四核 Intel Xeon 處理器和兩個AdvancedMC (Mezzanine-Card)支架,以實現(xiàn)設(shè)計的靈活性(圖 1)。aTCA-6900 CPU 刀片服務(wù)器可支持八顆CPU內(nèi)核以及一種交換結(jié)構(gòu),后者包括2個10千兆以太網(wǎng)接口、2個PCI Express 接口和2個光通道接口。板載存儲設(shè)備包括 4 GB USB 閃存和各種硬盤安裝選件。前面板I/O包括視頻、3個USB 2.0 端口、2 個 RJ-45 以太網(wǎng)端口以及 1 個 RJ-45 串口。aTCA-6900 起價不到 5000 美元。

  準(zhǔn)確到達的數(shù)據(jù)流

  隨著聯(lián)網(wǎng)嵌入式設(shè)備的增多,對于專用可靠數(shù)據(jù)源的需求成了任何新產(chǎn)品開發(fā)過程中的主要考慮事項。如果人們采用多個設(shè)備,并且它們均需要各自不同而又同時存在的數(shù)據(jù)流,那么數(shù)據(jù)服務(wù)器處理要求就變得十分關(guān)鍵了。文件共享、安全監(jiān)視、娛樂等許多嵌入式系統(tǒng)應(yīng)用均需要來自專用服務(wù)器的獨立且始終可用的數(shù)據(jù)流。為了達到對這些以數(shù)據(jù)為中心的項目可用性的期望,設(shè)計師正在轉(zhuǎn)向每機架數(shù)百顆 CPU 并且每板多顆 CPU 的高密度電腦陣列。具有多塊電腦板的系統(tǒng)一般稱作刀片服務(wù)器,它具備系統(tǒng)管理、負載均衡、熱插拔功能以及共享外設(shè),為萬維網(wǎng)訪問和數(shù)據(jù)服務(wù)提供高度可靠的數(shù)據(jù)。單個刀片計算機一般不配備本地外設(shè),要對它們進行遠程管理。集群式服務(wù)器運行管理軟件來平衡計算負載,報告故障,提供刀片配置信息,并監(jiān)視熱插拔事務(wù)處理。刀片服務(wù)器基本上是一些需要特殊軟件管理系統(tǒng)以便達到最長正常運行時間的高可用性系統(tǒng)。單獨的管理網(wǎng)絡(luò)提高了服務(wù)器安全性,這是因為它可防止關(guān)鍵的操作系統(tǒng)信息和更新數(shù)據(jù)經(jīng)過公共網(wǎng)絡(luò)或互聯(lián)網(wǎng)。

  幾家開放源代碼和商用軟件組織致力于提高操作系統(tǒng)和嵌入固件的可靠性。例如,High Availability Linux Project 主辦一項開放源代碼開發(fā)工作,旨在為 Linux 操作系統(tǒng)提供一種集群體系結(jié)構(gòu),以提高可靠性、可用性和可服務(wù)性。Heartbeat 是該項目最知名的組成部分,在網(wǎng)絡(luò)上定期向其它 Heartbeat 實例發(fā)送數(shù)據(jù)包來驗證性能。當(dāng)系統(tǒng)不再收到數(shù)據(jù)包時,它就按照用戶提供的公式來假定發(fā)生了節(jié)點故障,并自動將服務(wù)路由到替代節(jié)點。

  與此類似,Service Availability Forum 由通信公司和計算設(shè)備公司組成,他們合作制定高可用性和管理軟件接口規(guī)范。這些規(guī)范針對一些電信系統(tǒng)與服務(wù)開發(fā)商,其系統(tǒng)和服務(wù)采用 CompactPCI 和 ATCA 等 COTS 模塊構(gòu)建。他們的目的是允許更多地重復(fù)使用硬件和軟件,并縮短產(chǎn)品開發(fā)周期。硬件平臺接口規(guī)范定義了 COTS 硬件和高可用性管理中間件之間的接口(圖 2)。于是各應(yīng)用無需專有軟件接口就能獨立搜索、監(jiān)視和管理硬件。

  得益于最新一代電路板標(biāo)準(zhǔn)和專門的軟件開發(fā)員社區(qū)的幫助,設(shè)計師目前擁有多種工具使用現(xiàn)成可用的產(chǎn)品來配置高可用嵌入式系統(tǒng)。盡管發(fā)展趨勢是多功能和復(fù)雜的嵌入式產(chǎn)品,但設(shè)計師可以把來自多家供應(yīng)商的組件組合起來,以便滿足其性能要求,并仍能達到甚至超過難以企及的“5 個 9”(99.999%) 可用性目標(biāo)。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: 嵌入式 高可用性 MTBF IPMI

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉