新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 嵌入式系統(tǒng)的高可用性

嵌入式系統(tǒng)的高可用性

作者: 時(shí)間:2010-12-12 來源:網(wǎng)絡(luò) 收藏

設(shè)計(jì)人員正在調(diào)整各種高體系結(jié)構(gòu),以滿足客戶對用于下一代超級可靠應(yīng)用的持久數(shù)據(jù)接口的需求。

本文引用地址:http://butianyuan.cn/article/151218.htm

要點(diǎn)

高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)實(shí)現(xiàn)動(dòng)態(tài)路徑,人們能圍繞不可操作的子重新設(shè)定信息路由。
  管理軟件自動(dòng)監(jiān)視工作,并在發(fā)生故障或性能降低時(shí)用冗余元件來替換。
  熱插拔特性實(shí)現(xiàn)無中斷的修理和升級,并為發(fā)展容錯(cuò)自愈系統(tǒng)鋪平了道路。
  刀片計(jì)算機(jī)集群以更低的采購和運(yùn)營成本支持可擴(kuò)展、高密度、高的服務(wù)器系統(tǒng)。


  隨著普適計(jì)算時(shí)代的到來(屆時(shí)用戶將可隨時(shí)隨地訪問信息和服務(wù)),系統(tǒng)設(shè)計(jì)人員在提高服務(wù)器、遠(yuǎn)程設(shè)備、數(shù)據(jù)傳輸基礎(chǔ)設(shè)施的性方面承受著日益增大的壓力。鑒于其應(yīng)用,人們對系統(tǒng)可靠性的期望遠(yuǎn)遠(yuǎn)高于對多數(shù)其它計(jì)算系統(tǒng)的期望。終止或重啟其中一些關(guān)鍵應(yīng)用系統(tǒng)需要承擔(dān)人身財(cái)產(chǎn)或重要信息損失的風(fēng)險(xiǎn)。在滿足這些要求的過程中,嵌入式系統(tǒng)設(shè)計(jì)者運(yùn)用各種智能硬件和軟件冗余技巧在日常運(yùn)行中實(shí)現(xiàn)高達(dá)99.999%的可用性,即每年停機(jī)時(shí)間不到六分鐘。
  “高可用性”描述系統(tǒng)特性,它們使系統(tǒng)在發(fā)生硬件或軟件故障時(shí)能夠保持連續(xù)工作。高可用系統(tǒng)具有內(nèi)置監(jiān)視和復(fù)制數(shù)據(jù)路徑,透明地取代可選硬件或軟件組件復(fù)制正常功能,在出現(xiàn)故障時(shí)也能照常工作。一般而言,高可用性系統(tǒng)還支持在不中斷運(yùn)行的前提下替換故障組件或升級。隨著通用連接的問世,數(shù)據(jù)安全也成了可用性的一個(gè)要素,這是因?yàn)槲词跈?quán)的黑客、惡意軟件或外部“拒絕服務(wù)”攻擊會(huì)導(dǎo)致預(yù)期功能中斷??捎眯砸话愣x為MTBF/(MTBF+MTTR),其中MTBF是指平均無故障時(shí)間,MTTR是指平均修理時(shí)間。
  高可用性對于越來越多的嵌入式系統(tǒng)應(yīng)用都變得十分必要,而不斷提高的技術(shù)趨勢使系統(tǒng)設(shè)計(jì)任務(wù)日益困難。例如,可以預(yù)見,隨著客戶需要嵌入式設(shè)備中有更多功能,增加的硬件和軟件組件帶來了新的故障模式。顯然,增加的的組件不利于達(dá)到更高的可用性,甚至產(chǎn)生其它冗余性,從而不斷加劇系統(tǒng)復(fù)雜性。當(dāng)前向普遍連接發(fā)展的趨勢也給高可用嵌入式系統(tǒng)設(shè)計(jì)者帶來了許多數(shù)據(jù)安全與通信可靠性問題。雖然最可靠的系統(tǒng)可能使用有限資源的簡便的單獨(dú)設(shè)備,但設(shè)計(jì)者必須采用一種提高任意嵌入配置可用性的戰(zhàn)略。


  不間斷運(yùn)行
  當(dāng)前多數(shù)用于提高服務(wù)可用性的訣竅和技巧均源自電信行業(yè)。多年來,電信設(shè)備制造商設(shè)計(jì)了多種方案,以便提供不間斷的服務(wù),即使發(fā)生硬件和軟件故障也是如此。遺憾的是,多數(shù)方案都是專有的,維護(hù)費(fèi)用高,并且難以在要求演變時(shí)進(jìn)行更新。它們還需要很長的開發(fā)周期。設(shè)備設(shè)計(jì)者無法利用COTS(商用現(xiàn)貨)構(gòu)件,這是因?yàn)闆]有通用內(nèi)置設(shè)備提高服務(wù)可用性。為了解決可用性難題,電路板制造商制定一系列可與專有系統(tǒng)性能匹敵的硬件和軟件規(guī)范。
  IPMI(智能平臺管理接口)規(guī)范是用來解決可用性問題的最早標(biāo)準(zhǔn)之一,它由戴爾、英特爾、惠普、NEC公司制定,旨在從本地和遠(yuǎn)程監(jiān)視設(shè)備,以便執(zhí)行電源管理、冷卻、電子鍵控和熱插拔等事務(wù)處理。IPMI與管理控制器相互配合,后者在主機(jī)處理器出現(xiàn)故障時(shí)可依靠自身運(yùn)行。借助平臺管理,操作人員能監(jiān)視設(shè)備是否出現(xiàn)邊際操作或潛在問題,并能在它們變成系統(tǒng)故障之前糾正它們。PICMG(PeripheralComponentInterconnectIndustrialComputerManufacturersGroup)組織把IPMI的若干變體都包含到電路板級CompactPCI規(guī)范和ATCA(高級電信計(jì)算架構(gòu))規(guī)范中。
  為了最大限度發(fā)揮IPMI的優(yōu)勢,設(shè)備客戶需要具備熱插拔功能,以便在不關(guān)閉系統(tǒng)的情況下替換出故障的系統(tǒng)板。熱插拔系統(tǒng)要求硬件和軟件能夠在等待修理的同時(shí),動(dòng)態(tài)設(shè)定信號路由,使其繞過出故障的組件。必備熱插拔技術(shù)之一是系統(tǒng)板和背板之間的物理連接。如果不控制電源涌流和背板信號連接,簡單直連可能會(huì)干擾總線上的其它板。例如,CompactPCI利用不同長度的分級引腳來控制通向背板的物理連接??ㄆ瑢?dǎo)向器確保板的插入垂直于背板。較長的引腳首先對接、供電并接地,以便對PCI總線信號預(yù)充電。串聯(lián)電阻限制了電源電流浪涌。中等長度引腳連至處于預(yù)充電、高阻抗或禁用狀態(tài)的PCI總線信號。最短的引腳支持總線通信。


  防故障交換結(jié)構(gòu)
  串行交換結(jié)構(gòu)技術(shù)是另一種設(shè)計(jì)創(chuàng)新,對于高可用性系統(tǒng)有多種好處。這些體系結(jié)構(gòu)允許在計(jì)算節(jié)點(diǎn)之間設(shè)立動(dòng)態(tài)數(shù)據(jù)路徑,并支持多路并發(fā)數(shù)據(jù)傳輸。交換結(jié)構(gòu)的一個(gè)主要好處是,每條連接均為直接的點(diǎn)到點(diǎn)數(shù)據(jù)路徑,并帶來更好的電特性,允許的頻率和帶寬高于總線體系結(jié)構(gòu)。典型的交換結(jié)構(gòu)使用多級開關(guān)在源和目標(biāo)之間建立路由。這些動(dòng)態(tài)路徑對于高可用性設(shè)計(jì)也很有價(jià)值,使人們能圍繞不可操作的子系統(tǒng)設(shè)定數(shù)據(jù)路由。多數(shù)主要電路板標(biāo)準(zhǔn)現(xiàn)在都規(guī)定交換結(jié)構(gòu),盡管它們并未提出具體的交換結(jié)構(gòu)技術(shù)實(shí)現(xiàn)數(shù)據(jù)傳輸。與此相反,一系列附屬規(guī)范為以太網(wǎng)、InfiniBand、StaRFabric、PCIExpress、RapidIO等各種交換結(jié)構(gòu)對背板進(jìn)行詳細(xì)定義。雖然這種方法滿足了業(yè)內(nèi)不同觀點(diǎn)的要求,但它也可能造成同一標(biāo)準(zhǔn)內(nèi)部的互操作問題。

VITA(VMEbus International Trade Association)41 VXS 為廣泛應(yīng)用的 VMEbus (Versa-module eurocard bus)增添了一些交換結(jié)構(gòu)技術(shù)高可用性優(yōu)勢。VXS 規(guī)范定義了一種有效載荷卡、一種交換卡、一種新型高帶寬背板連接器,并保留標(biāo)準(zhǔn)的并行 VMEbus 連接器。每個(gè)新型交換結(jié)構(gòu)端口均包含兩組四聯(lián)串行位通道——一組用于輸入數(shù)據(jù),另一組用于輸出數(shù)據(jù),對于每條串行通道均支持 10 Gbps 數(shù)據(jù)速率。交換卡包含必要的結(jié)構(gòu)交換功能,以便在有效負(fù)荷卡之間或圍繞故障設(shè)定串行數(shù)據(jù)路由,或使其繞過故障。為了保持交換結(jié)構(gòu)任意性,VITA 41子規(guī)范為 InfiniBand、串行RapidIO、GbE(千兆以太網(wǎng))、PCI Express 定義了交換卡和有效載荷卡。
  PICMG(PCI Industrial Computer Manufacturers Group)針對電信設(shè)備的獨(dú)特要求,發(fā)布了 ATCA 規(guī)范,提供 VME 和 CompactPCI 等開放體系結(jié)構(gòu)的替代結(jié)構(gòu)。ATCA 重點(diǎn)強(qiáng)調(diào)高可用性特性,采用高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)。超大板面積支持復(fù)雜的電信電路,并提供輸入電源和冷卻功能,實(shí)現(xiàn)每插槽高達(dá) 200 W 的功率。ATCA 規(guī)范具有適用于所有板和有源模塊的熱插拔功能,因此最大限度減少系統(tǒng)中斷。一個(gè)機(jī)架管理元件(其規(guī)范基于IPMI)監(jiān)視各插入模塊的健康、功率、冷卻甚至鍵控情況,以確保各子系統(tǒng)在高效率工作。各模塊從冗余-48V直流饋電器獲得電力,并從冗余控制與數(shù)據(jù)板獲取數(shù)據(jù),以防止單一故障使整個(gè)機(jī)箱停止運(yùn)行。

  隨著聯(lián)網(wǎng)嵌入式設(shè)備的增多,對于專用可靠數(shù)據(jù)源的需求成了任何新產(chǎn)品開發(fā)過程中的主要考慮事項(xiàng)。如果人們采用多個(gè)設(shè)備,并且它們均需要各自不同而又同時(shí)存在的數(shù)據(jù)流,那么數(shù)據(jù)服務(wù)器處理要求就變得十分關(guān)鍵了。文件共享、安全監(jiān)視、娛樂等許多嵌入式系統(tǒng)應(yīng)用均需要來自專用服務(wù)器的獨(dú)立且始終可用的數(shù)據(jù)流。為了達(dá)到對這些以數(shù)據(jù)為中心的項(xiàng)目可用性的期望,設(shè)計(jì)師正在轉(zhuǎn)向每機(jī)架數(shù)百顆 CPU 并且每板多顆 CPU 的高密度電腦陣列。具有多塊電腦板的系統(tǒng)一般稱作刀片服務(wù)器,它具備系統(tǒng)管理、負(fù)載均衡、熱插拔功能以及共享外設(shè),為萬維網(wǎng)訪問和數(shù)據(jù)服務(wù)提供高度可靠的數(shù)據(jù)。單個(gè)刀片計(jì)算機(jī)一般不配備本地外設(shè),要對它們進(jìn)行遠(yuǎn)程管理。集群式服務(wù)器運(yùn)行管理軟件來平衡計(jì)算負(fù)載,報(bào)告故障,提供刀片配置信息,并監(jiān)視熱插拔事務(wù)處理。刀片服務(wù)器基本上是一些需要特殊軟件管理系統(tǒng)以便達(dá)到最長正常運(yùn)行時(shí)間的高可用性系統(tǒng)。單獨(dú)的管理網(wǎng)絡(luò)提高了服務(wù)器安全性,這是因?yàn)樗煞乐龟P(guān)鍵的操作系統(tǒng)信息和更新數(shù)據(jù)經(jīng)過公共網(wǎng)絡(luò)或互聯(lián)網(wǎng)。
  與此類似,Service Availability Forum 由通信公司和計(jì)算設(shè)備公司組成,他們合作制定高可用性和管理軟件接口規(guī)范。這些規(guī)范針對一些電信系統(tǒng)與服務(wù)開發(fā)商,其系統(tǒng)和服務(wù)采用 CompactPCI 和 ATCA 等 COTS 模塊構(gòu)建。他們的目的是允許更多地重復(fù)使用硬件和軟件,并縮短產(chǎn)品開發(fā)周期。硬件平臺接口規(guī)范定義了 COTS 硬件和高可用性管理中間件之間的接口(圖 2)。于是各應(yīng)用無需專有軟件接口就能獨(dú)立搜索、監(jiān)視和管理硬件。 linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: 可用 系統(tǒng) 嵌入式

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉