新聞中心

EEPW首頁 > 手機(jī)與無線通信 > 學(xué)習(xí)方法與實(shí)踐 > 關(guān)于全光網(wǎng)生存性的問題及其解決方法

關(guān)于全光網(wǎng)生存性的問題及其解決方法

——
作者:王健全 顧畹儀 時(shí)間:2008-01-23 來源:vlan9.com 收藏

  由于OXC、OADM的出現(xiàn),使得聯(lián)網(wǎng)不僅能在業(yè)務(wù)層進(jìn)行,光層的聯(lián)網(wǎng)也變成現(xiàn)實(shí)。如何控制和管理網(wǎng)絡(luò)就變成一個非常重要而且相當(dāng)棘手的問題。由于現(xiàn)在所有的光器件都是電控型的,所以如何在光層之上構(gòu)造一個合適的控制平臺就成了問題的關(guān)鍵?,F(xiàn)在國際上的四大組織作的各種草案,雖各有差異,但基本的思路都是相似的。他們總的思路都是以IP為核心,借用IP網(wǎng)中的流量控制(TE)、IS-IS、OSPF、RIP、RSVP等一系列協(xié)議,并在原協(xié)議的基礎(chǔ)上進(jìn)行擴(kuò)展和修改來達(dá)到控制光網(wǎng)絡(luò)的目的,而且將信令網(wǎng)(控制平臺)與業(yè)務(wù)網(wǎng)相分離(最起碼是邏輯上的分離)。

  光層的聯(lián)網(wǎng)畢竟不同于電層,而且現(xiàn)在要做的不僅僅是單粒度的控制和調(diào)度,而是立足于小到一個分組、TDM、ATM業(yè)務(wù),大到光波長、光纖級的多粒度調(diào)度和分配。所以控制平臺或者說是信令網(wǎng)的構(gòu)造不僅僅是涉及到一個層面的問題,而是涉及到幾個層面,既要向前兼容,又需向后兼容;既要保證光網(wǎng)的大容量、可平滑升級擴(kuò)容以及強(qiáng)壯性,又要保證業(yè)務(wù)的QoS和CoS。要實(shí)現(xiàn)這樣一個功能強(qiáng)大的、綜合的信令網(wǎng),有很多問題值得仔細(xì)研究。

故障檢測和定位

  故障檢測和定位的大目標(biāo)首先是為快速準(zhǔn)確地實(shí)現(xiàn)保護(hù)倒換和業(yè)務(wù)的恢復(fù),其次是為了整個網(wǎng)絡(luò)的管理和維護(hù)。

  由于到目前為止,光域上能夠準(zhǔn)確檢測的參數(shù)只有光功率、光信噪比(OSNR)和中心波長,而像誤碼率、LOS、LOF這類參數(shù)只能在電域檢測。由于故障檢測是實(shí)現(xiàn)自愈的第一步,而且保護(hù)倒換和路由的恢復(fù)都有嚴(yán)格的時(shí)間要求,所以故障檢測不僅要求準(zhǔn)確,而且要求快速。

  故障的定位是實(shí)現(xiàn)保護(hù)倒換和路由恢復(fù)的第二步,是至關(guān)重要的一步,要實(shí)現(xiàn)自愈,必須實(shí)現(xiàn)故障的快速和準(zhǔn)確定位。因?yàn)橹挥写_定了故障的具體位置,才能進(jìn)行網(wǎng)絡(luò)的保護(hù)和恢復(fù)以及進(jìn)一步的業(yè)務(wù)配置,如果一個網(wǎng)絡(luò)不能進(jìn)行精確的故障定位,那么網(wǎng)絡(luò)的生存性就不會得到保證。

  但是由于故障的傳遞性、檢測機(jī)制的不完善性以及故障檢測與故障傳遞之間的時(shí)差的原因使得故障的定位在光網(wǎng)絡(luò)中成為一個難點(diǎn)。當(dāng)在一個網(wǎng)絡(luò)中發(fā)生光纖斷裂和節(jié)點(diǎn)掉電等收鮮保喙氐慕詰愫圖觳獾憔婢?SPAN class=GramE>即情況往往是一處發(fā)生故障,網(wǎng)絡(luò)中多處產(chǎn)生告警,所以必須知道全網(wǎng)的信息(包括配置和業(yè)務(wù)信息),才能精確地進(jìn)行定位。當(dāng)然這也不是不可逾越的困難,故障的定位除與節(jié)點(diǎn)自身的功能緊密相關(guān)外,還與信令的傳送方式或者說信令網(wǎng)總的控制方式直接相關(guān)。一般而言,只有在知道全網(wǎng)的信息的情況下才能實(shí)現(xiàn)故障的準(zhǔn)確定位,但是由于故障的發(fā)生是帶有偶然性的,也即各節(jié)點(diǎn)收到的信息是突發(fā)性的,不能拿一般的馬爾可夫理論進(jìn)行分析,即不屬于一般的M/M/X排隊(duì)模型,而是屬于D/M/X模型,如果每個節(jié)點(diǎn)(分布式控制)或者說主節(jié)點(diǎn)(集中式控制)需要收集所有故障信息來處理,那么不僅要一套復(fù)雜的算法,而且節(jié)點(diǎn)處理該信息時(shí)必須合理考慮故障傳遞與信息傳遞的時(shí)差問題,這樣就增加了實(shí)現(xiàn)的復(fù)雜度,而且也難以滿足時(shí)效性的要求。

  解決方法:對于分布式控制的網(wǎng)絡(luò),采用分布式定位的方法,這種分布式的故障定位方法是與業(yè)務(wù)和鏈路相關(guān)的。對于集中式控制的網(wǎng)絡(luò),即有主控節(jié)點(diǎn)的網(wǎng)絡(luò),故障定位采用分層定位的方法,即首先由單節(jié)點(diǎn)承擔(dān)一部分故障的簡單分析,如:本節(jié)點(diǎn)相關(guān)告警的過濾和屏蔽,還有本節(jié)點(diǎn)嚴(yán)重告警的定位,然后再將處理結(jié)果上報(bào)主控節(jié)點(diǎn),由主控節(jié)點(diǎn)進(jìn)一步分析和處理,最終確定故障的具體位置。 {{分頁}}

  從上述分析可以看出,單節(jié)點(diǎn)能夠定位的故障是有限的,必須將所有相關(guān)的告警收集起來進(jìn)行相關(guān)性分析,才能實(shí)現(xiàn)故障的精確定位。這就涉及到單節(jié)點(diǎn)處理后的信息如何合理和正確地發(fā)布的問題。這就涉及到故障信息的編碼,合理有效的編碼將會使故障定位真正做到快速而又準(zhǔn)確。當(dāng)然,在故障信息發(fā)布的同時(shí),必須輔以相應(yīng)的故障信息抑制,否則,故障信息的不斷發(fā)布將會使故障定位產(chǎn)生連帶的錯誤。

故障信息的傳送

集中式控制

  在集中式控制下,由于所有的控制信息都是由主控節(jié)點(diǎn)下發(fā)的,所以檢測到故障后,應(yīng)該盡快地將本節(jié)點(diǎn)處理后的告警和定位信息送到主節(jié)點(diǎn),使主控節(jié)點(diǎn)能夠快速和準(zhǔn)確地進(jìn)行故障分析和定位?,F(xiàn)有兩種處理方式可供參考:

* 廣播式方法,即一旦檢測到故障,稍加處理就以廣播的形式進(jìn)行發(fā)送,其他非相關(guān)節(jié)點(diǎn)僅僅起轉(zhuǎn)接該信息的作用,只有主控節(jié)點(diǎn)才能接收此信息。

  這種處理方式的優(yōu)點(diǎn)是思路簡單,但是它帶來的負(fù)面影響是信令網(wǎng)中的信息流量加大,容易產(chǎn)生控制流的阻塞,而且會使非主控節(jié)點(diǎn)的處理變得復(fù)雜化。所以廣播信息的控制和管理是必不可少的,而這本身就是一個控制的難題,所以此方法實(shí)現(xiàn)起來相對困難。

* 最短路徑方式發(fā)送,即每個非主控節(jié)點(diǎn)都有路由表,該路由表上記錄了該節(jié)點(diǎn)到主控節(jié)點(diǎn)最短徑以及其他可達(dá)路徑的出口。通過這種方式故障信息就可以最快的方式到達(dá)主控節(jié)點(diǎn)。此種方式處理簡單,但它要求每個節(jié)點(diǎn)都儲存必需的路由表,而且在網(wǎng)絡(luò)更改或者擴(kuò)容時(shí)不得不更改路由表,故不可避免地要增加系統(tǒng)的代價(jià)。

分布式控制

  在分布式控制下,各節(jié)點(diǎn)的地位是平等的,所以各節(jié)點(diǎn)對故障的兩層過濾都由自己完成,但是如果每個節(jié)點(diǎn)都像集中控制方式下的主控節(jié)點(diǎn),不僅不經(jīng)濟(jì),而且處理的復(fù)雜度相當(dāng)大,很難滿足時(shí)效性的嚴(yán)格要求。所以其第二層處理功能應(yīng)該僅僅收集相關(guān)鏈路或者通道的故障信息,但是這就需要本節(jié)點(diǎn)了解整個網(wǎng)絡(luò)的拓?fù)?,處理上還是比較困難,需要定制一套相當(dāng)復(fù)雜的算法。

  實(shí)現(xiàn)分布式控制下信令的傳送,是實(shí)現(xiàn)其定位的關(guān)鍵,如何將相關(guān)的故障信息收集到本節(jié)點(diǎn),以實(shí)現(xiàn)故障的定位,是非常復(fù)雜的。下面提出兩種處理的方法:

* 廣播式發(fā)送。這種方式與集中方式下的廣播相比,沒有任何優(yōu)勢,因?yàn)榻M播地址內(nèi)要攜帶所有相關(guān)節(jié)點(diǎn)的IP地址,要求每個節(jié)點(diǎn)必須知道和分析全網(wǎng)的業(yè)務(wù)配置信息。

* 分布選路的方式,即信令網(wǎng)自身的選路,依據(jù)自身攜帶的信息來進(jìn)行選路,最終目的是將所攜帶的故障信息送到能定位的節(jié)點(diǎn)。這種信息發(fā)布方式需要非常復(fù)雜的算法支持,因?yàn)槊總€節(jié)點(diǎn)都要依據(jù)收到的信息來決定是否與自己相關(guān),即每個節(jié)點(diǎn)都要進(jìn)行復(fù)雜的運(yùn)算和查詢自己的數(shù)據(jù)庫信息。{{分頁}}

保護(hù)倒換和路由恢復(fù)

  一是將保護(hù)倒換和路由恢復(fù)分開考慮,即采用不同的編碼、不同的機(jī)制。這是出于時(shí)間要求的考慮,保護(hù)倒換要求在50ms完成,而路由恢復(fù)要求為2s。

  另一種思路是統(tǒng)一編碼、不同處理的方法,即IETF的思路。這種思路的主要出發(fā)點(diǎn)是為迎合現(xiàn)在流行的IPV6協(xié)議處理模式。但是這種處理方式較復(fù)雜。

  其實(shí)解決了第二種思路,第一種也就迎刃而解?,F(xiàn)在來分析第二種思路的實(shí)現(xiàn)。

  保護(hù)倒換分析

一般的保護(hù)方式有:

1.1+1方式,一般用于端到端的保護(hù)——鏈路、通道和業(yè)務(wù)均可。

2.1:1方式,適用于端到端的保護(hù)和業(yè)務(wù)的保護(hù)。

3.M:N方式,資源共享的保護(hù)方式,通常采用通道保護(hù)方式。

4.環(huán)網(wǎng)APS保護(hù)方式,包括兩纖單向環(huán)、兩纖雙向環(huán)和四纖雙向環(huán)。在環(huán)網(wǎng)中又分復(fù)用段保護(hù)和通道共享保護(hù),是利用環(huán)網(wǎng)的特殊結(jié)構(gòu)來實(shí)施的一種保護(hù)方式,屬于對資源的保護(hù)。

  在光網(wǎng)絡(luò)中采用的保護(hù)方式也不會超出這幾種。但是各種不同的保護(hù)方式有由其相應(yīng)的應(yīng)用場合,所以不同的故障應(yīng)選用不同的保護(hù)方式。由于環(huán)網(wǎng)具有很強(qiáng)的自愈能力,全光環(huán)形網(wǎng)絡(luò)也可借用升級的環(huán)網(wǎng)APS協(xié)議來實(shí)現(xiàn)保護(hù),但對于格形網(wǎng)而言情況就十分復(fù)雜,因?yàn)槠淠骋绘溌坊蛘咄ǖ缽牟煌挠^點(diǎn)來看屬于不同的簡單拓?fù)洌x用那種保護(hù)方式與其子網(wǎng)標(biāo)識密切相關(guān)。為了實(shí)現(xiàn)快速的保護(hù)倒換以及增強(qiáng)格形網(wǎng)的“強(qiáng)壯”性,利用圖論的知識將格形網(wǎng)劃分為幾個子網(wǎng)(以最小環(huán)進(jìn)行劃分,不能歸為最小環(huán)的,標(biāo)識為樹),將這些子網(wǎng)進(jìn)行標(biāo)識,就可以在整個格形網(wǎng)中對不同子網(wǎng)中的故障采取不同的保護(hù)方法,對環(huán)形子網(wǎng)中的故障借用環(huán)網(wǎng)的保護(hù)方法,對樹形子網(wǎng)中的故障采用相應(yīng)的1+1或者M(jìn):N保護(hù)。這是因?yàn)楦裥尉W(wǎng)其實(shí)就是環(huán)網(wǎng)的相交相割再加上一些樹形拓?fù)洌ɑ蛘吖聧u)而構(gòu)成的。對處于不同子網(wǎng)的資源和業(yè)務(wù)實(shí)施不同的保護(hù)方式,可以提高網(wǎng)絡(luò)的生存性。

路由恢復(fù)分析

  由于不管那種保護(hù)方式都需要預(yù)留資源,如果一個網(wǎng)絡(luò)中全部采用保護(hù)方式的話,這勢必大大降低網(wǎng)絡(luò)資源的利用率,所以一個網(wǎng)絡(luò)中除了采取適當(dāng)?shù)谋Wo(hù)方式外,一般要采用業(yè)務(wù)恢復(fù)的方法來實(shí)施對業(yè)務(wù)的保護(hù)。由于恢復(fù)路由不是預(yù)留的而是按照一定的優(yōu)化方法算出來的,所以它比保護(hù)方案更能合理地利用網(wǎng)絡(luò)的資源,更能優(yōu)化業(yè)務(wù)的分配。但是由于恢復(fù)路由是在故障情況下臨時(shí)算出來的,所以勢必造成恢復(fù)時(shí)間比保護(hù)時(shí)間長,此外它必須是在故障定位信息已經(jīng)更新的情況下才能計(jì)算。故恢復(fù)時(shí)間取決于故障定位時(shí)間和算法的時(shí)間以及網(wǎng)絡(luò)的規(guī)模。

  與保護(hù)倒換不同,路由恢復(fù)和資源調(diào)度不僅僅要了解線路或者通道的好壞,而且需要了解各鏈路和通道的資源使用情況。只有這樣,才能依據(jù)一定的波長路由算法進(jìn)行資源的合理調(diào)配。 {{分頁}}

  集中式控制情況下有利于網(wǎng)絡(luò)的最優(yōu)化,但是由于主控節(jié)點(diǎn)記憶的數(shù)據(jù)量太大和處理的“事務(wù)”過多,速度不高,不適合于大型網(wǎng)絡(luò)。分布式控制由于不是依據(jù)全網(wǎng)的信息來選路和恢復(fù),所以不利于網(wǎng)絡(luò)的最優(yōu)化,但是各個節(jié)點(diǎn)處于同等的地位,處理相對簡單,所以速度相對較快,而且適合于任何規(guī)模的網(wǎng)絡(luò),但是隨著網(wǎng)絡(luò)的運(yùn)行,可能會導(dǎo)致網(wǎng)絡(luò)的應(yīng)用嚴(yán)重不合理。

  根據(jù)上述分析,在一個大型網(wǎng)絡(luò)中,筆者認(rèn)為應(yīng)該兩種控制方式并存。對于實(shí)時(shí)性要求高的一些操作,例如資源的保護(hù)和重要業(yè)務(wù)的恢復(fù)采用分布式的控制方法,也可借用預(yù)選恢復(fù)路由的方法來實(shí)現(xiàn)。對于一些實(shí)時(shí)性要求不高的操作,例如業(yè)務(wù)配置、性能管理、維護(hù)等則可采用集中式控制的方法,這樣有利于合理配置網(wǎng)絡(luò),對于一些既要求實(shí)時(shí)性,而分布式控制方法很難解決或者說解決有困難的操作,例如故障定位,則可以采用兩種控制方法結(jié)合的分節(jié)控制的方法來實(shí)現(xiàn),這樣就可以提高網(wǎng)絡(luò)控制和管理的靈活性,而且提高實(shí)時(shí)性和合理性。

拓?fù)浣Y(jié)構(gòu)的識別

  為了在一個網(wǎng)絡(luò)中同時(shí)支持保護(hù)倒換和路由的恢復(fù),并且要保護(hù)和恢復(fù)協(xié)調(diào)操作,這就需要借用圖論的知識將網(wǎng)絡(luò)劃分為幾個子網(wǎng)。在這些不同拓?fù)涞倪壿嬜泳W(wǎng)中來分別執(zhí)行不同的保護(hù)和恢復(fù)方式。一般而言,保護(hù)是針對資源即物理層和段層的保護(hù),而恢復(fù)是針對業(yè)務(wù)層,即僅僅針對業(yè)務(wù)的。為實(shí)現(xiàn)這個目的,就需要信令網(wǎng)具有識別拓?fù)浣Y(jié)構(gòu)的能力,以及能夠按照一定的規(guī)則來劃分不同的子網(wǎng),這應(yīng)該是啟動保護(hù)倒換和路由恢復(fù)的依據(jù),以及啟動何種保護(hù)倒換類型的必備信息。當(dāng)然這些信息不應(yīng)實(shí)時(shí)運(yùn)行,應(yīng)該具有相對的穩(wěn)定性,否則將會導(dǎo)致信令的交換時(shí)間過長,處理也十分復(fù)雜,更難保證保護(hù)、恢復(fù)等實(shí)時(shí)性要求高的操作。一般是設(shè)置一定時(shí)器,每隔一固定時(shí)間,查詢和自動識別一次,還有就是故障觸發(fā)識別,即在系統(tǒng)發(fā)生故障的情況下來修改拓?fù)浣Y(jié)構(gòu),還有就是由網(wǎng)管啟動識別命令來強(qiáng)制識別,這通常用于系統(tǒng)升級擴(kuò)容和改造時(shí)。

拓?fù)渥R別一般有兩種處理方法:

  一是由網(wǎng)管配置,即規(guī)劃網(wǎng)絡(luò)時(shí)將網(wǎng)絡(luò)拓?fù)浒匆欢ǖ乃惴ɑ蛘甙凑赵O(shè)計(jì)者的要求分為幾個子網(wǎng),然后由網(wǎng)管配置各節(jié)點(diǎn)的子網(wǎng)標(biāo)識。這種做法的前提是必須事先知道網(wǎng)絡(luò)的物理配置。在網(wǎng)絡(luò)升級,或者物理拓?fù)涓淖兊那闆r下,需要重新配置。這種做法的主要好處就是簡單易操作、便于管理,缺點(diǎn)就是實(shí)時(shí)性不強(qiáng)、對網(wǎng)絡(luò)操作者的依賴性過強(qiáng),也即對維護(hù)者的知識要求較高,這種方法是相對靜態(tài)的,也是目前使用較多的方法。

  第二種方法是節(jié)點(diǎn)自動識別,在不同的控制方式下,實(shí)現(xiàn)的方法和難易不同。

  集中式控制:網(wǎng)絡(luò)拓?fù)涞淖R別工作應(yīng)該交給主控節(jié)點(diǎn)完成。在大型網(wǎng)絡(luò)中,這種方式的實(shí)現(xiàn)非常復(fù)雜,所以距離實(shí)用化還有很長一段路要走。

  分布式控制:為了識別整個網(wǎng)絡(luò)的拓?fù)?,必須知道全網(wǎng)的信息,但分布式控制機(jī)制下的節(jié)點(diǎn)明顯不具備這個功能,所以此功能可以交給中心網(wǎng)管來完成。相比于集中式控制,兩者的區(qū)別是:集中式控制把網(wǎng)絡(luò)的識別放在控制層完成,速度相對較快,而分布式控制則必須將網(wǎng)絡(luò)的識別交由管理層完成,速度相對較慢。 {{分頁}}

信令的交換

集中式控制

下行方向的信息(由主控節(jié)點(diǎn)發(fā)給其他非主控節(jié)點(diǎn)的信息)的傳送和握手方式有兩種:

* 一種是IETF提到的,也就是貝爾實(shí)驗(yàn)室現(xiàn)在采用的方法:并行發(fā)送、串行握手后決定動作的準(zhǔn)則。

* 另一種是依據(jù)光網(wǎng)絡(luò)不同于電網(wǎng)絡(luò)的特點(diǎn)以及利用集中式控制的優(yōu)點(diǎn)提出的并行發(fā)送、先接收命令、再相互握手的準(zhǔn)則。

  這兩種方案各有優(yōu)缺點(diǎn):第一種方案保證了動作的正確性,即一般不會發(fā)生差錯,這種方案繼承了以前電域協(xié)議的先握手后倒換的思想。第二種方案是從實(shí)際情況演繹出來的一種追求時(shí)效性的方法。它的缺點(diǎn)是有產(chǎn)生差錯的可能,但優(yōu)點(diǎn)是其倒換時(shí)間非常短。

分布式控制

  這種分布選路的方式,必須采用先握手、再動作的命令。因?yàn)榇藭r(shí)單節(jié)點(diǎn)不足以知道全網(wǎng)的狀態(tài),而僅僅了解與其相關(guān)的一些鏈路、通道及節(jié)點(diǎn)的狀況,所以如果采用先動作、再握手的規(guī)則的話,其錯誤概率是無法估計(jì)的。

  在此種方式下,節(jié)點(diǎn)的相應(yīng)命令僅僅發(fā)送給其相關(guān)的節(jié)點(diǎn),其他節(jié)點(diǎn)在收到這些命令后,僅僅轉(zhuǎn)發(fā)相應(yīng)命令,源節(jié)點(diǎn)收到這些回應(yīng)命令后才作出相應(yīng)的動作,并且向其他相關(guān)節(jié)點(diǎn)發(fā)確認(rèn)信息,其他節(jié)點(diǎn)收到此命令后,也做相應(yīng)的動作,并回送確認(rèn)信令,至此一個動作完成。



關(guān)鍵詞: 全光網(wǎng) 無線 通信

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉