關(guān)于全光網(wǎng)生存性的問題及其解決方法

——

作者：王健全顧畹儀時間：2008-01-23 來源：vlan9.com

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　由于OXC、OADM的出現(xiàn)，使得聯(lián)網(wǎng)不僅能在業(yè)務(wù)層進行，光層的聯(lián)網(wǎng)也變成現(xiàn)實。如何控制和管理網(wǎng)絡(luò)就變成一個非常重要而且相當(dāng)棘手的問題。由于現(xiàn)在所有的光器件都是電控型的，所以如何在光層之上構(gòu)造一個合適的控制平臺就成了問題的關(guān)鍵?，F(xiàn)在國際上的四大組織作的各種草案，雖各有差異，但基本的思路都是相似的。他們總的思路都是以IP為核心，借用IP網(wǎng)中的流量控制（TE）、IS-IS、OSPF、RIP、RSVP等一系列協(xié)議,并在原協(xié)議的基礎(chǔ)上進行擴展和修改來達到控制光網(wǎng)絡(luò)的目的，而且將信令網(wǎng)（控制平臺）與業(yè)務(wù)網(wǎng)相分離（最起碼是邏輯上的分離）。

　　光層的聯(lián)網(wǎng)畢竟不同于電層，而且現(xiàn)在要做的不僅僅是單粒度的控制和調(diào)度，而是立足于小到一個分組、TDM、ATM業(yè)務(wù)，大到光波長、光纖級的多粒度調(diào)度和分配。所以控制平臺或者說是信令網(wǎng)的構(gòu)造不僅僅是涉及到一個層面的問題，而是涉及到幾個層面，既要向前兼容，又需向后兼容；既要保證光網(wǎng)的大容量、可平滑升級擴容以及強壯性，又要保證業(yè)務(wù)的QoS和CoS。要實現(xiàn)這樣一個功能強大的、綜合的信令網(wǎng)，有很多問題值得仔細研究。

故障檢測和定位

　　故障檢測和定位的大目標首先是為快速準確地實現(xiàn)保護倒換和業(yè)務(wù)的恢復(fù)，其次是為了整個網(wǎng)絡(luò)的管理和維護。

　　由于到目前為止，光域上能夠準確檢測的參數(shù)只有光功率、光信噪比（OSNR）和中心波長，而像誤碼率、LOS、LOF這類參數(shù)只能在電域檢測。由于故障檢測是實現(xiàn)自愈的第一步，而且保護倒換和路由的恢復(fù)都有嚴格的時間要求，所以故障檢測不僅要求準確，而且要求快速。

　　故障的定位是實現(xiàn)保護倒換和路由恢復(fù)的第二步，是至關(guān)重要的一步，要實現(xiàn)自愈，必須實現(xiàn)故障的快速和準確定位。因為只有確定了故障的具體位置，才能進行網(wǎng)絡(luò)的保護和恢復(fù)以及進一步的業(yè)務(wù)配置，如果一個網(wǎng)絡(luò)不能進行精確的故障定位，那么網(wǎng)絡(luò)的生存性就不會得到保證。

　　但是由于故障的傳遞性、檢測機制的不完善性以及故障檢測與故障傳遞之間的時差的原因使得故障的定位在光網(wǎng)絡(luò)中成為一個難點。當(dāng)在一個網(wǎng)絡(luò)中發(fā)生光纖斷裂和節(jié)點掉電等收鮮?，相关的皆戙簣D觳獾憔婢?SPAN class=GramE>即情況往往是一處發(fā)生故障，網(wǎng)絡(luò)中多處產(chǎn)生告警，所以必須知道全網(wǎng)的信息（包括配置和業(yè)務(wù)信息），才能精確地進行定位。當(dāng)然這也不是不可逾越的困難，故障的定位除與節(jié)點自身的功能緊密相關(guān)外，還與信令的傳送方式或者說信令網(wǎng)總的控制方式直接相關(guān)。一般而言，只有在知道全網(wǎng)的信息的情況下才能實現(xiàn)故障的準確定位，但是由于故障的發(fā)生是帶有偶然性的，也即各節(jié)點收到的信息是突發(fā)性的，不能拿一般的馬爾可夫理論進行分析，即不屬于一般的M/M/X排隊模型，而是屬于D/M/X模型，如果每個節(jié)點（分布式控制）或者說主節(jié)點（集中式控制）需要收集所有故障信息來處理，那么不僅要一套復(fù)雜的算法，而且節(jié)點處理該信息時必須合理考慮故障傳遞與信息傳遞的時差問題，這樣就增加了實現(xiàn)的復(fù)雜度，而且也難以滿足時效性的要求。

　　解決方法：對于分布式控制的網(wǎng)絡(luò)，采用分布式定位的方法，這種分布式的故障定位方法是與業(yè)務(wù)和鏈路相關(guān)的。對于集中式控制的網(wǎng)絡(luò)，即有主控節(jié)點的網(wǎng)絡(luò)，故障定位采用分層定位的方法，即首先由單節(jié)點承擔(dān)一部分故障的簡單分析，如：本節(jié)點相關(guān)告警的過濾和屏蔽，還有本節(jié)點嚴重告警的定位，然后再將處理結(jié)果上報主控節(jié)點，由主控節(jié)點進一步分析和處理，最終確定故障的具體位置。 {{分頁}}

　　從上述分析可以看出，單節(jié)點能夠定位的故障是有限的，必須將所有相關(guān)的告警收集起來進行相關(guān)性分析，才能實現(xiàn)故障的精確定位。這就涉及到單節(jié)點處理后的信息如何合理和正確地發(fā)布的問題。這就涉及到故障信息的編碼，合理有效的編碼將會使故障定位真正做到快速而又準確。當(dāng)然，在故障信息發(fā)布的同時，必須輔以相應(yīng)的故障信息抑制，否則，故障信息的不斷發(fā)布將會使故障定位產(chǎn)生連帶的錯誤。

故障信息的傳送

集中式控制

　　在集中式控制下，由于所有的控制信息都是由主控節(jié)點下發(fā)的，所以檢測到故障后，應(yīng)該盡快地將本節(jié)點處理后的告警和定位信息送到主節(jié)點，使主控節(jié)點能夠快速和準確地進行故障分析和定位?，F(xiàn)有兩種處理方式可供參考：

* 廣播式方法，即一旦檢測到故障，稍加處理就以廣播的形式進行發(fā)送，其他非相關(guān)節(jié)點僅僅起轉(zhuǎn)接該信息的作用，只有主控節(jié)點才能接收此信息。

　　這種處理方式的優(yōu)點是思路簡單，但是它帶來的負面影響是信令網(wǎng)中的信息流量加大，容易產(chǎn)生控制流的阻塞，而且會使非主控節(jié)點的處理變得復(fù)雜化。所以廣播信息的控制和管理是必不可少的，而這本身就是一個通信控制的難題，所以此方法實現(xiàn)起來相對困難。

* 最短路徑方式發(fā)送，即每個非主控節(jié)點都有路由表，該路由表上記錄了該節(jié)點到主控節(jié)點最短徑以及其他可達路徑的出口。通過這種方式故障信息就可以最快的方式到達主控節(jié)點。此種方式處理簡單，但它要求每個節(jié)點都儲存必需的路由表，而且在網(wǎng)絡(luò)更改或者擴容時不得不更改路由表，故不可避免地要增加系統(tǒng)的代價。

分布式控制

　　在分布式控制下，各節(jié)點的地位是平等的，所以各節(jié)點對故障的兩層過濾都由自己完成，但是如果每個節(jié)點都像集中控制方式下的主控節(jié)點，不僅不經(jīng)濟，而且處理的復(fù)雜度相當(dāng)大，很難滿足時效性的嚴格要求。所以其第二層處理功能應(yīng)該僅僅收集相關(guān)鏈路或者通道的故障信息，但是這就需要本節(jié)點了解整個網(wǎng)絡(luò)的拓撲，處理上還是比較困難，需要定制一套相當(dāng)復(fù)雜的算法。

　　實現(xiàn)分布式控制下信令的傳送，是實現(xiàn)其定位的關(guān)鍵，如何將相關(guān)的故障信息收集到本節(jié)點，以實現(xiàn)故障的定位，是非常復(fù)雜的。下面提出兩種處理的方法：

* 廣播式發(fā)送。這種方式與集中方式下的廣播相比，沒有任何優(yōu)勢，因為組播地址內(nèi)要攜帶所有相關(guān)節(jié)點的IP地址，要求每個節(jié)點必須知道和分析全網(wǎng)的業(yè)務(wù)配置信息。

* 分布選路的方式，即信令網(wǎng)自身的選路，依據(jù)自身攜帶的信息來進行選路，最終目的是將所攜帶的故障信息送到能定位的節(jié)點。這種信息發(fā)布方式需要非常復(fù)雜的算法支持，因為每個節(jié)點都要依據(jù)收到的信息來決定是否與自己相關(guān)，即每個節(jié)點都要進行復(fù)雜的運算和查詢自己的數(shù)據(jù)庫信息。{{分頁}}

保護倒換和路由恢復(fù)

　　一是將保護倒換和路由恢復(fù)分開考慮，即采用不同的編碼、不同的機制。這是出于時間要求的考慮，保護倒換要求在50ms完成，而路由恢復(fù)要求為2s。

　　另一種思路是統(tǒng)一編碼、不同處理的方法，即IETF的思路。這種思路的主要出發(fā)點是為迎合現(xiàn)在流行的IPV6協(xié)議處理模式。但是這種處理方式較復(fù)雜。

　　其實解決了第二種思路，第一種也就迎刃而解。現(xiàn)在來分析第二種思路的實現(xiàn)。

　　保護倒換分析

一般的保護方式有：

1．1＋1方式，一般用于端到端的保護——鏈路、通道和業(yè)務(wù)均可。

2．1:1方式，適用于端到端的保護和業(yè)務(wù)的保護。

3．M:N方式，資源共享的保護方式，通常采用通道保護方式。

4．環(huán)網(wǎng)APS保護方式，包括兩纖單向環(huán)、兩纖雙向環(huán)和四纖雙向環(huán)。在環(huán)網(wǎng)中又分復(fù)用段保護和通道共享保護，是利用環(huán)網(wǎng)的特殊結(jié)構(gòu)來實施的一種保護方式，屬于對資源的保護。

　　在光網(wǎng)絡(luò)中采用的保護方式也不會超出這幾種。但是各種不同的保護方式有由其相應(yīng)的應(yīng)用場合，所以不同的故障應(yīng)選用不同的保護方式。由于環(huán)網(wǎng)具有很強的自愈能力，全光環(huán)形網(wǎng)絡(luò)也可借用升級的環(huán)網(wǎng)APS協(xié)議來實現(xiàn)保護，但對于格形網(wǎng)而言情況就十分復(fù)雜，因為其某一鏈路或者通道從不同的觀點來看屬于不同的簡單拓撲，選用那種保護方式與其子網(wǎng)標識密切相關(guān)。為了實現(xiàn)快速的保護倒換以及增強格形網(wǎng)的“強壯”性，利用圖論的知識將格形網(wǎng)劃分為幾個子網(wǎng)（以最小環(huán)進行劃分，不能歸為最小環(huán)的，標識為樹），將這些子網(wǎng)進行標識，就可以在整個格形網(wǎng)中對不同子網(wǎng)中的故障采取不同的保護方法，對環(huán)形子網(wǎng)中的故障借用環(huán)網(wǎng)的保護方法，對樹形子網(wǎng)中的故障采用相應(yīng)的1＋1或者M:N保護。這是因為格形網(wǎng)其實就是環(huán)網(wǎng)的相交相割再加上一些樹形拓撲（或者孤島）而構(gòu)成的。對處于不同子網(wǎng)的資源和業(yè)務(wù)實施不同的保護方式，可以提高網(wǎng)絡(luò)的生存性。

路由恢復(fù)分析

　　由于不管那種保護方式都需要預(yù)留資源，如果一個網(wǎng)絡(luò)中全部采用保護方式的話，這勢必大大降低網(wǎng)絡(luò)資源的利用率，所以一個網(wǎng)絡(luò)中除了采取適當(dāng)?shù)谋Ｗo方式外，一般要采用業(yè)務(wù)恢復(fù)的方法來實施對業(yè)務(wù)的保護。由于恢復(fù)路由不是預(yù)留的而是按照一定的優(yōu)化方法算出來的，所以它比保護方案更能合理地利用網(wǎng)絡(luò)的資源，更能優(yōu)化業(yè)務(wù)的分配。但是由于恢復(fù)路由是在故障情況下臨時算出來的，所以勢必造成恢復(fù)時間比保護時間長，此外它必須是在故障定位信息已經(jīng)更新的情況下才能計算。故恢復(fù)時間取決于故障定位時間和算法的時間以及網(wǎng)絡(luò)的規(guī)模。

　　與保護倒換不同，路由恢復(fù)和資源調(diào)度不僅僅要了解線路或者通道的好壞，而且需要了解各鏈路和通道的資源使用情況。只有這樣，才能依據(jù)一定的波長路由算法進行資源的合理調(diào)配。 {{分頁}}

　　集中式控制情況下有利于網(wǎng)絡(luò)的最優(yōu)化，但是由于主控節(jié)點記憶的數(shù)據(jù)量太大和處理的“事務(wù)”過多，速度不高，不適合于大型網(wǎng)絡(luò)。分布式控制由于不是依據(jù)全網(wǎng)的信息來選路和恢復(fù)，所以不利于網(wǎng)絡(luò)的最優(yōu)化，但是各個節(jié)點處于同等的地位，處理相對簡單，所以速度相對較快，而且適合于任何規(guī)模的網(wǎng)絡(luò)，但是隨著網(wǎng)絡(luò)的運行，可能會導(dǎo)致網(wǎng)絡(luò)的應(yīng)用嚴重不合理。

　　根據(jù)上述分析，在一個大型網(wǎng)絡(luò)中，筆者認為應(yīng)該兩種控制方式并存。對于實時性要求高的一些操作，例如資源的保護和重要業(yè)務(wù)的恢復(fù)采用分布式的控制方法，也可借用預(yù)選恢復(fù)路由的方法來實現(xiàn)。對于一些實時性要求不高的操作，例如業(yè)務(wù)配置、性能管理、維護等則可采用集中式控制的方法，這樣有利于合理配置網(wǎng)絡(luò)，對于一些既要求實時性，而分布式控制方法很難解決或者說解決有困難的操作，例如故障定位，則可以采用兩種控制方法結(jié)合的分節(jié)控制的方法來實現(xiàn)，這樣就可以提高網(wǎng)絡(luò)控制和管理的靈活性，而且提高實時性和合理性。

拓撲結(jié)構(gòu)的識別

　　為了在一個網(wǎng)絡(luò)中同時支持保護倒換和路由的恢復(fù)，并且要保護和恢復(fù)協(xié)調(diào)操作，這就需要借用圖論的知識將網(wǎng)絡(luò)劃分為幾個子網(wǎng)。在這些不同拓撲的邏輯子網(wǎng)中來分別執(zhí)行不同的保護和恢復(fù)方式。一般而言，保護是針對資源即物理層和段層的保護，而恢復(fù)是針對業(yè)務(wù)層，即僅僅針對業(yè)務(wù)的。為實現(xiàn)這個目的，就需要信令網(wǎng)具有識別拓撲結(jié)構(gòu)的能力，以及能夠按照一定的規(guī)則來劃分不同的子網(wǎng)，這應(yīng)該是啟動保護倒換和路由恢復(fù)的依據(jù)，以及啟動何種保護倒換類型的必備信息。當(dāng)然這些信息不應(yīng)實時運行，應(yīng)該具有相對的穩(wěn)定性，否則將會導(dǎo)致信令的交換時間過長，處理也十分復(fù)雜，更難保證保護、恢復(fù)等實時性要求高的操作。一般是設(shè)置一定時器，每隔一固定時間，查詢和自動識別一次，還有就是故障觸發(fā)識別，即在系統(tǒng)發(fā)生故障的情況下來修改拓撲結(jié)構(gòu)，還有就是由網(wǎng)管啟動識別命令來強制識別，這通常用于系統(tǒng)升級擴容和改造時。

拓撲識別一般有兩種處理方法：

　　一是由網(wǎng)管配置，即規(guī)劃網(wǎng)絡(luò)時將網(wǎng)絡(luò)拓撲按一定的算法或者按照設(shè)計者的要求分為幾個子網(wǎng)，然后由網(wǎng)管配置各節(jié)點的子網(wǎng)標識。這種做法的前提是必須事先知道網(wǎng)絡(luò)的物理配置。在網(wǎng)絡(luò)升級，或者物理拓撲改變的情況下，需要重新配置。這種做法的主要好處就是簡單易操作、便于管理，缺點就是實時性不強、對網(wǎng)絡(luò)操作者的依賴性過強，也即對維護者的知識要求較高，這種方法是相對靜態(tài)的，也是目前使用較多的方法。

　　第二種方法是節(jié)點自動識別，在不同的控制方式下，實現(xiàn)的方法和難易不同。

　　集中式控制：網(wǎng)絡(luò)拓撲的識別工作應(yīng)該交給主控節(jié)點完成。在大型網(wǎng)絡(luò)中，這種方式的實現(xiàn)非常復(fù)雜，所以距離實用化還有很長一段路要走。

　　分布式控制：為了識別整個網(wǎng)絡(luò)的拓撲，必須知道全網(wǎng)的信息，但分布式控制機制下的節(jié)點明顯不具備這個功能，所以此功能可以交給中心網(wǎng)管來完成。相比于集中式控制，兩者的區(qū)別是：集中式控制把網(wǎng)絡(luò)的識別放在控制層完成，速度相對較快，而分布式控制則必須將網(wǎng)絡(luò)的識別交由管理層完成，速度相對較慢。 {{分頁}}

信令的交換

集中式控制

下行方向的信息（由主控節(jié)點發(fā)給其他非主控節(jié)點的信息）的傳送和握手方式有兩種：

* 一種是IETF提到的，也就是貝爾實驗室現(xiàn)在采用的方法：并行發(fā)送、串行握手后決定動作的準則。

* 另一種是依據(jù)光網(wǎng)絡(luò)不同于電網(wǎng)絡(luò)的特點以及利用集中式控制的優(yōu)點提出的并行發(fā)送、先接收命令、再相互握手的準則。

　　這兩種方案各有優(yōu)缺點：第一種方案保證了動作的正確性，即一般不會發(fā)生差錯，這種方案繼承了以前電域協(xié)議的先握手后倒換的思想。第二種方案是從實際情況演繹出來的一種追求時效性的方法。它的缺點是有產(chǎn)生差錯的可能，但優(yōu)點是其倒換時間非常短。

分布式控制

　　這種分布選路的方式，必須采用先握手、再動作的命令。因為此時單節(jié)點不足以知道全網(wǎng)的狀態(tài)，而僅僅了解與其相關(guān)的一些鏈路、通道及節(jié)點的狀況，所以如果采用先動作、再握手的規(guī)則的話，其錯誤概率是無法估計的。

　　在此種方式下，節(jié)點的相應(yīng)命令僅僅發(fā)送給其相關(guān)的節(jié)點，其他節(jié)點在收到這些命令后，僅僅轉(zhuǎn)發(fā)相應(yīng)命令，源節(jié)點收到這些回應(yīng)命令后才作出相應(yīng)的動作，并且向其他相關(guān)節(jié)點發(fā)確認信息，其他節(jié)點收到此命令后，也做相應(yīng)的動作，并回送確認信令，至此一個動作完成。

新聞中心

關(guān)于全光網(wǎng)生存性的問題及其解決方法

評論

相關(guān)推薦

技術(shù)專區(qū)