新聞中心

EEPW首頁 > 手機(jī)與無線通信 > 設(shè)計應(yīng)用 > 基于網(wǎng)絡(luò)系統(tǒng)可靠性的設(shè)計

基于網(wǎng)絡(luò)系統(tǒng)可靠性的設(shè)計

作者: 時間:2011-05-29 來源:網(wǎng)絡(luò) 收藏

思想,其相應(yīng)的測試應(yīng)如何考慮與實(shí)施?本文對網(wǎng)絡(luò)方案測試的分類及內(nèi)容做詳細(xì)闡述。

本文引用地址:http://butianyuan.cn/article/156252.htm

  方案的主要包括:的可持續(xù)性、可維護(hù)性、快速恢復(fù)機(jī)制。相應(yīng)的,組網(wǎng)方案的可靠性測試,可歸納為以下幾大類:

  1、網(wǎng)絡(luò)系統(tǒng)持續(xù)長時間、大壓力高負(fù)荷、高頻率震蕩條件下的持續(xù)運(yùn)行能力,即Duration測試。

  2、網(wǎng)絡(luò)系統(tǒng)告警管理功能、系統(tǒng)故障定位手段能力評估。

  3、單點(diǎn)故障情況下系統(tǒng)自動恢復(fù)時間。

  4、驗(yàn)證鏈路聚合、MSTP、RRPP、BFD、GR、VRRP、ECMP、IRF等HA(High Availability)特性的組合部署功能,并通過調(diào)整達(dá)到最佳的組合應(yīng)用效果。

  5、構(gòu)造各類攻擊,從端到端對網(wǎng)絡(luò)系統(tǒng)進(jìn)行攻擊。此類測試往往可以融合在Duration測試中共同完成。

  1 網(wǎng)絡(luò)系統(tǒng)持續(xù)運(yùn)行能力測試

  網(wǎng)絡(luò)系統(tǒng)持續(xù)運(yùn)行能力測試的目標(biāo)是要通過更惡劣環(huán)境的測試,以確保網(wǎng)絡(luò)系統(tǒng)在客戶的網(wǎng)絡(luò)環(huán)境中上線后,在各種沖擊和壓力下,仍舊能夠保持穩(wěn)定運(yùn)行。測試方法很明確:在組網(wǎng)測試環(huán)境中對運(yùn)營商或者行業(yè)客戶網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面模型進(jìn)行模擬,保持環(huán)境在大壓力并且震蕩的條件下持續(xù)運(yùn)行,同時監(jiān)控網(wǎng)絡(luò)各個整體運(yùn)行狀況作為測試結(jié)果數(shù)據(jù)。

  測試參數(shù)的是保證測試效果的重點(diǎn)。其內(nèi)容主要包括以下幾部分。

  1、測試組網(wǎng)設(shè)備參數(shù)。

  以客戶的原始組網(wǎng)模型進(jìn)行組網(wǎng)測試是最理想的環(huán)境。但是考慮成本因素,實(shí)際測試投入中往往難以搭建相對真實(shí)網(wǎng)絡(luò)1:1的測試網(wǎng)絡(luò)環(huán)境。為實(shí)現(xiàn)測試目的,充分驗(yàn)證系統(tǒng)的可靠性,測試組網(wǎng)的抽象和取舍是重點(diǎn)。抽象簡化組網(wǎng)規(guī)模的原則是:充分分析暴露網(wǎng)絡(luò)系統(tǒng)的性能壓力瓶頸,重點(diǎn)保留系統(tǒng)中的瓶頸關(guān)鍵節(jié)點(diǎn)。

  例如,針對一個接入至核心層結(jié)構(gòu)明晰的樹形網(wǎng)絡(luò),常用的可行方案是在業(yè)務(wù)流量壓力最大的核心層采用1:1組網(wǎng)測試。樹形結(jié)構(gòu)網(wǎng)絡(luò)的核心層的設(shè)備數(shù)量較少,這也為測試環(huán)境的1:1組網(wǎng)提供了可能性。匯聚和接入層設(shè)備數(shù)量逐層遞減,接入層設(shè)備采用幾個分支模擬真實(shí)應(yīng)用,其余分支使用高性能測試儀器的多個端口直接連接在匯聚層設(shè)備上模擬拓?fù)浜土髁???筛鶕?jù)被測試網(wǎng)絡(luò)的控制平明和數(shù)據(jù)平面路徑,靈活調(diào)整測試組網(wǎng)。

  2、控制平面和數(shù)據(jù)平面參數(shù)。

  即協(xié)議模型和流量模型。協(xié)議模型可以通過客戶的組網(wǎng)的規(guī)劃和行業(yè)抽象,得到較為明確的數(shù)據(jù)參數(shù)。由于應(yīng)用系統(tǒng)與網(wǎng)絡(luò)系統(tǒng)的維護(hù)技術(shù)人員之間的業(yè)務(wù)理解往往存在壁壘,并且在網(wǎng)絡(luò)規(guī)劃階段,無法通過流量監(jiān)控獲取模型,所以流量模型難以準(zhǔn)確界定,因此成為困擾組網(wǎng)方案測試的主要因素。比較有效的手段是針對行業(yè)特征進(jìn)行分析,并結(jié)合以往的經(jīng)驗(yàn)來設(shè)定普遍意義的參數(shù)。參數(shù)還可根據(jù)不同類型客戶的實(shí)際上線預(yù)期進(jìn)行加權(quán)預(yù)估。

  3、振蕩系數(shù)與方法。

  針對控制平面和數(shù)據(jù)平面的振蕩是Duration測試的基本要求之一。網(wǎng)絡(luò)系統(tǒng)是一個動態(tài)的環(huán)境。來自網(wǎng)絡(luò)系統(tǒng)邊緣與出口的各類輸入輸出變化,會產(chǎn)生更大的壓力和暴露更多的瓶頸。而通過劇烈高頻度的振蕩,營造比客戶實(shí)際環(huán)境更加惡劣的網(wǎng)絡(luò),能夠更快更充分暴露較深或者需要較長時間才能夠發(fā)現(xiàn)的缺陷。通過振蕩在測試網(wǎng)絡(luò)中掀起的狂風(fēng)巨浪,會讓我們更加明確了解網(wǎng)絡(luò)系統(tǒng)的健康可靠程度。

  網(wǎng)絡(luò)系統(tǒng)測試的振蕩系數(shù)常用經(jīng)驗(yàn)值為30%,即加載在測試系統(tǒng)的協(xié)議表項和流量在已設(shè)定的參數(shù)基礎(chǔ)上,周期性上下浮動30%。并可根據(jù)需要調(diào)整以觀察不同頻率條件下的振蕩結(jié)果,例如可分別以5分鐘、10分鐘、30分鐘、1小時為一個周期。以路由條數(shù)為例,路由振蕩導(dǎo)致整個網(wǎng)絡(luò)系統(tǒng)中各個節(jié)點(diǎn)大量發(fā)布、刪除路由信息,并引發(fā)流量路徑的遷移,給予測試系統(tǒng)更大的不穩(wěn)定性壓力。實(shí)際測試時,還需要根據(jù)行業(yè)客戶應(yīng)用特征網(wǎng)絡(luò)對系數(shù)進(jìn)一步分析,靈活調(diào)整。例如,互聯(lián)網(wǎng)行業(yè)客戶,普遍存在搜索類業(yè)務(wù)突發(fā),對流量振蕩的要求更高。

  振蕩的模擬可通過業(yè)界常用測試儀器較為方便實(shí)現(xiàn),本文不再贅述。

2 網(wǎng)絡(luò)系統(tǒng)告警管理功能、系統(tǒng)故障定位手段能力評估

  網(wǎng)絡(luò)系統(tǒng)必須具備系統(tǒng)風(fēng)險預(yù)警功能和便利的故障定位維護(hù)功能。

  網(wǎng)管系統(tǒng)對網(wǎng)絡(luò)的實(shí)時監(jiān)控,預(yù)先告警功能主要包括網(wǎng)絡(luò)節(jié)點(diǎn)CPU、內(nèi)存、端口流量、端口狀態(tài)等參數(shù)的監(jiān)控告警。當(dāng)占用率或者端口流量持續(xù)超過閾值,即可觸發(fā)告警,使管理員提前預(yù)知風(fēng)險,進(jìn)行分析維護(hù)。

  系統(tǒng)故障定位手段為事后維護(hù)。一旦網(wǎng)絡(luò)系統(tǒng)產(chǎn)生故障點(diǎn),網(wǎng)絡(luò)管理系統(tǒng)需記錄網(wǎng)絡(luò)切換事件,方便快速幫助管理員找到故障點(diǎn),并保存故障信息和系統(tǒng)狀態(tài),便于后期缺陷復(fù)現(xiàn)定位。

  維護(hù)類測試以功能測試為主,通過打入攻擊CPU的流量、制造流量擁塞等方法構(gòu)造各類預(yù)警條件,通過shutdown或者重啟設(shè)備等命令行,插拔端口、關(guān)閉電源等手段檢驗(yàn)網(wǎng)絡(luò)系統(tǒng)對故障點(diǎn)的定位和告警信息是否完備。若設(shè)備支持可維護(hù)性測試特性,還可通過設(shè)備軟件的可維護(hù)性測試命令,構(gòu)造設(shè)備節(jié)點(diǎn)系統(tǒng)軟硬件故障,查看系統(tǒng)保存的故障狀態(tài)信息是否完備,以復(fù)現(xiàn)定位缺陷。

  測試時,同樣需在大壓力復(fù)雜條件下執(zhí)行,以檢測告警、故障信息是否得到高優(yōu)先級處理。

  3 單點(diǎn)故障情況下系統(tǒng)自動恢復(fù)時間

  網(wǎng)絡(luò)系統(tǒng)在出現(xiàn)單點(diǎn)故障情況下可快速恢復(fù)是高可靠網(wǎng)絡(luò)設(shè)計的重點(diǎn)。恢復(fù)時間的要求在各類行業(yè)和各網(wǎng)絡(luò)層有差異。目前,網(wǎng)絡(luò)系統(tǒng)平均恢復(fù)時間低于500ms已經(jīng)逐步成為主流要求。

  與網(wǎng)絡(luò)切換相關(guān)的各種組網(wǎng)模型故障模擬主要包括:鏈路故障、節(jié)點(diǎn)設(shè)備故障、單板故障、節(jié)點(diǎn)設(shè)備主備倒換、主備設(shè)備倒換、設(shè)備升級等。各類故障還需進(jìn)一步細(xì)分,例如節(jié)點(diǎn)設(shè)備故障包含:設(shè)備命令行執(zhí)行軟件重啟,設(shè)備斷電、設(shè)備上電、主備控板全部拔出/插入等等。

  為精確計算各類故障導(dǎo)致的網(wǎng)絡(luò)中斷/恢復(fù)時間,組網(wǎng)如圖1所示,測試方法如下:

  

  圖1 網(wǎng)絡(luò)系統(tǒng)恢復(fù)時間測試示意


上一頁 1 2 下一頁

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉