新聞中心

EEPW首頁 > 手機(jī)與無線通信 > 設(shè)計應(yīng)用 > 淺淡網(wǎng)絡(luò)運維的緊急故障處理及對策

淺淡網(wǎng)絡(luò)運維的緊急故障處理及對策

作者: 時間:2012-06-27 來源:網(wǎng)絡(luò) 收藏

標(biāo)簽:維護(hù) 內(nèi)網(wǎng)服務(wù) 外網(wǎng)服務(wù)

本文引用地址:http://www.butianyuan.cn/article/154534.htm

隨著信息化進(jìn)程的飛速發(fā)展,已經(jīng)成為每個現(xiàn)代企業(yè)必須的要素之一。相對于維護(hù),網(wǎng)絡(luò)運維更加側(cè)重于保障網(wǎng)絡(luò)系統(tǒng)的正常運行,運維有運行和維護(hù)兩層含義。對于一個系統(tǒng),有時出錯我們無法預(yù)知,系統(tǒng)越復(fù)雜,其難維護(hù)難度更大,為了減少損失,我們盡可能地去預(yù)防各種錯誤,對于突發(fā)情況,盡可能地去修復(fù)。

解決的通用流程

在本文開始前,筆者先給出解決的流程圖,見圖一。

淺淡網(wǎng)絡(luò)運維的緊急故障處理及對策

圖一

根據(jù)上述流程圖,我們可以一目了然明白網(wǎng)絡(luò)運維的流程。

當(dāng)客戶端發(fā)生網(wǎng)絡(luò)中斷的故障后,首先判斷用戶(或終端)到三層網(wǎng)關(guān)設(shè)備之間通道是否存在問題,從用戶(或終端)上ping網(wǎng)關(guān)是否能通,用戶(或終端)自身是否發(fā)生問題。

二層網(wǎng)絡(luò)是否正常:如果用戶(或終端)ping網(wǎng)關(guān)不通,則檢查下端二層網(wǎng)絡(luò)、用戶網(wǎng)線、三層網(wǎng)關(guān)設(shè)備以下網(wǎng)線或光纖是否正常,端口是否UP,是否有CRC error報文統(tǒng)計。檢查二層網(wǎng)絡(luò)中的交換機(jī)設(shè)備是否能正常學(xué)習(xí)到用戶MAC地址,檢查三層網(wǎng)關(guān)設(shè)備與二層交換設(shè)備之間的連通性、二層設(shè)備的CPU利用率是否正常,是否有二層環(huán)路造成或病毒攻擊。首先確保用戶(或終端)能正常ping通網(wǎng)關(guān)設(shè)備。

三層網(wǎng)絡(luò)是否正常:可以通過telnet/console口登陸三層設(shè)備,如果有問題,通過ping、tracert、show logging、端口統(tǒng)計、CPU利用率統(tǒng)計、鏈路狀態(tài)、路由表狀態(tài)、MPLS標(biāo)簽表狀態(tài)等對問題進(jìn)行分析,在業(yè)務(wù)忙時,不得擅自重啟或倒換三層核心路由器等設(shè)備。

如果用戶上網(wǎng)或承載業(yè)務(wù)仍然存在故障,可以查看DNS等外界環(huán)境是否正常,承載的業(yè)務(wù)本身是否發(fā)生問題,查看相關(guān)告警,然后做出相應(yīng)的。

其它問題,如果現(xiàn)場不能解決,就通報關(guān)鍵用戶并聯(lián)系廠商解決。

在本文中,筆者就以網(wǎng)絡(luò)不通的故障為例,講解網(wǎng)絡(luò)運維的緊急故障處理的比較通用的思路和解決方式。

假設(shè)有一天,接到通知報告網(wǎng)絡(luò)不通了。給人的第一感覺是某個服務(wù)出現(xiàn)異常而中斷,比如打不開OA頁面,或者打不開Google頁面。讓我們看看,一個合格的運維人員是如何循遵怎樣的思路來尋找故障的原因并解決的。

確定哪些服務(wù)中斷

首先要做的就是區(qū)分內(nèi)網(wǎng)服務(wù)和外網(wǎng)服務(wù)。

在筆者所在公司中,很多自己開發(fā)的、只限于公司員工使用的服務(wù)都是內(nèi)網(wǎng)服務(wù),比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網(wǎng)服務(wù)了。

在這樣的環(huán)境下,內(nèi)網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點如下所示:

終端→接入交換機(jī)→聯(lián)網(wǎng)路由器→核心路由器→核心交換機(jī)→服務(wù)器

依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器。

外網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點如下所示:

終端→接入交換機(jī)→核心交換機(jī)→互聯(lián)網(wǎng)接入交換機(jī)→上網(wǎng)行為管理設(shè)備→互聯(lián)網(wǎng)防火墻→外網(wǎng)服務(wù)器

依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器,公網(wǎng)DNS服務(wù)器。

如果當(dāng)前訪問的服務(wù)突然中斷,那么首先看看是內(nèi)網(wǎng)的服務(wù)還是外網(wǎng)的服務(wù)。然后再在內(nèi)網(wǎng)和外網(wǎng)分別自選一種服務(wù)嘗試訪問一下。例如ERP突然無法訪問了,那就嘗試訪問一下內(nèi)網(wǎng)的門戶系統(tǒng)和郵件系統(tǒng),以及外網(wǎng)的一個知名網(wǎng)站。

以下表格(表二)有助于理解故障尋找的過程和思路:

淺淡網(wǎng)絡(luò)運維的緊急故障處理及對策
淺淡網(wǎng)絡(luò)運維的緊急故障處理及對策

表二

確定其他人的癥狀相同

只是從自己的機(jī)器對網(wǎng)絡(luò)和服務(wù)做出判斷并不夠客觀,也不夠嚴(yán)謹(jǐn)。前面我們已經(jīng)大致的推測出故障原因,在這一節(jié)我們嘗試對這個推測進(jìn)行證明。

要記住這一點:可重復(fù)的結(jié)果才是基本可靠的結(jié)果。

為了證實測試結(jié)果的可重復(fù)性,我們需要從不同的網(wǎng)絡(luò)起點重復(fù)相同的測試步驟。

讓我們以公司的實際場景來闡述分析故障的思路。目前隨著網(wǎng)絡(luò)技術(shù)的成熟,網(wǎng)絡(luò)架構(gòu)也趨于穩(wěn)定,一般的全省級的公司網(wǎng)絡(luò)拓?fù)涫疽鈭D如圖三:當(dāng)然,實際工作中,地市分公司下面,根據(jù)業(yè)務(wù)需要,還會有縣級的辦公網(wǎng)絡(luò)、營業(yè)網(wǎng)點,實際廣域網(wǎng)絡(luò)會達(dá)到三層。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉