新聞中心

EEPW首頁 > 手機與無線通信 > 設計應用 > 淺淡網(wǎng)絡運維的緊急故障處理及對策

淺淡網(wǎng)絡運維的緊急故障處理及對策

作者: 時間:2012-06-27 來源:網(wǎng)絡 收藏

標簽:維護 內(nèi)網(wǎng)服務 外網(wǎng)服務

本文引用地址:http://butianyuan.cn/article/154534.htm

隨著信息化進程的飛速發(fā)展,已經(jīng)成為每個現(xiàn)代企業(yè)必須的要素之一。相對于維護,網(wǎng)絡運維更加側重于保障網(wǎng)絡系統(tǒng)的正常運行,運維有運行和維護兩層含義。對于一個系統(tǒng),有時出錯我們無法預知,系統(tǒng)越復雜,其難維護難度更大,為了減少損失,我們盡可能地去預防各種錯誤,對于突發(fā)情況,盡可能地去修復。

解決的通用流程

在本文開始前,筆者先給出解決的流程圖,見圖一。

淺淡網(wǎng)絡運維的緊急故障處理及對策

圖一

根據(jù)上述流程圖,我們可以一目了然明白網(wǎng)絡運維的流程。

當客戶端發(fā)生網(wǎng)絡中斷的故障后,首先判斷用戶(或終端)到三層網(wǎng)關設備之間通道是否存在問題,從用戶(或終端)上ping網(wǎng)關是否能通,用戶(或終端)自身是否發(fā)生問題。

二層網(wǎng)絡是否正常:如果用戶(或終端)ping網(wǎng)關不通,則檢查下端二層網(wǎng)絡、用戶網(wǎng)線、三層網(wǎng)關設備以下網(wǎng)線或光纖是否正常,端口是否UP,是否有CRC error報文統(tǒng)計。檢查二層網(wǎng)絡中的交換機設備是否能正常學習到用戶MAC地址,檢查三層網(wǎng)關設備與二層交換設備之間的連通性、二層設備的CPU利用率是否正常,是否有二層環(huán)路造成或病毒攻擊。首先確保用戶(或終端)能正常ping通網(wǎng)關設備。

三層網(wǎng)絡是否正常:可以通過telnet/console口登陸三層設備,如果有問題,通過ping、tracert、show logging、端口統(tǒng)計、CPU利用率統(tǒng)計、鏈路狀態(tài)、路由表狀態(tài)、MPLS標簽表狀態(tài)等對問題進行分析,在業(yè)務忙時,不得擅自重啟或倒換三層核心路由器等設備。

如果用戶上網(wǎng)或承載業(yè)務仍然存在故障,可以查看DNS等外界環(huán)境是否正常,承載的業(yè)務本身是否發(fā)生問題,查看相關告警,然后做出相應的。

其它問題,如果現(xiàn)場不能解決,就通報關鍵用戶并聯(lián)系廠商解決。

在本文中,筆者就以網(wǎng)絡不通的故障為例,講解網(wǎng)絡運維的緊急故障處理的比較通用的思路和解決方式。

假設有一天,接到通知報告網(wǎng)絡不通了。給人的第一感覺是某個服務出現(xiàn)異常而中斷,比如打不開OA頁面,或者打不開Google頁面。讓我們看看,一個合格的運維人員是如何循遵怎樣的思路來尋找故障的原因并解決的。

確定哪些服務中斷

首先要做的就是區(qū)分內(nèi)網(wǎng)服務和外網(wǎng)服務。

在筆者所在公司中,很多自己開發(fā)的、只限于公司員工使用的服務都是內(nèi)網(wǎng)服務,比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網(wǎng)服務了。

在這樣的環(huán)境下,內(nèi)網(wǎng)服務的網(wǎng)絡關鍵節(jié)點如下所示:

終端→接入交換機→聯(lián)網(wǎng)路由器→核心路由器→核心交換機→服務器

依賴的基礎服務為:內(nèi)網(wǎng)DNS服務器。

外網(wǎng)服務的網(wǎng)絡關鍵節(jié)點如下所示:

終端→接入交換機→核心交換機→互聯(lián)網(wǎng)接入交換機→上網(wǎng)行為管理設備→互聯(lián)網(wǎng)防火墻→外網(wǎng)服務器

依賴的基礎服務為:內(nèi)網(wǎng)DNS服務器,公網(wǎng)DNS服務器。

如果當前訪問的服務突然中斷,那么首先看看是內(nèi)網(wǎng)的服務還是外網(wǎng)的服務。然后再在內(nèi)網(wǎng)和外網(wǎng)分別自選一種服務嘗試訪問一下。例如ERP突然無法訪問了,那就嘗試訪問一下內(nèi)網(wǎng)的門戶系統(tǒng)和郵件系統(tǒng),以及外網(wǎng)的一個知名網(wǎng)站。

以下表格(表二)有助于理解故障尋找的過程和思路:

淺淡網(wǎng)絡運維的緊急故障處理及對策
淺淡網(wǎng)絡運維的緊急故障處理及對策

表二

確定其他人的癥狀相同

只是從自己的機器對網(wǎng)絡和服務做出判斷并不夠客觀,也不夠嚴謹。前面我們已經(jīng)大致的推測出故障原因,在這一節(jié)我們嘗試對這個推測進行證明。

要記住這一點:可重復的結果才是基本可靠的結果。

為了證實測試結果的可重復性,我們需要從不同的網(wǎng)絡起點重復相同的測試步驟。

讓我們以公司的實際場景來闡述分析故障的思路。目前隨著網(wǎng)絡技術的成熟,網(wǎng)絡架構也趨于穩(wěn)定,一般的全省級的公司網(wǎng)絡拓撲示意圖如圖三:當然,實際工作中,地市分公司下面,根據(jù)業(yè)務需要,還會有縣級的辦公網(wǎng)絡、營業(yè)網(wǎng)點,實際廣域網(wǎng)絡會達到三層。



評論


相關推薦

技術專區(qū)

關閉