博客專欄

EEPW首頁 > 博客 > 正常運行時間監(jiān)控

正常運行時間監(jiān)控

發(fā)布人:manageengine1 時間:2023-11-22 來源:工程師 發(fā)布文章

正常運行時間是系統(tǒng)可靠性的度量,表示為機器工作和可用時間的百分比。

當(dāng)提到IT網(wǎng)絡(luò)時,正常運行時間是對網(wǎng)絡(luò)設(shè)備、網(wǎng)站和其他服務(wù)可用性的度量。

網(wǎng)絡(luò)正常運行時間通常用百分比來衡量,例如五個9秒,這意味著系統(tǒng)的運行時間達(dá)到99.999%。網(wǎng)絡(luò)正常運行時間監(jiān)控的目標(biāo)是擁有99.999%的可用性,也就是每年少于5分鐘的停機時間。停機時間是系統(tǒng)不能運行的一段時間,與正常運行時間相反。

為什么需要監(jiān)控網(wǎng)絡(luò)正常運行時間?

網(wǎng)絡(luò)正常運行時間監(jiān)控主動監(jiān)控您的整個IT網(wǎng)絡(luò)環(huán)境,以確保它可用并工作??梢园颜_\行時間監(jiān)控看作是你可以信賴的24/7的在線安全衛(wèi)士。當(dāng)監(jiān)控系統(tǒng)注意到網(wǎng)絡(luò)設(shè)備或服務(wù)宕機時,它會從一個儀表板立即通知您,以便您的網(wǎng)絡(luò)管理員可以在問題變得太嚴(yán)重之前解決它。正常運行時間監(jiān)控的目的是確保您的網(wǎng)絡(luò)操作盡可能不間斷。

術(shù)語網(wǎng)絡(luò)正常運行時間和停機時間用于定義IT服務(wù)提供的成功級別。服務(wù)水平協(xié)議(SLA)通常包括正常運行時間和宕機時間比率,它們顯示服務(wù)預(yù)計保持運行的時間。IT專業(yè)人員使用正常運行時間來表示連續(xù)運行的總時間。

如何進行網(wǎng)絡(luò)正常運行時間監(jiān)控工作?

網(wǎng)絡(luò)正常運行時間監(jiān)控為您提供了所需的可見性,以便提前一步發(fā)現(xiàn)潛在問題。通過在易于閱讀的界面中顯示實時網(wǎng)絡(luò)性能數(shù)據(jù),網(wǎng)絡(luò)正常運行時間監(jiān)控軟件可以幫助您識別可能導(dǎo)致瓶頸的中斷。能夠?qū)崟r檢測威脅意味著您可以隨時隨地得到通知,并立即采取糾正或防御立場。您可以節(jié)省時間和金錢,并且不再需要物理系統(tǒng)管理員一直在現(xiàn)場執(zhí)行手動檢查。網(wǎng)絡(luò)正常運行時間的監(jiān)控:

  • 跟蹤網(wǎng)絡(luò)設(shè)備的可用性和帶寬使用情況,以檢測任何潛在的瓶頸。

  • 監(jiān)控服務(wù)器的正常運行時間,包括DNS服務(wù)器、SQL服務(wù)器、郵件服務(wù)器、FTP服務(wù)器和虛擬服務(wù)器的正常運行時間。

  • 監(jiān)控你的網(wǎng)站的可用性和檢查壞的鏈接。

  • 確定停機和網(wǎng)絡(luò)性能問題的根本原因。

  • 關(guān)于SLA的報告:生成SLA報告來幫助您跟蹤可用性和性能,以便您能夠滿足對客戶的SLA承諾。

使用ManageEngine OpManager進行網(wǎng)絡(luò)正常運行時間監(jiān)控

ManageEngine OpManager幫助確保所有網(wǎng)絡(luò)設(shè)備、服務(wù)和網(wǎng)站都是全天候運行的。OpManager的接口提供有關(guān)網(wǎng)絡(luò)正常運行時間和單個服務(wù)可用性的實時統(tǒng)計數(shù)據(jù)。儀表板使用綠色、黃色和紅色指示符等可視化提示顯示關(guān)于網(wǎng)絡(luò)設(shè)備、服務(wù)和網(wǎng)站的狀態(tài)和運行狀況的報告,幫助您鎖定關(guān)鍵指標(biāo)。

OpManager提供各種正常運行時間監(jiān)控,包括:

  • 設(shè)備正常運行時間的監(jiān)控

  • 界面運行監(jiān)控

  • 服務(wù)運行監(jiān)控

  • Windows服務(wù)正常運行時間監(jiān)控

  • 網(wǎng)站正常運行時間監(jiān)控

  • 流程運行監(jiān)控

設(shè)備正常運行時間監(jiān)控:

持續(xù)監(jiān)控整個網(wǎng)絡(luò)的正常運行時間和網(wǎng)絡(luò)可用性。OpManager每兩分鐘向被監(jiān)控設(shè)備發(fā)送一個ping信號。如果連續(xù)兩次ping之后沒有響應(yīng),那么OpManager將認(rèn)為該設(shè)備不可用??梢愿鶕?jù)業(yè)務(wù)需要分配ping的數(shù)量及其時間間隔。

網(wǎng)絡(luò)正常運行時間監(jiān)控 - ManageEngine OpManager

作為一個正常運行時間監(jiān)控工具,OpManager使用ICMP Ping來輪詢設(shè)備的可用性。ping是IT管理員檢測設(shè)備可用性的有效工具。

對于非icmp環(huán)境,特別是監(jiān)控邊緣路由器或DMZ區(qū)域設(shè)備的正常運行時間,可以使用Telnet。默認(rèn)的可用性輪詢間隔為5分鐘,您可以根據(jù)需要將其定制為特定的設(shè)備組或特定的設(shè)備。

接口正常運行時間監(jiān)控:

為企業(yè)網(wǎng)絡(luò)和IT基礎(chǔ)設(shè)施中的每個元素提供基于snmp的接口運行時間和端口可用性監(jiān)控。它提供每日、每周、每月或自定義期間顯示接口可用性的正常運行時間報告,以度量網(wǎng)絡(luò)級別的可用性并確保滿足sla。這些接口或端口狀態(tài)通過單個設(shè)備狀態(tài)、第2層網(wǎng)絡(luò)映射、業(yè)務(wù)視圖或自定義設(shè)備組和網(wǎng)絡(luò)天氣圖跨多個方面?zhèn)鞑ァ?/p>

網(wǎng)絡(luò)設(shè)備正常運行時間監(jiān)控 - ManageEngine OpManager
服務(wù)時間監(jiān)控:

服務(wù)器是任何IT基礎(chǔ)設(shè)施的核心元素。為了確保內(nèi)部流程的平穩(wěn)運行和服務(wù)的可用性,它們始終是可訪問的,這一點至關(guān)重要。服務(wù)器正常運行時間,即服務(wù)器對用戶可用的時間,是優(yōu)化網(wǎng)絡(luò)性能的最重要因素之一。

OpManager為您提供有關(guān)被監(jiān)控的傳輸控制協(xié)議(TCP)服務(wù)的可用性和響應(yīng)時間的詳細(xì)圖表和報告。OpManager中的服務(wù)監(jiān)控功能是可定制的,您可以選擇要監(jiān)控的服務(wù)。

網(wǎng)絡(luò)正常運行時間監(jiān)控 - ManageEngine OpManager
Windows服務(wù)正常運行時間監(jiān)控:

除了監(jiān)控系統(tǒng)級服務(wù)之外,OpManager還支持使用Windows管理工具(WMI)監(jiān)控Windows服務(wù)。與系統(tǒng)級服務(wù)監(jiān)控類似,您可以發(fā)現(xiàn)任何Windows服務(wù)并使用OpManager監(jiān)控它們。此外,管理員可以配置OpManager,使其在發(fā)現(xiàn)Windows服務(wù)從操作控制臺關(guān)閉時自動重啟服務(wù)或服務(wù)器。了解更多 >>

Windows網(wǎng)絡(luò)正常運行時間監(jiān)控 - ManageEngine OpManager
網(wǎng)站正常運行時間監(jiān)控:

ManageEngine OpManager執(zhí)行的關(guān)鍵任務(wù)是監(jiān)控您的網(wǎng)站的可用性,每年365天24小時。它監(jiān)控HTTP/ HTTPS url、內(nèi)部網(wǎng)站點、web服務(wù)器場、帶有登錄的web應(yīng)用程序、Windows NT LAN Manager (NTLM)認(rèn)證的網(wǎng)站等等。除了URL正常運行時間監(jiān)控之外,你還可以檢查網(wǎng)站中的特定內(nèi)容。網(wǎng)站可用性監(jiān)控確保網(wǎng)站不受黑客攻擊。

流程運行監(jiān)控:

OpManager的進程正常運行時間監(jiān)控使管理員能夠遠(yuǎn)程監(jiān)控和管理在服務(wù)器上運行的進程。OpManager使用各種協(xié)議,如SNMP、WMI和CLI,來監(jiān)控運行在Windows、Linux、Solaris、UNIX、HP UX、IBM AIX、ESX和VMware服務(wù)器和虛擬機等上的進程。

網(wǎng)絡(luò)正常運行時間監(jiān)控 - ManageEngine OpManager

更多地了解OpManager的流程可用性監(jiān)控。

如何計算設(shè)備的正常運行時間?

在一個特定的時間范圍內(nèi),我們?nèi)≡O(shè)備停機的秒數(shù),然后用這個數(shù)除以該時間范圍內(nèi)設(shè)備被監(jiān)控的總秒數(shù)。因此,我們得到了停機百分比,然后將其從100%減去以確定正常運行時間百分比。

例子

假設(shè)我們監(jiān)控了一個網(wǎng)絡(luò)設(shè)備24小時(即86,400秒),在這段時間內(nèi),設(shè)備宕機了5分鐘(300秒)。為了定義正常運行時間和宕機百分比,我們執(zhí)行以下計算:

設(shè)備停機的總時間:300秒。

設(shè)備被監(jiān)控的總秒數(shù):86,400秒

300除以86,400,等于0.0035。

用百分比表示,這是0.35%這是停機時間百分比。

設(shè)備的正常運行時間百分比將是:100%減去0.35%等于99.65%。

注意:暫停、維護、依賴不可用、宕機、未被監(jiān)控是按設(shè)備宕機時間計算的。

 

運行時間監(jiān)控:如何影響您的業(yè)務(wù)以及您如何確保業(yè)務(wù)關(guān)鍵型網(wǎng)絡(luò)設(shè)備的運行時間?

在當(dāng)今的數(shù)字時代,人們期望企業(yè)始終保持其網(wǎng)絡(luò)運行時間。網(wǎng)絡(luò)運行時間是指網(wǎng)絡(luò)處于活動狀態(tài)并有效運行的時間跨度。

對于任何企業(yè)來說,擁有一個功能強大的IT網(wǎng)絡(luò)是至關(guān)重要的,它可以確保IT基礎(chǔ)設(shè)施組件不斷高效地啟動和運行。這可以通過利用各種協(xié)議(如SNMP、WMI、TCP和ICMP)跨網(wǎng)絡(luò)基礎(chǔ)設(shè)施(如路由器、服務(wù)器和防火墻)監(jiān)控關(guān)鍵組件的運行時間和可用性來確保。

 

為什么運行時間監(jiān)控至關(guān)重要?

沒有多少情況比經(jīng)歷網(wǎng)絡(luò)宕機更糟糕。在過去5到7年中,每小時停機的成本持續(xù)增加,企業(yè)每小時停機的損失可能高達(dá)500萬美元。

雖然不可能經(jīng)歷100%的運行時間,但即使是0.1%的停機時間,即99.999%的運行時間,也會導(dǎo)致一些損失。例如,一個大型網(wǎng)絡(luò)將包含各種設(shè)備和接口,因此不可能手動監(jiān)視所有網(wǎng)絡(luò)組件的可用性和性能。只有當(dāng)監(jiān)測設(shè)備分布在全球多個遠(yuǎn)程站點時,挑戰(zhàn)才會增加。

 

監(jiān)控網(wǎng)絡(luò)運行時間的挑戰(zhàn)

在規(guī)劃早期,考慮到需要監(jiān)控運行時間的設(shè)備數(shù)量,管理和監(jiān)控網(wǎng)絡(luò)的運行時間是一項重大挑戰(zhàn),通常會部署一個訓(xùn)練有素的技術(shù)團隊來維護整個網(wǎng)絡(luò)。

讓我們看看監(jiān)控網(wǎng)絡(luò)基礎(chǔ)設(shè)施運行時間方面的挑戰(zhàn):

  • 處理網(wǎng)絡(luò)可擴展性因素

  • 確定關(guān)鍵問題的優(yōu)先級

  • 平衡服務(wù)級別協(xié)議(SLA)和減少平均修復(fù)時間(MTTR)

  • 卓越的網(wǎng)絡(luò)可視性

  • 處理網(wǎng)絡(luò)可擴展性因素

當(dāng)一個企業(yè)業(yè)務(wù)增長時,其IT基礎(chǔ)設(shè)施會呈指數(shù)級增長。一般來說,企業(yè)網(wǎng)絡(luò)包括來自不同供應(yīng)商的多種類型的設(shè)備。監(jiān)控網(wǎng)絡(luò)中所有可用設(shè)備的運行時間需要大量工作,但這項任務(wù)至關(guān)重要。企業(yè)網(wǎng)絡(luò)中關(guān)鍵設(shè)備的數(shù)量表明維護其運行時間有多復(fù)雜。

 

確定關(guān)鍵問題的優(yōu)先級

基于閾值的告警對于監(jiān)控和避免網(wǎng)絡(luò)停機至關(guān)重要。但是,如果父設(shè)備出現(xiàn)故障或服務(wù)器停機,您將深陷告警循環(huán)之中。告警信息庫不僅會阻礙您識別問題的能力,還會延遲恢復(fù)正常。

然而,對于此類情況,有一些解決方案,包括廣泛、主動的監(jiān)測、識別關(guān)鍵告警,以及通過適當(dāng)?shù)那缹⒏婢瘋鬟f給正確的利益相關(guān)者,以便立即采取行動。

 

平衡SLA并降低MTTR

必須對關(guān)鍵設(shè)備進行監(jiān)控,以應(yīng)對性能差和網(wǎng)絡(luò)中斷。MTTR是一個監(jiān)測系統(tǒng)可用性的參數(shù)。企業(yè)可以使用MTTR來支持SLA。SLA可用于測量網(wǎng)絡(luò)設(shè)備的可用性。為了提高網(wǎng)絡(luò)的可用性,您應(yīng)該監(jiān)視網(wǎng)絡(luò)設(shè)備的可用性。一旦檢測到故障,主動告警。您可以使用諸如ServceNow和ServiceDesk Plus之類的IT服務(wù)管理工具來記錄有關(guān)可用性問題的記錄,并在網(wǎng)絡(luò)停機之前快速解決這些問題。

 

卓越的網(wǎng)絡(luò)可視性

您應(yīng)該了解網(wǎng)絡(luò)中工作的所有網(wǎng)絡(luò)組件。在整個網(wǎng)絡(luò)中的可見性有助于您在問題的早期階段識別問題,并在其影響最終用戶之前將其消除,從而建立一個穩(wěn)定的網(wǎng)絡(luò)。

 

使用OpManager監(jiān)控運行時間

OpManager是一款動態(tài)網(wǎng)絡(luò)監(jiān)控軟件,提供實時網(wǎng)絡(luò)監(jiān)控,幫助您了解網(wǎng)絡(luò)設(shè)備的可用性和性能。在識別網(wǎng)絡(luò)漏洞方面的任何延遲或失敗都可能導(dǎo)致災(zāi)難性的停機,并花費數(shù)千美元。OpMangaer的運行時間監(jiān)控功能有助于消除這一IT痛點。

 

OpManager提供:
  • 使用定期預(yù)防性維護措施主動監(jiān)控網(wǎng)絡(luò)的內(nèi)部健康狀況,以幫助您減少設(shè)備故障。

  • 計劃運行狀況報表,幫助您隨時了解網(wǎng)絡(luò)中各種基礎(chǔ)設(shè)施組件的運行狀況。

  • 帶顏色代碼的運行時間圖可以幫助您及時了解網(wǎng)絡(luò)中所有設(shè)備的可用性。

更多內(nèi)容: 打印機監(jiān)控 UPS監(jiān)控 CPU溫度監(jiān)控 硬件監(jiān)控 網(wǎng)絡(luò)映射


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 正常運行時間監(jiān)控

技術(shù)專區(qū)

關(guān)閉