關 閉

新聞中心

EEPW首頁 > 工控自動化 > 設計應用 > 海量存儲機群系統中提高系統MTTF的設計和分析

海量存儲機群系統中提高系統MTTF的設計和分析

作者: 時間:2010-04-16 來源:網絡 收藏

摘 要:當今,被廣泛地應用于系統。對數據有高可靠性要求的應用,如何提高系統是人們研究的主要問題。本文提出了一個新的動態(tài)備份策略,并行數據備份策略,通過詳細的理論,指出該策略可顯著地提高系統;還通過仿真實驗,驗證了其效果。
關鍵詞:;;平均故障前時間

本文引用地址:http://www.butianyuan.cn/article/202545.htm

1 引言

在過去幾年里,被廣泛地應用于系統,比如,著名的Google文件系統就包含上千個基于linux的計算機。這樣做的好處有三個。第一,由于每個節(jié)點都是大批量生產的,整個系統的價格可以很低。第二,通過增減節(jié)點,系統可以簡單地進行擴展。第三,通過在互相獨立的節(jié)點上備份數據,可以顯著地提高系統中數據的可靠性。

對存儲系統來說,系統的平均故障前時間()是指系統中出現某個數據因所有的備份都丟失,而導致該數據無法挽回地丟失所需的平均時間。對于有較高數據可靠性要求的系統,系統的MTTF是衡量系統性能的一個重要指標。提高系統MTTF的一個方法就是 提高數據的備份數。備份數的選擇需要綜合考慮,因為選擇過低的備份數,系統的MTTF不能滿足要求;而選擇過高的備份數,系統的存儲資源就被浪費,特別是當系統中包含大量數據的時候。另一個方面,考慮到機群系統中節(jié)點會不斷失效,因此還必須對備份數因節(jié)點失效而降低的數據進行動態(tài)備份,以提高系統MTTF。本文提出了一個新的動態(tài)備份策略,并行數據備份策略,理論了其性能,并進行了仿真實驗。

2系統結構和動態(tài)備份策略

整個系統的構成情況如下。機群系統包含n個節(jié)點。系統中的所有對象狀態(tài)以狀態(tài)塊為單元進行組織。系統中存儲的互不相同的狀態(tài)塊總數正比與節(jié)點總數。每個狀態(tài)塊有m個備份。同一個狀態(tài)塊的備份不能在一個節(jié)點上,以保證可靠性;一個節(jié)點可以同時存儲許多個狀態(tài)塊的備份。每個正常節(jié)點都會失效。

在出現一個節(jié)點失效后,系統的動態(tài)備份策略為:1)為失效節(jié)點上的每個狀態(tài)塊,選擇一對源節(jié)點和目標節(jié)點,源節(jié)點包含該狀態(tài)塊,目標節(jié)點不包含;2)讓這些狀態(tài)塊,同時在各對應源節(jié)點和目標節(jié)點之間開始轉移,直至轉移完畢。其中,各狀態(tài)塊的源節(jié)點和目標節(jié)點的選擇應盡可能互不重合,以使盡可能多的狀態(tài)塊轉移可并發(fā)進行。另外,這個備份策略也意味著每個狀態(tài)塊的備份可存儲于任一節(jié)點上。下面,通過建立數學模型,理論估計該動態(tài)備份策略下的系統MTTF。

3理論

考慮用Markov過程來描述這個模型。為此,做如下假設。節(jié)點的失效速率服從指數分布,均值為l。由于系統中節(jié)點數目巨大,所以在一個節(jié)點失效后,其上的狀態(tài)塊完全可以找到互不重復的源節(jié)點和目標節(jié)點,狀態(tài)塊轉移可以并發(fā)進行,可設轉移速率服從指數分布,均值為lb。另外,考慮到系統中的節(jié)點數目巨大,可以認為系統在出現某狀態(tài)塊無法挽回丟失時,系統中正常工作的節(jié)點數依然維持在較高水平,與起始時的節(jié)點數n在同一個數量級。因此,可近似認為系統中節(jié)點數始終為n。于是,取有幾個失效節(jié)點上的狀態(tài)塊正在進行轉移為研究對象,可得狀態(tài)轉移圖如圖1。其中,m為每個狀態(tài)塊的原備份數;ai表示當一個有n個節(jié)點的系統中有(i-1)個失效節(jié)點上的狀態(tài)塊正在進行轉移時無狀態(tài)塊丟失,而再失效一個節(jié)點發(fā)生一狀態(tài)塊丟失的概率;狀態(tài)i'(i>=m)表示系統中出現某狀態(tài)塊無法挽回地丟失。


圖1 系統的狀態(tài)轉移過程

因此,目標就化為系統進入狀態(tài)i'的均值時間。這個系統可以近似看成一個狀態(tài)數為無窮的一維生滅過程。要求解進入狀態(tài)i'的瞬態(tài)概率,將涉及解一個含無窮多等式的微分方程組,這是很復雜的。但根據以往求一維生滅過程的穩(wěn)態(tài)解的經驗知道, 。因此,如果ln-1/mn很小,那隨著n的增加,Pn將急速下降。于是,當n增加到一定值時,可以忽略其后的狀態(tài)。對一個典型的含1000個節(jié)點的機群系統,若節(jié)點的MTTF為一天,則系統中出現某節(jié)點失效的速率約為0.011/秒;而一個狀態(tài)塊的平均轉移時間可以在10秒鐘左右,即,轉移速率為0.1/秒;這兩個速率之比約為0.1。因此,可以忽略系統中n>=m的狀態(tài),而把系統進入狀態(tài)m'的均值時間作為系統的MTTF。


上一頁 1 2 3 下一頁

評論


相關推薦

技術專區(qū)

關閉