磁盤(pán)陣列(RAID)技術(shù)在視頻監(jiān)控應(yīng)用的問(wèn)題與發(fā)展
視頻監(jiān)控網(wǎng)絡(luò)化步伐已全面展開(kāi),大量的監(jiān)控?cái)?shù)據(jù)被保存在安裝硬盤(pán)的NVR、IP-SAN中,眾所周知,目前大容量硬盤(pán)都屬于精密機(jī)械部件,本身故障多發(fā),屬于易耗品。那么直接保存在硬盤(pán)中的數(shù)據(jù)必然面臨數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
在傳統(tǒng)的視頻監(jiān)控應(yīng)用中,比如:小區(qū)、樓宇、園區(qū)監(jiān)控等,對(duì)數(shù)據(jù)可靠性要求并不高,其監(jiān)控?cái)?shù)據(jù)的有效利用率一直保持在很低的比例上,一旦不幸運(yùn)遇到硬盤(pán)故障,損失一塊硬盤(pán)的數(shù)據(jù)對(duì)這些應(yīng)用來(lái)講都是可以承受的,大量的嵌入式錄像設(shè)備廠商正是看重這一點(diǎn),推出使用單盤(pán)模式的廉價(jià)NVR,免去支持硬盤(pán)數(shù)據(jù)冗余帶來(lái)的成本提升;由于不做RAID,可以配置同樣廉價(jià)的監(jiān)控級(jí)硬盤(pán),大大降低錄像產(chǎn)品與方案的整體成本,低成本優(yōu)勢(shì)大大提升嵌入式NVR的出貨量。
眾所周知,RAID技術(shù)可以消除硬盤(pán)故障帶來(lái)的數(shù)據(jù)丟失和業(yè)務(wù)中斷,但是它也對(duì)硬盤(pán)本身提出要求,一般要求是企業(yè)級(jí)硬盤(pán),這種硬盤(pán)的固件對(duì)處于RAID 工作環(huán)境下的各種狀態(tài)進(jìn)行調(diào)優(yōu),例如:可以對(duì)RAID下多塊硬盤(pán)一起工作時(shí)產(chǎn)生的共振進(jìn)行很好的磁頭偏移補(bǔ)償、可以固化一個(gè)硬盤(pán)錯(cuò)誤處理的最大響應(yīng)時(shí)間,以免錯(cuò)誤修復(fù)時(shí)間過(guò)長(zhǎng),被RAID誤以為硬盤(pán)不響應(yīng)而踢掉、支持較好的并發(fā)讀寫(xiě)性能等;這些調(diào)優(yōu)都極大的增強(qiáng)了企業(yè)級(jí)硬盤(pán)在RAID環(huán)境的可用性。
如果是低成本的監(jiān)控級(jí)硬盤(pán),由于硬盤(pán)固件本身的限制,不能很好的在RAID環(huán)境中工作;例如:沒(méi)有針對(duì)共振的磁盤(pán)校正,RAID環(huán)境下數(shù)據(jù)讀寫(xiě)出錯(cuò)機(jī)率大增,而監(jiān)控級(jí)硬盤(pán)并沒(méi)有固化錯(cuò)誤處理的最大響應(yīng)時(shí)間,硬盤(pán)忙時(shí)一個(gè)錯(cuò)誤處理可長(zhǎng)達(dá)2~5分鐘,而一般RAID允許的硬盤(pán)響應(yīng)時(shí)間為30秒左右,造成 RAID掉盤(pán)現(xiàn)象增加,甚至連RAID初始化都完成不了;在RAID5工作和重構(gòu)過(guò)程中,在寫(xiě)數(shù)據(jù)之前需要讀出大量數(shù)據(jù)進(jìn)行校驗(yàn)計(jì)算,但是監(jiān)控級(jí)硬盤(pán)的讀性能表現(xiàn)顯然沒(méi)有它的寫(xiě)性能表現(xiàn)好,大量的讀IO隊(duì)列經(jīng)常堵塞,而造成多塊硬盤(pán)的響應(yīng)時(shí)間嚴(yán)重增加,可能導(dǎo)致批量掉盤(pán)。
對(duì)于視頻監(jiān)控應(yīng)用來(lái)說(shuō),只有付得起企業(yè)級(jí)硬盤(pán)高成本的高端用戶才可以享受得起傳統(tǒng)RAID技術(shù)帶來(lái)的數(shù)據(jù)可靠性好處,傳統(tǒng)RAID技術(shù)與監(jiān)控級(jí)硬盤(pán)的糟糕兼容表現(xiàn)已經(jīng)成為向大量視頻監(jiān)控中低端用戶普及的阻力。
因此,視頻監(jiān)控應(yīng)用對(duì)傳統(tǒng)RAID技術(shù)提出以下挑戰(zhàn):
1、要求可配置低成本的非企業(yè)級(jí)硬盤(pán)組建RAID組,降低硬盤(pán)成本;
2、要求降低大容量硬盤(pán)的重建時(shí)間,提升重構(gòu)成功率;
3、要求提升非企業(yè)級(jí)硬盤(pán)RAID組的可用性;
看到以上需求,中科藍(lán)鯨公司對(duì)傳統(tǒng)RAID算法進(jìn)行改造和更新,開(kāi)發(fā)了新一代Smart RAID技術(shù),該技術(shù)思路是縮小硬盤(pán)管理的最小單位,將故障范圍縮小在局部,從而提升硬盤(pán)RAID組的整體可用性;同時(shí)優(yōu)化了RAID對(duì)監(jiān)控級(jí)硬盤(pán)故障的響應(yīng)時(shí)間容忍度,極大提升了非企業(yè)級(jí)硬盤(pán)(包括監(jiān)控級(jí)硬盤(pán))的RAID可用性。
在Smart RAID組建過(guò)程中,首先對(duì)硬盤(pán)進(jìn)行碎化處理,每塊物理硬盤(pán)會(huì)被碎化為64份,每塊物理盤(pán)相同位置的小數(shù)據(jù)塊會(huì)被組建為一個(gè)基本的Smart RAID管理單元,多個(gè)Smart RAID管理單元可組建為一個(gè)大的邏輯卷對(duì)外使用;Smart RAID管理單元具備RAID級(jí)別的所有屬性,如介質(zhì)檢測(cè)、故障踢盤(pán)、替換熱備、重構(gòu)等;實(shí)際運(yùn)行情況下,當(dāng)物理硬盤(pán)發(fā)生磁道扇區(qū)故障,對(duì)故障數(shù)據(jù)塊的掉盤(pán)、替換熱備、重建操作都可以在一組Smart RAID內(nèi)完成,大大減少重構(gòu)讀取與寫(xiě)入的IO量,縮短重建完成的整體時(shí)間;每塊物理盤(pán)的最后4個(gè)數(shù)據(jù)塊是作為熱備使用的。如下圖所示:
使用Smart RAID技術(shù)后的好處顯而易見(jiàn),由于對(duì)監(jiān)控級(jí)硬盤(pán)故障的響應(yīng)時(shí)間容忍度提升,使用監(jiān)控級(jí)硬盤(pán)制作RAID5組的可用性明顯提升,頻繁掉盤(pán)現(xiàn)象得到有效解決。
在實(shí)際運(yùn)行表現(xiàn)中,硬盤(pán)運(yùn)行中出現(xiàn)的故障90%都集中在局部錯(cuò)誤導(dǎo)致的讀寫(xiě)異常,因電路或機(jī)械原因?qū)е碌恼P(pán)不工作的故障更是少見(jiàn),因此,當(dāng)發(fā)生硬盤(pán)錯(cuò)誤,Smart RAID技術(shù)能夠很好的發(fā)揮局部重構(gòu)優(yōu)勢(shì),重構(gòu)完成只需10來(lái)分鐘;即使發(fā)生整盤(pán)故障,Smart RAID也能夠和傳統(tǒng)RAID一樣對(duì)整塊物理盤(pán)進(jìn)行踢盤(pán)、重構(gòu)。
評(píng)論