如何應(yīng)對無可避免的數(shù)據(jù)損壞?
全球最大的粒子物理學(xué)實(shí)驗(yàn)室CERN最近對數(shù)據(jù)損壞和字節(jié)破壞問題進(jìn)行了研究。CERN的Peter Keleman總結(jié)出了存儲專業(yè)人士務(wù)必了解的一些可能的解決方案。但是這與最終用戶有什么關(guān)系呢?在幾個月之前,我在旅途中碰巧遇到了這樣一個問題,我懷疑是由數(shù)據(jù)損壞引起的。作為一名顧問,我經(jīng)常到各地出差,為了提前預(yù)定各種票和房間,我成為了許多酒店、航空公司、租車公司和其他旅游公司的會員。
本文引用地址:http://butianyuan.cn/article/201706/355457.htm在8月份的一個早晨,我登錄到一家不知名的旅游公司網(wǎng)站上為未來一周的旅游進(jìn)行了預(yù)定。幾個小時之后我再次登錄該網(wǎng)站,結(jié)果登錄密碼不能用了。我以為網(wǎng)站暫時關(guān)閉了,然后就在午飯后又嘗試登錄網(wǎng)站,但是遇到了同樣的問題。我撥打網(wǎng)站的客服電話,結(jié)果被告知他們也不知道出現(xiàn)了什么問題,他們說他們可以將我的密碼通過電子郵件發(fā)送給我。
我受到密碼之后,發(fā)現(xiàn)有些事情出現(xiàn)了可怕的錯誤:我的密碼是以()!@結(jié)尾的,結(jié)果變成了(]!@。 我害怕有人已經(jīng)獲得了我的密碼,然后更改了密碼并使用了我的信用卡,或者出現(xiàn)更壞的情況。我再次致電公司并且要求二線網(wǎng)絡(luò)支持服務(wù)。我詢問他們我的密碼最后是在什么時候被更改的。他們告訴我是在一年之前,也就是說沒有發(fā)生身份被竊的問題。
字符的問題
我決定對這件事進(jìn)行進(jìn)一步的調(diào)查,這多少與我的專業(yè)也有一定的關(guān)系。我猜想這個問題肯定跟字符集有關(guān)。我假定那個系統(tǒng)沒有使用IBM的主機(jī),而且使用的是ASCII碼而不是EBCDIC碼。首先我去查詢了ASCII字符轉(zhuǎn)換表。下面就是ASCII碼中的)和]這兩種字符被轉(zhuǎn)換成其他碼之后的各種形式。
二進(jìn)制 八進(jìn)制 十進(jìn)制 十六進(jìn)制 鍵盤字符
010 1001 051 41 29 )
101 1101 135 93 5D ]
我一直懷疑,如果發(fā)現(xiàn)大環(huán)境中出現(xiàn)至少3個無法解釋的錯誤之后,數(shù)據(jù)可能就被損壞了。CERN字符集的變動證明我并非杞人憂天。據(jù)我所知,CERN使用的大部分磁盤驅(qū)動器都是SATA驅(qū)動器。這是否是我的密碼信息出錯的原因呢?顯然,在構(gòu)成密碼的7個字符中,有4個已經(jīng)改動過了。
我想我需要再次向公司求助。那時已經(jīng)到了傍晚時分,但是我一下子就打到了一線支持處,于是我開始談?wù)揂SCII編碼和字節(jié)變換。幾分鐘之內(nèi),我與二線支持客服取得了聯(lián)系。他了解了我的想法但是認(rèn)為我有些過分了:問題已經(jīng)得到解決之后,我為什么要深究他們是否損壞了我的密碼呢?過了一會之后,我聯(lián)系上了第三線支持客服。我解釋說,我是一位存儲顧問然后將我對這個問題的認(rèn)識重新解釋了一遍。結(jié)果發(fā)生了一件有趣的事:他剛剛也接到另一位用戶的電話,而且那位用戶也是一位計(jì)算機(jī)顧問并且也遇到了相同的問題,只是他的密碼被改成了另一個不同的字符。兩個人在同一天遇到了相同的問題。
我對三線支持客服說,如果硬盤是SATA或者FC的話,他們也許應(yīng)該檢查一下與密碼有關(guān)的磁盤通道和硬盤驅(qū)動器,我要求他們將檢查的結(jié)果通過電子郵件告訴我。他們自然表示同意,然而除了一次例行客服調(diào)查之外,我當(dāng)然再也沒有獲得回音。能夠找出問題的真正原因當(dāng)然是好的,但是那些公司當(dāng)然不愿意將真正的原因告知外人。
有限的努力
我永遠(yuǎn)也無法知道我的密碼被損壞的真正原因是什么以及為什么另一個用戶的密碼也被損壞,或者這個問題到底影響了多少用戶。就象我的家用電腦出現(xiàn)數(shù)據(jù)損壞情況之后我所說的那樣,我相信數(shù)據(jù)是可能被損壞的,目前針對這方面的問題的保護(hù)措施仍十分有限。
T10集團(tuán)將采用一項(xiàng)名為Data Integrity Field的新標(biāo)準(zhǔn),那項(xiàng)標(biāo)準(zhǔn)將從SCSI驅(qū)動器發(fā)送一個檢驗(yàn)數(shù)字到磁盤。這種做法和Sun公司的ZFS文件系統(tǒng)似乎可以對數(shù)據(jù)損壞情況進(jìn)行一定的保護(hù),但是要想使用這些技術(shù)都還需要其他一些條件。業(yè)內(nèi)對這些類型的數(shù)據(jù)損壞問題的認(rèn)識仍十分有限,對于這些問題的研究也比較困難。當(dāng)你遇到這類問題的時候,你必須找到問題的原因并立即解決它,但是通常情況下,人們會更換掉部分組件,而且永遠(yuǎn)也弄不明白是什么損壞了,以及為什么會發(fā)生數(shù)據(jù)損壞和它是如何發(fā)生的。
我比以前更加確定數(shù)據(jù)損壞是肯定會發(fā)生的,而且在目前的技術(shù)水平下我們對此是無能為力的。隨著數(shù)據(jù)和全球數(shù)據(jù)網(wǎng)絡(luò)的急劇增長,我們需要合適的糾錯技術(shù)去解決整改數(shù)據(jù)通路中發(fā)生的數(shù)據(jù)損壞問題。但是問題是,我們是否愿意承擔(dān)那么做的成本?糾錯將降低系統(tǒng)的性能并增加成本。為了提高數(shù)據(jù)系統(tǒng)的可靠性,我愿意負(fù)擔(dān)那個成本。你愿意嗎?
評論