如何讓linux服務器磁盤io性能翻倍
一 機械磁盤的io的速度主要受“尋道速度”的限制,所以在訪問小文件時io性能會極差。如果不在乎成本,可以通過使用固態(tài)硬盤來解決這個問題。
本文引用地址:http://www.butianyuan.cn/article/201609/304177.htm二 linux的主流文件系統(如ext4等),在文件系統持續(xù)比較滿,且需要經常刪改文件時,會產生大量文件碎片。在我開發(fā)的一款代理服務器中,磁盤長期滿負荷運轉,運行一個月后文件碎片大約會讓io性能降低至只剩20%-30%
這一期我們來看一下有哪些辦法可以減少linux下的文件碎片。主要是針對磁盤長期滿負荷運轉的使用場景(例如http代理服務器);另外有一個小技巧,針對互聯網圖片服務器,可以將io性能提升數倍。
如果為服務器訂制一個專用文件系統,可以完全解決文件碎片的問題,將磁盤io的性能發(fā)揮至極限。對于我們的代理服務器,相當于把io性能提升到3-5倍。
在現有文件系統下進行優(yōu)化
linux內核和各個文件系統采用了幾個優(yōu)化方案來提升磁盤訪問速度。但這些優(yōu)化方案需要在我們的服務器設計中進行配合才能得到充分發(fā)揮。
文件系統緩存
linux內核會將大部分空閑內存交給虛擬文件系統,來作為文件緩存,叫做page cache。在內存不足時,這部分內存會采用lru算法進行淘汰。
通過free命令查看內存,顯示為cached的部分就是文件緩存了。
如何針對性優(yōu)化:
lru并不是一個優(yōu)秀淘汰算法,lru最大的優(yōu)勢是普適性好,在各種使用場景下都能起到一定的效果。
如果能找到當前使用場景下,文件被訪問的統計特征,針對性的寫一個淘汰算法,可以大幅提升文件緩存的命中率。
對于http正向代理來說,一個好的淘汰算法可以用1GB內存達到lru算法100GB內存的緩存效果。
如果不打算寫一個新的淘汰算法,一般不需要在應用層再搭一個文件cache程序來做緩存。
最小分配
當文件擴大,需要分配磁盤空間時,大部分文件系統不會僅僅只分配當前需要的磁盤空間,而是會多分配一些磁盤空間。這樣下次文件擴大時就可以使用已經分配好的空間,而不會頻繁的去分配新空間。
例如ext3下,每次分配磁盤空間時,最小是分配8KB。
最小分配的副作用是會浪費一些磁盤空間(分配了但是又沒有使用)
如何針對性優(yōu)化:
我們在reiserfs下將最小分配空間從8KB改大到128K后提升了30%的磁盤io性能。
如果當前使用場景下小文件很多,把預分配改大就會浪費很多磁盤空間,所以這個數值要根據當前使用場景來設定。
似乎要直接改源代碼才能生效,不太記得了,09年的時候改的,有興趣的同學自己google吧。
io訪問調度
在同時有多個io訪問時,linux內核可以對這些io訪問按LBA進行合并和排序,這樣磁頭在移動時,可以“順便”讀出移動過程中的數據。
2.6內核有四種不同的排序算法,有些側重于io性能最大化,也有一些側重于調度的公平性,大致上的原理都類似于電梯排序。
SATA等磁盤甚至在磁盤中內置了io排序來進一步提升性能,一般需要在主板中進行配置才能啟動磁盤內置io排序。linux的io排序是根據LBA進行的,但LBA是一個一維線性地址,無法完全反應出二維的圓形磁盤,所以磁盤的內置io排序能達到更好的效果。
關于LBA請參考上一期博客,http://blog.chinaunix.net/uid-29873073-id-4514435.html
如何針對性優(yōu)化:
io訪問調度能大幅提升io性能,前提是應用層同時發(fā)起了足夠的io訪問供linux去調度。
怎樣才能從應用層同時向內核發(fā)起多個io訪問呢?
方案一是用aio_read異步發(fā)起多個文件讀寫請求。
方案二是使用磁盤線程池同時發(fā)起多個文件讀寫請求。
對我們的http正向代理來說,采用16個線程讀寫磁盤可以將性能提升到2.5倍左右。具體開多少個線程/進程,可以根據具體使用場景來決定。
小提示:
將文件句柄設置為非阻塞時,進程還是會睡眠等待磁盤io,非阻塞對于文件讀寫是不生效的。在正常情況下,讀文件只會引入十幾毫秒睡眠,所以不太明顯;而在磁盤io極大時,讀文件會引起十秒以上的進程睡眠。
詳見內核源代碼do_generic_file_read會調用lock_page_killable進入睡眠,但是不會判斷句柄的非阻塞標志。
預讀取
linux內核可以預測我們“將來的讀請求”并提前將數據讀取出來。通過預讀取可以減少讀io的次數,并且減小讀請求的延時。
如何針對性優(yōu)化:
預讀取的預測準確率是有限的,與其依賴預讀取,不如我們直接開一個較大的緩沖區(qū),一次性將文件讀出來再慢慢處理;盡量不要開一個較小的緩沖區(qū),循環(huán)讀文件/處理文件。
究竟開多大緩沖區(qū)合適,要根據具體使用場景下的內存/磁盤io壓力來決定。
雖然說“預讀取”和“延遲分配”能起到類似的作用,但是我們自己擴大讀寫緩沖區(qū)效果要更好。
延遲分配
當文件擴大,需要分配磁盤空間時,可以不立即進行分配,而是暫存在內存中,將多次分配磁盤空間的請求聚合在一起后,再進行一次性分配。
延遲分配的目的也是減少分配次數,從而減少文件不連續(xù)。
延遲分配的副作用有幾個:
1 如果應用程序每次寫數據后都通過fsync等接口進行強制刷新,延遲分配將不起作用
2 延遲分配有可能間歇性引入一個較大的磁盤IO延時(因為要一次性向磁盤寫入較多數據)
只有少數新文件系統支持這個特性
如何針對性優(yōu)化:
如果不是對安全性(是否允許丟失)要求極高的數據,可以直接在應用程序里緩存起來,積累到一定大小再寫入,效果比文件系統的延遲分配更好。
如果對安全性要求極高,建議經常用fsync強制刷新。
在線磁盤碎片整理
Ext4提供了一款碎片整理工具,叫e4defrag,主要包含三個功能:
1 讓每個文件連續(xù)存儲
2 盡量讓每個目錄下的文件連續(xù)存儲
3 通過整理空閑磁盤空間,讓接下來的分配更不容易產生碎片
有興趣的同學可以參考http://jsmylinux.no-ip.org/applications/using-e4defrag/
如何針對性優(yōu)化:
“讓每個目錄下的文件連續(xù)存儲”是一個極有價值的功能。
評論