騰訊云:服務器資源池化技術發(fā)展趨勢
海量數(shù)據(jù)正以前所未有的增長趨勢沖擊著整個數(shù)據(jù)中心行業(yè),數(shù)據(jù)中心建設者們不得不以一種新的思考方式去重新審視IT系統(tǒng)架構。服務器作為數(shù)據(jù)中心的核心部件之一,為了適應未來大規(guī)模業(yè)務增長的需求,也需要對其架構進行優(yōu)化和重構。
本文引用地址:http://butianyuan.cn/article/273056.htm服務器的硬件重構關乎大規(guī)模數(shù)據(jù)中心的效率和成本問題,目標是降低服務器硬件購置成本、提高服務器硬件資源的利用率、降低服務器運維成本,降低綜合TCO。
騰訊作為服務器"天蝎標準"的引領者,一直在服務器領域深耕細作,精細化運營。尤其在新技術領域敢為人先,那么對于服務器資源池化技術,騰訊又是怎么看怎么做的呢?請跟隨小編去一步步探討。
WHY服務器資源池化?
騰訊的現(xiàn)役服務器超過數(shù)十萬臺,其中傳統(tǒng)的機架式服務器占比超過90%。傳統(tǒng)的機架式服務器計算、存儲、網(wǎng)絡資源配比較為均衡,具有很好的通用性,是比較典型的"One size fits all"方案。所以,在騰訊十多年服務器發(fā)展歷程中,機架式服務器承擔著非常重要的奠基石作用。但是,隨著騰訊的單體業(yè)務的規(guī)模膨脹,傳統(tǒng)機架式服務器在應對大規(guī)模業(yè)務模型時,顯露出些絲疲態(tài),在運行某一種資源密集型的應用,效率不夠高,還影響密度。譬如:
計算密集型應用,空著的內(nèi)存插槽、驅(qū)動器倉、擴展槽位都影響計算密度;
內(nèi)存密集型應用,驅(qū)動器倉和擴展槽位可能是浪費空間;
存儲密集型應用,CPU 和內(nèi)存的設計配置過高了……
為此,我們付出的代價是:定制不同型號的服務器。目前騰訊現(xiàn)役機型超過百種,新采購機型超過數(shù)十種。服務類型的增加,不僅給服務器的資源管理帶來了困難,也給服務器的運營增加了很多困難和成本。
傳統(tǒng)機架式服務器應對大規(guī)模數(shù)據(jù)中心暴露出來的問題,不僅僅是騰訊一家,業(yè)界很多互聯(lián)網(wǎng)企業(yè)、云服務提供商都面臨著這個問題。數(shù)據(jù)中心的負責是多樣性的,下圖很形象的展示了數(shù)據(jù)中心不同負載對CPU、MEM、IO的需求:
數(shù)據(jù)中心工作負載的多樣性,橫軸是I/O 密集程度,縱軸是CPU 和內(nèi)存密集程度,可見一個計算和存儲等資源配比相對均衡的系統(tǒng),是很難做到對多種不同應用優(yōu)化的。
另外,不同類型資源之間也存在生命周期不同步的問題。譬如,CPU 是發(fā)展速度最快的,每兩三年就性能翻倍,然而存儲的技術發(fā)展相對緩慢,從而會造成CPU性能和功耗的浪費。
服務器資源池化技術,除了能夠帶來靈活、彈性的資源部署,提高資源利用率這個優(yōu)勢,還能夠更有效的提高服務器的故障修復能力,提升服務器運營效率。綜合騰訊十多年的運營數(shù)據(jù),硬盤是故障率最高的部件之一,在實現(xiàn)存儲池化技術后,多盤存儲資源池為單體硬盤提供了很好的冗余設計能力。當單個硬盤出現(xiàn)故障后,可以及時使用其他硬盤資源進行無損恢復,無需立即現(xiàn)場更換硬盤。
誰在研究服務器資源池化?
為了解決這個問題,業(yè)界以Intel、Google為首的多家公司著手研究新型的服務器架構。
Intel提出了RSA(Rack Scale Architecture)架構、Google攜手伯克利大學提出了WSC(Warehouse Scale Computer)的概念。Intel的RSA架構已經(jīng)有了清晰的架構設計和路標,目前原型機已經(jīng)面世。而Google的WSC仍在概念階段,只有簡單的時間表,2020年。
服務器資源池化的挑戰(zhàn)?
在這里,我們以Intel的RSA為范例,簡單介紹一下服務器資源池化技術。用一句形象的話來比喻RSA:Rack As a Server,即一個機柜就像是一臺大型服務器。Intel RSA(Rack Scale Architecture) 架構提供了一種機架重構的方案,其思想是將幾種重要的資源池化:CPU 池、內(nèi)存池、存儲池,池化的RSA 模型可以很方便地進行管理和擴展,并降低運行維護成本。業(yè)務軟件或者OS的視角看到的還是一臺傳統(tǒng)的服務器,有CPU、內(nèi)存、硬盤、網(wǎng)卡等,如下圖所示:
服務器重構并資源池化后,面臨的最大的挑戰(zhàn)就是,挑戰(zhàn)一:互連與時延(拓撲結構與接口);挑戰(zhàn)二:配置與管理(協(xié)議與監(jiān)控)。
挑戰(zhàn)一:互連與時延。資源池之間的網(wǎng)絡互連,在鏈路層協(xié)議上,可以有很多種,Intel RSA采用的是以太網(wǎng),行業(yè)上還有其他公司采用PCIe、SAS、Fabric等。不同的網(wǎng)絡互連協(xié)議,各具優(yōu)缺點,我們也期待著各種技術的探索成果。但是在物理層上,各家的觀點殊途同歸:硅光技術。硅光技術不僅繼承了光纖傳輸?shù)母咚佟⒌蜁r延的特點,同時也大幅提升了接口密度。
挑戰(zhàn)二:配置與管理。服務器的部件資源池化后,需要對部件資源進行發(fā)現(xiàn)、記錄、分配、回收,以及對邏輯服務器進行組裝、卸載等,需要定義一套新的管理軟件和協(xié)議。目前Intel定義了一套RSA管理軟件,提供對服務器資源池的發(fā)現(xiàn)、配置和管理。
RSA管理軟件不僅僅實現(xiàn)對內(nèi)部池化資源的配置管理,同樣對上提供管理接口,對接OpenStack或VMware等管理軟件。服務器資源池化后,產(chǎn)生了大量的配置管理的數(shù)據(jù),傳統(tǒng)使用I2C總線的IPMI接口和協(xié)議,由于傳輸速率低、協(xié)議承載信息量小,無法滿足資源池化的配置管理需求。此前,Intel聯(lián)合HP、Dell建立了一套新的數(shù)據(jù)中心管理軟件協(xié)議Redfish,也被Intel導入RSA軟件架構,用于優(yōu)化資源池化管理。
業(yè)務軟件的同事可能比較關心,服務器資源池化后,對業(yè)務軟件會有什么影響嗎?答案是,不會。服務器資源池化,是從硬件角度對服務器硬件資源進行優(yōu)化重構;從軟件層面來看,是透明的。創(chuàng)建了邏輯服務器后,軟件和OS看到的與傳統(tǒng)服務器的硬件部件沒有區(qū)別。
服務器資源池化能力如何助力云服務?
目前虛擬化技術和云服務都是基于虛擬化技術,將單個服務器硬件虛擬成多個虛擬機VM,其目的也是在于提高服務器資源的利用率。但是,由于單個服務器的CPU、內(nèi)存、硬盤資源顆粒度較小,因此在虛擬化應用中,經(jīng)常出現(xiàn)資源配置空洞,要么是CPU核數(shù)沒有分配完,要么是內(nèi)存沒有分配完,更多的情況是硬盤容量存在大量空閑。
而服務器資源池化可以更好的解決上述問題。據(jù)了解,現(xiàn)在騰訊云的虛擬化服務是一虛多的能力,而未來將借助服務器資源池化技術逐步實現(xiàn)多虛多的能力。
這樣一來,騰訊云通過軟件層面提供的虛擬化服務,同時利用服務器資源池化在硬件層面提供的虛擬化能力,能夠為用戶提供更加靈活的云服務。服務器資源池化后,創(chuàng)建出來的邏輯服務器上,可以繼續(xù)運行虛擬化和云服務器軟件,再創(chuàng)建出虛擬機給用戶使用。服務器資源池化后,可以進一步減少云服務產(chǎn)生的資源配置空洞,進一步提高硬件資源的利用率,減少TCO成本。
騰訊目前在服務器資源池化上的研究進展
2014年騰訊服務器平臺中心基于資源池化的概念,進行了存儲池化的技術預研和POC驗證。使用現(xiàn)有的傳統(tǒng)機架服務器,搭建了一套存儲池化的簡易POC模型,如下圖所示:
將20臺騰訊的B/C類服務器去除硬盤后,組成計算資源池,使用1臺TSx存儲服務器作為存儲資源池,然后基于萬兆網(wǎng)絡完成存儲池與計算池的互連。資源配置方面,將存儲池的硬盤劃分成20個LUN,用于分配給20個Bx/Cx計算節(jié)點的啟動盤。
實驗中,騰訊實現(xiàn)了20臺邏輯服務器的組裝,實現(xiàn)了服務器的批量自動部署、遠程網(wǎng)絡啟動、邏輯服務器復位后自組裝啟動等功能,證實了啟動盤存儲池化的可行性設計。性能數(shù)據(jù)方面,通過多次測試和數(shù)據(jù)捕捉,發(fā)現(xiàn)單臺TSx的磁盤性能基本能夠滿足20臺Bx/Cx的同時啟動的數(shù)據(jù)讀取需求;網(wǎng)絡端口的流量上,10GE網(wǎng)卡剛剛能夠滿足20臺Bx/Cx的數(shù)據(jù)吞吐量要求,而且網(wǎng)絡吞吐量與啟動節(jié)點數(shù)成正比,如下圖:
整體數(shù)據(jù)表明,存儲池化技術是可以滿足多計算節(jié)點共享啟動盤的需求的。這為服務器彈性部署和擴展提供了強有力的數(shù)據(jù)支撐。為騰訊下一步在服務器資源池化的研究奠定了堅實的基礎。
前文也提到過資源池化在故障運維上帶來的優(yōu)勢,為此,騰訊在2014年的POC驗證中,也設計并驗證了單體硬盤故障的無損恢復功能。
在POC設計上,存儲池采用全局RAID設計,當單個物理硬件出現(xiàn)故障時,不影響業(yè)務使用。單個資源的故障可在線使用備用資源實時無損修復,無需人工立即到現(xiàn)場進行磁盤更換修復。
綜述
服務器資源池化技術在靈活彈性部署、故障冗余能力、降低TCO等方面都具備優(yōu)勢,但是在技術細節(jié)上還存在很多疑問有待探索。騰訊正持續(xù)跟進行業(yè)最新的資源池化技術動態(tài),保持與合作伙伴的密切合作,設計T-Rack3.0,并把T-Rack3.0(Tencent Rack3.0)中標準化的、共性的設計開放到天蝎3.0標準中,優(yōu)化行業(yè)整體實力。
相信未來騰訊在云計算、大數(shù)據(jù)領域會給整個行業(yè)帶來更具競爭力的服務器解決方案。
評論