兼容多種運(yùn)算核心 HSA架構(gòu)提高處理器能源效率
借重HSA編程架構(gòu) 處理器達(dá)成高效能/低功耗
超微半導(dǎo)體現(xiàn)正著手設(shè)計(jì)與1.0版HSA相容的新款A(yù)PU,而HSA規(guī)格的目的在于協(xié)助軟體利用GPU及其他處理元件的功率與效能。以GPU而非 CPU來執(zhí)行高度平行碼時,APU能夠利用其GPU核心的能源效率,以及巨量平行運(yùn)算來處理工作負(fù)載,更快完成任務(wù)。HSA編程架構(gòu)可將工作負(fù)載導(dǎo)向最佳芯片資源,例如專為特定演算法所設(shè)計(jì)的加速器,其設(shè)計(jì)宗旨在于減少完成固定工作負(fù)載所需周期數(shù)量及電力消耗,并在行動裝置的功率限制內(nèi)執(zhí)行高階運(yùn)算密集式應(yīng)用程式,轉(zhuǎn)由GPU而非CPU處理之后,高階行動應(yīng)用程式(如語音辨識、手勢辨識、臉部辨識等次世代使用者介面和相片索引)都能獲得次方程度的效能改善。
個人電腦處理器的效能隨時間而成長,但步調(diào)相對較慢。另一方面,由于設(shè)計(jì)者將更多芯片空間留給圖形處理,以支援4K解析度的顯示設(shè)備,GPU效能得以快速攀升。藉由HSA架構(gòu),超微半導(dǎo)體就能善用這種GPU效能成長。將GPU用于一般任務(wù)的優(yōu)點(diǎn),展現(xiàn)于個人電腦應(yīng)用程式和基準(zhǔn)測試中(圖1)。
圖1 標(biāo)準(zhǔn)35W行動處理器的GPU運(yùn)算趨勢
OpenCL 是首批支援以GPU執(zhí)行平行運(yùn)算的業(yè)界標(biāo)準(zhǔn)編程語言之一,可供C程式發(fā)揮語言擴(kuò)充的功效,為代碼的運(yùn)算密集部分帶來次方程度的效能提升。采用OpenCL 1.x(以O(shè)penCL 2.x全面啟用HSA的前身)加速時,PCMark 8 v2.0基準(zhǔn)測試展現(xiàn)多達(dá)25%的增益(圖2)。
圖2 現(xiàn)有平臺經(jīng)由GPU卸載所達(dá)成的PCMark 8 v2.0加速
回頭參考圖1所示,異質(zhì)架構(gòu)利用GPU效能的快速成長,而GPU效能遠(yuǎn)勝近代CPU效能,GPU仍會是讓未來處理器實(shí)現(xiàn)更高效能與能源效率的關(guān)鍵。每一個 GPU都有多個“著色器”核心(超微半導(dǎo)體將其稱之為“串流處理單元”),每個核心都能處理整數(shù)或浮點(diǎn)運(yùn)算,同時維持小于標(biāo)準(zhǔn)CPU核心的體積與耗電量。而且,由于每一個著色器核心都很小,所以單一晶??梢哉蠑?shù)十甚至數(shù)百個著色器核心與個位數(shù)的通用CPU核心。因此,GPU可以對運(yùn)用這么多處理核心的工作負(fù)載,產(chǎn)生次方以上程度的運(yùn)算提升。上述所提及的每一種高階應(yīng)用程式,都可利用GPU固有的平行運(yùn)算能力,來達(dá)成如此驚人的效能增益,而且耗電量極低。
圖3顯示超微半導(dǎo)體從2008年“Puma”CPU處理器,到2020年預(yù)測APU的標(biāo)準(zhǔn)使用耗電降低趨勢。虛線表示至2015年的耗電趨勢,Tirias Research預(yù)測超越此點(diǎn)后至2020年之間降低速度會相對減緩,因?yàn)楹碾娨掩吔?瓦(W)。但Tirias Research預(yù)測2015年,異質(zhì)運(yùn)算將大幅提升,驅(qū)動與GPU能力相稱的更高效能水準(zhǔn)。
圖3 APU的能源使用與運(yùn)算趨勢
閑置耗電量降低,將可以幫助標(biāo)準(zhǔn)使用耗電,得以從相鄰的2008年平臺“Puma”CPU的近4W,降低至2014年“Kaveri”APU的 1.6W,將會產(chǎn)生2.5倍的基準(zhǔn)耗電量改善(兩種產(chǎn)品都適用于相同的35W筆記型電腦熱功率封包)。數(shù)量更多的CPU核心、更快的時脈速度,以及GPU 運(yùn)算協(xié)助,使得處理器效能得以改善,讓“Kaveri”的運(yùn)算力比起“Puma”高達(dá)4.5倍。因此,相較于“Puma”,“Kaveri”提供十倍 (2.5×4.5)以上的標(biāo)準(zhǔn)使用能源效率增加,如標(biāo)準(zhǔn)耗能最大效能所示。
Tirias Research預(yù)估超微半導(dǎo)體將利用多項(xiàng)遠(yuǎn)遠(yuǎn)超越“Kaveri”的效能改善,在2015年達(dá)成下一次的大幅耗電降低。由于耗電漸趨于零,且開始以平臺組件功率為主,未來的閑置耗電降低步調(diào)必將趨緩。Tirias Research分析,根據(jù)超微半導(dǎo)體產(chǎn)品規(guī)畫,該公司可望在2008年至2020年之間實(shí)現(xiàn)標(biāo)準(zhǔn)使用耗電量的大幅降低,在此12年間達(dá)成16倍的改善,如圖3A線所示。
有鑒于GPU的效能預(yù)計(jì)將持續(xù)提升,且可運(yùn)用此種異質(zhì)運(yùn)算能力(圖3中B實(shí)線)的應(yīng)用程式將越來越多,Tirias Research預(yù)測超微半導(dǎo)體將于2020年達(dá)到對等點(diǎn)。在此點(diǎn)上,約有一半的尖峰值效能將來自GPU,另一半則來自CPU。保守估計(jì),由于CPU及 GPU兩者都在持續(xù)進(jìn)化,這種矽芯片資源分配方式能夠使2020年的未來APU相較于2014年的“Kaveri”產(chǎn)生四倍的運(yùn)算效能提升。
Tirias Research相信更大的GPU和更趨平行的應(yīng)用程式將有助于促進(jìn)更顯著的效能改善。以此合理保守估計(jì)額外的四倍運(yùn)算效能提升,結(jié)合至少六倍的標(biāo)準(zhǔn)使用耗電量降低,將可使超微半導(dǎo)體的最大效能對閑置耗電比在2014年至2020年之間展現(xiàn)高達(dá)二十五倍的改善。這是十分驚人的大幅變化,兼具兩方面之長,低閑置耗電既可以減少能源耗用,又能以高峰值效能支援未來的高階應(yīng)用。
由于HSA可降低對于APU之CPU端的依賴程度,超微半導(dǎo)體將之視為改善高度平行工作負(fù)載效能與節(jié)電的必要方法。除了GPU之外,超微半導(dǎo)體現(xiàn)正配合智能型手機(jī)芯片開發(fā)者所需,將單一功能加速器整合于APU。這些專用加速器的設(shè)計(jì)目標(biāo)是以最小晶粒面積提供最高能源效率表現(xiàn),將耗電量降到最低。專用單元的缺點(diǎn)在于無法輕易適應(yīng)新的演算法,因?yàn)榭删幊绦缘挠邢?。而其他替代性可編程單元如以通訊與音訊處理見長的數(shù)位訊號處理器,可替CPU核心分擔(dān)相關(guān)任務(wù)。
例如,超微半導(dǎo)體已于其最新APU及GPU中加入數(shù)位音效處理器,藉此解除CPU處理音訊的負(fù)擔(dān)。對如音訊處理等工作負(fù)載而言,這些微小的架構(gòu)新增可帶來極大的功率效率增益,相較于單獨(dú)以CPU處理,其增益可達(dá)兩倍至將近二十五倍不等。
超微半導(dǎo)體運(yùn)用支援HSA的軟體結(jié)合其節(jié)電設(shè)計(jì),讓筆記型電腦和平板電腦APU的電池續(xù)航力與峰值效能勝過現(xiàn)今水準(zhǔn)。
評論