整合更多GPU核移動(dòng)處理器大開「眼」界

作者：時(shí)間：2013-12-24 來源：新電子

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　高階行動(dòng)裝置對(duì)多媒體等視覺體驗(yàn)的要求愈來愈高，促使行動(dòng)處理器開發(fā)商大舉整合更多GPU核心，期借助平行運(yùn)算能力，分散CPU運(yùn)算負(fù)擔(dān)，進(jìn)而強(qiáng)化繪圖與視覺表現(xiàn)。

本文引用地址：http://www.butianyuan.cn/article/203101.htm

　　在全球消費(fèi)性市場(chǎng)中，智慧手機(jī)與平板裝置無疑是最熱門的產(chǎn)品，根據(jù)顧能(Gartner)所發(fā)布的最新預(yù)測(cè)指出，2013年手機(jī)出貨量將超過十八億支，較2012年成長(zhǎng)3.7%;平板的出貨量將上看一億八千四百萬臺(tái)，成長(zhǎng)42.7%，呈現(xiàn)高速增長(zhǎng)態(tài)勢(shì)。

　　尤其值得關(guān)注的是高階行動(dòng)裝置產(chǎn)品更不斷推陳出新，給用戶的視覺性應(yīng)用體驗(yàn)已接近個(gè)人電腦(PC)、電視等級(jí)，即可提供豐富、流暢的二維(2D)或三維(3D)使用者繪圖介面(GUI)、視網(wǎng)膜(Retina)級(jí)的高畫質(zhì)、快速的網(wǎng)頁呈現(xiàn)及攝影功能，以及更逼真的3D游戲等。

　　在一臺(tái)小小的行動(dòng)裝置上要達(dá)到這些使用體驗(yàn)，對(duì)于開發(fā)者而言，設(shè)計(jì)門檻已愈來愈高。以3D游戲?yàn)槔?，要讓行?dòng)裝置達(dá)到與PC、電視同級(jí)的游戲體驗(yàn)，須提升的視覺效果包括實(shí)體表現(xiàn)、動(dòng)態(tài)照明、高動(dòng)態(tài)范圍材質(zhì)(HDRTexture)、先進(jìn)陰影效果、幾何細(xì)節(jié)、次表面散射(SubsurfaceScattering)，以及動(dòng)態(tài)反射(DynamicReflection)等。

　　所幸，最關(guān)鍵的行動(dòng)處理器架構(gòu)不斷升級(jí)，除出現(xiàn)整合中央處理器(CPU)和繪圖處理器(GPU)的異質(zhì)多核心架構(gòu)外，GPU的數(shù)量及處理能力也大幅提升，成為實(shí)現(xiàn)流暢、長(zhǎng)時(shí)效視覺體驗(yàn)的最大功臣。以下將剖析先進(jìn)GPU在架構(gòu)上的變化與最新進(jìn)展。

　　實(shí)現(xiàn)更酷炫繪圖功能異質(zhì)多核心SoC勢(shì)不可當(dāng)

　　愈來愈多中高階行動(dòng)裝置配置四核心CPU的行動(dòng)處理器，以輝達(dá)(NVIDIA)的Tegra系列來說，自Tegra3開始，就已進(jìn)入4+1的多核心架構(gòu)，即四顆效能核心加一顆省電核心，而最新一代的Tegra4，同樣采用4+1的多核心架構(gòu)，但處理器核心從前代的Cortex-A9提升為Cortex-A15;至于Tegra4i則仍采用Cortex-A9(r4)CPU。

　　雖然CPU的數(shù)目愈多，意味著處理效能也跟著提升，但因CPU的序列處理特性，愈多核心意味著應(yīng)用程式撰寫亦愈困難;相較之下，由于GPU具備平行處理特性，能以近線性化來擴(kuò)充效能，因此增加GPU數(shù)目所提升的效益，會(huì)比CPU顯著許多。

　　在此情況下，整合CPU與GPU的異質(zhì)多核心架構(gòu)，就成了必然之勢(shì)。而當(dāng)GPU核心更多，也讓開發(fā)者有更大空間和彈性去做出更酷的繪圖效果、更細(xì)膩的細(xì)節(jié)表現(xiàn)及更生動(dòng)的情境塑造，讓行動(dòng)視覺與游戲的體驗(yàn)大幅提升。

　　Tegra4的GPU子系統(tǒng)就是很好的例子，它從前代的十二顆GeForceGPU核心，一舉提高到七十二顆，六倍的核心數(shù)也帶來六倍于Tegra3的繪圖效能。Tegra4及Tegra3在GPU效能表現(xiàn)上的差異，請(qǐng)參考表1。在系統(tǒng)配置上，其架構(gòu)中有所謂的頂點(diǎn)著色器(VertexShader)和畫素著色器(PixelShader);前者讓工程師可自訂場(chǎng)景(Scene)中頂點(diǎn)的轉(zhuǎn)換過程，后者則是用來控制畫面上每個(gè)畫素的著色計(jì)算。

　　整合更多GPU核

　　更進(jìn)一步來看，Tegra4的作法是將七十二顆GeForce核心拆分為二十四顆VertexShader與四十八顆PixelShader。其中每四顆VertexShader組成一組頂點(diǎn)處理引擎(VertexProcessingEngine,VPE)，所以有六顆VPE，分別具有16KB、96-entry快取記憶體，能夠有效降低向外部晶片存取資料的需求。在相同時(shí)脈下，新的GeForce核心可以帶來1.5倍于Tegra3的效能，而前后代VertexShader數(shù)量相差六倍，相乘之下差距達(dá)九倍之多。此外，Tegar4總共具有四組畫素管線(PixelFragmentShaderPipeline)，每組畫素管線可細(xì)分為三組算術(shù)邏輯單元(ALU)，每個(gè)ALU則是由四顆GeForce核心(即PixelShader)組成。在實(shí)際運(yùn)作時(shí)，會(huì)以ALU做為最小層級(jí)的單元，并稱為多功能處理單元(Multi-FunctionUnit,MFU)，因此Tegar4總共具有十二組MFU，MFU可執(zhí)行函數(shù)、三角函數(shù)、對(duì)數(shù)、倒數(shù)、平方根及MOV等指令(組合語言中的復(fù)制)(圖1、2)。

　　圖1 Tegra4的邏輯性繪圖處理管線流程圖

　　圖2 Tegra4的GPU架構(gòu)方塊圖

　　降低多核心SoC耗電量架構(gòu)設(shè)計(jì)擔(dān)當(dāng)重任

　　對(duì)于行動(dòng)裝置而言，電池的使用壽命與效能/功能表現(xiàn)占有同樣重要的地位。同樣是四核心行動(dòng)晶片，因個(gè)別架構(gòu)不同，往往也有不同的效能與功耗表現(xiàn)。以Tegra4來說，除采用安謀國(guó)際(ARM)最先進(jìn)的CPU核心外，透過可變對(duì)稱式多重處理(vSMP)架構(gòu)，可依照使用需求進(jìn)行調(diào)配，讓四顆效能核心發(fā)揮最大處理能力，并可視工作量，分別自動(dòng)啟用及停用各顆核心，以大幅節(jié)省電力。

　　為了提升續(xù)航力，Tegra4延續(xù)Tegra3的省電概念，在晶片中加入第五顆處理器核心，不過名稱從協(xié)同核心(CompanionCore)改為省電核心(BatterySaverCore)。當(dāng)裝置處于背景處理郵件、社交軟體同步，或是播放影片、音樂等低效能需求情境時(shí)，系統(tǒng)將關(guān)閉效能核心，并使用省電核心負(fù)責(zé)執(zhí)行程式。

　　就晶片設(shè)計(jì)觀之，多核心處理器必定會(huì)面臨記憶體頻寬和整體系統(tǒng)功率的重大瓶頸，為了因應(yīng)此議題，Tegra4提出雙通道(2x32位元)的記憶體子系統(tǒng)作法。此外，為減少對(duì)晶片外記憶體的存取使用需求，Tegra4的GPU架構(gòu)中規(guī)畫頂點(diǎn)、畫素、材質(zhì)(Texture)專用的快取記憶體，讓運(yùn)算任務(wù)盡量在晶片內(nèi)部完成，以提升處理效益和降低功耗。

　　另一個(gè)降低系統(tǒng)單晶片(SoC)功耗的重要策略，就是采用先進(jìn)的電源管理技術(shù)。以Tegra4來說，即采用多層級(jí)時(shí)脈閘控(MultipleLevelsofClockGating)、顯示要求群組(DisplayRequestGroupig)、動(dòng)態(tài)電壓與頻率調(diào)節(jié)(DVFS)等多種電源管理技術(shù)，針對(duì)不同使用情境將電源需求降至最低。

　　運(yùn)算型攝影架構(gòu)助力行動(dòng)裝置影像效能升級(jí)

　　再從應(yīng)用端來看GPU架構(gòu)的發(fā)展，今日的使用者非常仰賴行動(dòng)裝置來進(jìn)行照相和和錄影功能，且希望達(dá)到專業(yè)級(jí)的效果。不過，相較于相機(jī)，手機(jī)或平板裝置在先天性上就難以配置太大的鏡頭，這時(shí)想得到高品質(zhì)的影像，就得靠更先進(jìn)的影像處理技術(shù)，甚至是運(yùn)用電腦演算法來創(chuàng)造影像。

　　為了提升消費(fèi)型行動(dòng)影像體驗(yàn)，真正捕捉到「稍縱即逝」的瞬間畫面，Tegra4內(nèi)建Chimera運(yùn)算型攝影架構(gòu)，它融合CPU、GPU及影像訊號(hào)處理器(ISP)的處理能力，讓裝置制造商得以大幅強(qiáng)化行動(dòng)影像。在此架構(gòu)下，行動(dòng)裝置能夠即時(shí)擷取高品質(zhì)的Always-On高動(dòng)態(tài)范圍照片和影片、高動(dòng)態(tài)范圍全景攝影和持續(xù)的點(diǎn)觸追蹤(Tap-to-Track)等功能。

　　以高動(dòng)態(tài)范圍全景攝影來說，其中運(yùn)用廣角或「魚眼」鏡頭的效果，通常是只在昂貴的數(shù)位單眼相機(jī)才具備的功能。Chimera架構(gòu)讓相機(jī)在移動(dòng)時(shí)即可擷取場(chǎng)景，毋須依循特定的方位進(jìn)行掃描，并可任意從左右、上下或?qū)蔷€等方向移動(dòng)，讓使用者可隨心所欲運(yùn)用更多角度和任何順序的影像，即時(shí)「描繪」一張全景相片。持續(xù)型Tap-to-Track技術(shù)則讓使用者能在拍照時(shí)，針對(duì)場(chǎng)景中的一個(gè)人物或物件進(jìn)行自動(dòng)曝光和鎖定，隨后無論對(duì)焦主體移動(dòng)位置，或者相機(jī)調(diào)整到另一個(gè)更好的拍攝角度，相機(jī)都會(huì)自動(dòng)追蹤原先已鎖定的主體。持續(xù)型的Tap-to-track功能也能隨著相機(jī)移動(dòng)調(diào)整曝光，避免影像主體或背景有曝光不足或過度曝光的現(xiàn)象。

　　更進(jìn)一步來看，Chimera架構(gòu)能為人所不能的原因，憑藉的是其影像處理的速度高達(dá)每秒執(zhí)行約一千億次的數(shù)學(xué)運(yùn)算。同時(shí)，它導(dǎo)入了許多先進(jìn)演算法，包括運(yùn)用X光電腦斷層掃描(CT)器、深度太空望遠(yuǎn)鏡和間諜衛(wèi)星所使用的電腦運(yùn)算技術(shù)，進(jìn)而排除從前無法解決的問題，讓行動(dòng)影像的呈現(xiàn)效果就像人類肉眼看到的世界一樣，有很多不同的景物、地點(diǎn)和場(chǎng)景，并富含各種的光線變化。

　　異質(zhì)多核心SoC擴(kuò)張應(yīng)用版圖

　　異質(zhì)多核心的SoC架構(gòu)的優(yōu)勢(shì)明顯，加上由行動(dòng)市場(chǎng)所驅(qū)動(dòng)的技術(shù)演進(jìn)日漸成熟，使得更多嵌入式應(yīng)用也開始選擇導(dǎo)入這類的行動(dòng)處理器，其中一個(gè)快速成長(zhǎng)的市場(chǎng)，即是車用電子領(lǐng)域，特別是車內(nèi)資訊娛樂(IVI)系統(tǒng)、數(shù)位儀表板、駕駛支援等應(yīng)用，皆仰賴更強(qiáng)大的GPU/CPU來加以支援。

　　以IVI系統(tǒng)來說，須要提供逼真的3D地圖和地形、時(shí)髦流暢的使用者介面，以及功能豐富的音訊系統(tǒng)。透過在行動(dòng)應(yīng)用已證實(shí)可行的Tegra行動(dòng)處理器，汽車制造商可以更快將這些功能整合至車輛當(dāng)中。在視覺處理方面，輝達(dá)即特別為車商開發(fā)出基于Tegra行動(dòng)處理器的視覺運(yùn)算模組(VisualComputingModule,VCM)。

　　相較于更新周期較長(zhǎng)的其他車載電子系統(tǒng)，汽車用戶期待自己的IVI系統(tǒng)和行動(dòng)應(yīng)用有相似的體驗(yàn)。透過這套VCM模組式設(shè)計(jì)，車商就能將快速發(fā)展的行動(dòng)處理器技術(shù)獨(dú)立出來開發(fā)與整合，進(jìn)而能在不同的車款中快速建置IVI車載系統(tǒng)，此舉也有助于大幅節(jié)省開發(fā)時(shí)間和成本。

　　舉例來說，知名汽車品牌商奧迪(Audi)即導(dǎo)入VCM并推出具連網(wǎng)功能的AudiMIB系統(tǒng)，讓AudiConnect平臺(tái)可隨時(shí)完整更新Google地球影像和Google地圖街景服務(wù)的360度全景圖。它同時(shí)也能實(shí)現(xiàn)其他網(wǎng)路資料的傳輸，如即時(shí)汽油價(jià)、天氣預(yù)測(cè)及Google本地搜尋的有用資訊。

　　挑選CPU與GPU軟體開發(fā)支援/開發(fā)工具成指標(biāo)

　　除了先進(jìn)的硬體功能外，軟體開發(fā)的支援及開發(fā)工具也是開發(fā)者選擇GPU/CPU的關(guān)鍵。如前所述，Tegra系列的彈性化架構(gòu)，讓開發(fā)者能運(yùn)用客制化的演算法來調(diào)整GPU架構(gòu)，進(jìn)而得到更突出的視覺效果。不僅如此，在Tegra開發(fā)人員工具(TegraAndroidDeveloperPack)中支持包括CPU采樣分析(TegraProfiler)和GPU分析(PerfHUDES)等功能，NsightTegra則提供Android本地端的開發(fā)環(huán)境，讓開發(fā)者能更方便且快速的達(dá)成工作目標(biāo)。

　　在更高的GPU繪圖效能帶動(dòng)下，可以預(yù)見行動(dòng)或車載裝置將能享有更佳的視覺體驗(yàn)。另一個(gè)值得關(guān)注的發(fā)展，則是未來透過瀏覽器實(shí)現(xiàn)3D場(chǎng)景、高畫質(zhì)顯示及快速反應(yīng)游戲的需求將會(huì)浮現(xiàn)，背后驅(qū)動(dòng)的力量則來自HTML5及WebGL等技術(shù)的發(fā)展。

　　事實(shí)上，HTML5已能支援GPU的應(yīng)用，愈來愈多瀏覽器也開始運(yùn)用GPU來加速其視覺表現(xiàn)。在跨裝置、跨平臺(tái)的網(wǎng)站上提供強(qiáng)大視覺內(nèi)容的時(shí)代即將來臨，這將會(huì)帶來很大的商機(jī)，當(dāng)然，挑戰(zhàn)也不小呢!