超能課堂(278):Intel核顯是怎樣逐步進(jìn)化成Xe的
每次看顯卡市場(chǎng)占有率的圖表,最大的那家不是NVIDIA也不是AMD,而是Intel,它占據(jù)了整個(gè)顯卡市場(chǎng)的大半壁江山,原因當(dāng)然是因?yàn)樗麄兗业闹髁魈幚砥骰旧侠锩娑紩?huì)帶一個(gè)核顯,而他們家的處理器也占市場(chǎng)大頭,占有率當(dāng)然高。
其實(shí)早在1998年,Intel就進(jìn)入了顯卡市場(chǎng),推出了Intel i740獨(dú)立顯卡,隨后它被整合進(jìn)了810/815芯片組,從此就誕生了Intel的集成顯卡家族,在那個(gè)時(shí)代核顯還是整合在北橋內(nèi)的,直到2010年的Clarkdale處理器開始這個(gè)集顯才進(jìn)入CPU內(nèi)部?,F(xiàn)在最新的Xe架構(gòu)核顯已經(jīng)是Intel的第12代顯示架構(gòu)。
曾幾何時(shí)Intel的核顯每年都會(huì)隨酷睿系列處理器一同升級(jí)一次,直到第八代的Cannon Lake卡殼,讓Gen 9.5核顯伴隨了我們很久,移動(dòng)平臺(tái)直到2019年推出的Ice Lake處理器才開始恢復(fù)核顯的升級(jí),桌面平臺(tái)是到今年的Rocket Lake直接跳到最新的Xe架構(gòu)。
早期Intel核顯的時(shí)間軸
不過呢,與CPU的性能方面被罵擠牙膏不同,核顯的性能每代提升都挺大的,下面我們就來回顧一下Intel的核顯進(jìn)化歷程。
Gen5:Clarkdale
2010年推出的Clarkdale處理器確實(shí)首款整合GPU的CPU,這款處理器由32nm制程CPU Die和45nm的GPU Die共同封裝在一塊PCB上組成,兩顆芯片使用QPI總線相連,其實(shí)當(dāng)年看Clarkdale感覺是坑爹的Intel又在玩膠水,但現(xiàn)在看慣了AMD的Zen 2/3處理器之后再看它,感覺Intel當(dāng)年的做法其實(shí)也沒啥。
Clarkdale內(nèi)核結(jié)構(gòu)圖,GPU Die上包含了PCI-E控制器和內(nèi)存控制器,其實(shí)就是一個(gè)北橋芯片
Clarkdale系列處理器只有雙核的型號(hào),有Core i5-600和Core i3-500兩個(gè)型號(hào),在LGA 1156時(shí)代四核處理器是沒有整合GPU的。
當(dāng)時(shí)的Intel把Clarkdale上的GPU統(tǒng)稱為“Intel HD Graphics”,這名字一直用到現(xiàn)在。而這個(gè)GPU其實(shí)就是G45上的X4500 HD的升級(jí)版,EU增加了兩個(gè)達(dá)到了12個(gè),核心頻率最高可以到900MHz,支持Hierarchical Z(層次Z緩存算法)與Fast Z Clear(快速Z清除)技術(shù),支持DX10、SM4.0,支持OpenGL 2.1,移動(dòng)版處理器的GPU可以通過Turbo Boost動(dòng)態(tài)調(diào)整頻率,而桌面版不行。
Gen6:Sandy Bridge
Sandy Bridge核心圖
正在把CPU和GPU做到同一塊芯片上的是在2011年上推出的Sandy Bridge架構(gòu)處理器,CPU、GPU、內(nèi)存控制器、PCI-E控制器全部整合到一個(gè)核心里面,它的最大改進(jìn)在于三級(jí)緩存改用了環(huán)形總線設(shè)計(jì),并且其核心、GFX以及顯示/媒體控制器可共享L3高速緩存。
Sandy Bridge的GPU主要包含了指令流處理器、媒體處理器、多格式媒體****、執(zhí)行單元、統(tǒng)一執(zhí)行單元陣列、媒體取樣器、紋理采樣器以及指令緩沖等等,架構(gòu)與上一代相比有了較大修改。
Sandy Bridge按照型號(hào)劃分了標(biāo)準(zhǔn)版以及“K”系倍頻解鎖版本,標(biāo)準(zhǔn)版本GFX命名為HD Graphics 2000,而唯獨(dú)K系列所擁有的GFX為等級(jí)更高的HD Graphics 3000,兩者的區(qū)別是前者擁有6個(gè)EU,而后者則達(dá)到了12個(gè),全面支持Turbo Boost動(dòng)態(tài)調(diào)整頻率,最高頻率可達(dá)1350MHz,支持DX10.1、SM4.1,支持OpenGL 3.0,性能上HD Graphics 3000比上一代有了翻倍的增長(zhǎng)。
此外這一代核顯還增加了Quick Sync轉(zhuǎn)碼加速技術(shù),利用內(nèi)置的編碼器可以支持MPEG2、VC1和H.264視頻各種的硬件編碼,Sandy Bridge所整合的圖形核心已實(shí)現(xiàn)了視頻解碼和編碼兩部分的硬件加速功能,可為用戶在視頻轉(zhuǎn)碼時(shí)節(jié)省更多的時(shí)間。
Gen7:Ivy Bridge
Ivy Bridge架構(gòu)圖
在Ivy Bridge上Intel針對(duì)核顯的改進(jìn)還是兩個(gè)方向,首先是進(jìn)一步提高GPU的性能,并且讓其支持DX11,第二點(diǎn)則是繼續(xù)提高核顯的功能,多屏輸出、高分辨率支持等。
Ivy Bridge的GPU增強(qiáng)了幾何前端、光柵化、像素后端處理、采樣器、尋址單元的并行運(yùn)算能力,每周期可以執(zhí)行2個(gè)MAC操作,GPU可以直接讀取L3緩存中的數(shù)據(jù),圖形單元新增兩個(gè)可編程操作以及一個(gè)固定功能單元以支持曲面細(xì)分計(jì)算,并在解碼與顯示功能上做了升級(jí)。
同樣的核顯也分為兩種,分別是有16個(gè)EU單元的HD 4000和6個(gè)EU單元的的HD 2500,“K”系列處理器用的是HD 4000而其他處理器用的是HD 2500,最高頻率與SNB時(shí)代一樣是1350MHz,支持DX11、SM5.0,支持OpenGL 3.2,性能上HD 4000比上一代的HD 3000提升是67%。
Ivy Bridge支持Quick Sync 2.0編碼加速技術(shù),與第一代相比,2.0版不僅速度更快,而且畫質(zhì)也會(huì)更高。視頻輸出方面也從原來的雙屏上升到三屏輸出,最大分辨率從原來的2560*1600上升到4k*4k級(jí)別。
Gen7.5:Haswell
Haswell架構(gòu)圖
Haswell采用的是Gen7.5核顯,這一代開始Intel的核顯開始了模塊化、可擴(kuò)展的設(shè)計(jì),Haswell的顯示核心采用兩級(jí)EU團(tuán)簇結(jié)構(gòu)設(shè)計(jì),上級(jí)的叫Slice,下級(jí)的叫Subslice,每個(gè)Subslice擁有10個(gè)EU,2組Subslice單元組成了1組Slice單元,這一代在GT1和GT2兩個(gè)級(jí)別之上又誕生了GT3核心,從此Intel就走上了暴力堆砌核顯規(guī)格的道路。
Haswell的GT1、GT2、GT3核顯分別擁有10個(gè)、20個(gè)和40個(gè)EU單元,此外還有一個(gè)帶嵌入式eDRAM的GT3e,核顯集成了128MB eDRAM,位寬512bit,帶寬可達(dá)64GB/s,這個(gè)嵌入式eDRAM是作為L(zhǎng)4緩存存在的,可以同時(shí)提升CPU和GPU性能。
Intel的核顯一直以來都用HD Graphics來命名,不過與NVIDIA的GeForce還有AMD的Radeon相比這個(gè)名字還是不夠霸氣,因此從Haswell處理器的核芯顯卡開始,英特爾將引入新的名字“Iris”和“Iris Pro”,中文名為“銳炬”和“銳炬Pro”,分別對(duì)應(yīng)GT3以及GT3e核顯,具體型號(hào)則是Iris Graphics 5100和Iris Pro Graphics 5200。
這一代的桌面版酷睿處理器基本上都是使用GT2核顯,型號(hào)是HD Graphics 4600/4400,后者只用在Core i3-41xx系列處理器上,只有16個(gè)EU,對(duì)非K系列處理器來核顯性能是較上一代有大幅提升的,而真正需要高性能核顯的也是Core i3那種級(jí)別的,高端處理器基本都是配個(gè)獨(dú)顯。
奔騰和賽揚(yáng)處理器配的是GT1核顯,而這一代最強(qiáng)的GT3e核顯只出現(xiàn)在兩款桌面級(jí)處理器上,就是Core i7-4770R和Core i5-4670R,然而這兩個(gè)都不零售,是針對(duì)OEM市場(chǎng)的產(chǎn)品。
Gen8:Broadwell
Broadwell-H內(nèi)部結(jié)構(gòu)
Broadwell主要都是面向移動(dòng)市場(chǎng),在桌面零售市場(chǎng)上其實(shí)就只有兩個(gè)CPU,Core i7-5775C和Core i5-5675C,配備Intel目前最強(qiáng)的Iris Pro 6200核顯,擁有128MB的eDRAM緩存,另外倍頻無鎖,可進(jìn)行超頻。
Broadwell上的Gen8 GPU架構(gòu)示意圖
Broadwell上使用的是Gen8圖形核心,Intel重新設(shè)計(jì)了Subslice單元,每組的EU單元從之前的10個(gè)下降到了8個(gè),在同樣的采樣器及調(diào)度器下這意味著每個(gè)EU單元的效率提升了,而彌補(bǔ)EU數(shù)量可以通過提升Subslice單元 總數(shù)來完成,所以Broadwell的1組Slice單元有3組Subslice單元,EU單元總數(shù)是24個(gè),Broadwell的GT1、GT2、GT3核顯分別擁有12個(gè)、24個(gè)和48個(gè)EU單元。
桌面零售版那兩個(gè)配備的Iris Pro 6200屬于帶eDRAM的GT3e核心,得益于核心規(guī)模的大幅提升,Core i7-5775C的核顯性能較上一代Core i7-4790K提升了將近80%,性能甚至吊打之后桌面的各種Skylake衍生物,不知道它和Rocket Lake的Xe核顯比起來有多大差距。
Gen9:Skylake
Skylake處理器核心
Skylake使用的Gen9代GPU其實(shí)與Gen8有很多地方都是相似的,每組Subslice單元依舊是24個(gè)EU,但是最多可以擴(kuò)展到3組Slice單元,也就是說最多會(huì)配備72個(gè)EU單元,因此Skylake也多出GT4這個(gè)級(jí)別的核顯。
GT4核顯可以支持3組Slice單元,72個(gè)EU單元
Skylake的Gen9架構(gòu)支持DX12、OpenCL 2.x、OpenGL 5.x、Vulkan等圖形規(guī)范,支持新的編譯器堆棧,功耗范圍從4W-65W+不等。此外,Gen9還支持HEVC/H.265、AVC、SVC、VP8、MJPG硬件加速,支持?jǐn)z像頭RAW架構(gòu)。
多媒體方面,Gen9架構(gòu)支持單一固定功能單元以降低功耗,Quick Sync轉(zhuǎn)碼單元也設(shè)計(jì)了固定功能的編碼器以降低功耗、延遲。此外,Gen9的視頻解碼、轉(zhuǎn)碼加速還支持了HEVC(H.265)、VP8、MJPEG等標(biāo)準(zhǔn)。
Skylake處理器上啟用全新的核顯命名
然而GT3/GT3e/GT4e這樣的高性能核顯只使用在移動(dòng)版處理器上,桌面版的Skylake處理器基本上都是使用只有24EU的GT2,雖然較桌面版Haswell來說性能還是有所提升,但是幅度只有20%。另外還有兩個(gè)“P”后續(xù)的處理器用的是GT1核顯。
Gen9.5:Kaby Lake/Coffee Lake/Comet Lake
提到Gen9.5核顯就不得不說陪伴大家多年的HD/UHD Graphics 630了,它用了Kaby Lake、Coffee Lake、Comet Lake三代架構(gòu),從桌面的第7代酷睿一直用到第10代酷睿,至今依然是Intel的現(xiàn)役產(chǎn)品。
Gen9.5增強(qiáng)了視頻硬解碼能力,使用了更強(qiáng)大的MFX多格式媒體編****硬件模塊,支持10bit HEVC、8/10bit VP9視頻格式的硬件解碼,10bit HEVC、8bit VP9視頻格式的硬件編碼;增加了Intel無線高清顯示技術(shù)支持,提高了AVC編碼效率。
對(duì)VQE視頻質(zhì)量引擎增加支持HDR和SDR,支持Rec.2020更寬廣的色域,使得輸出視頻畫面色彩具可塑性。從第八代酷睿處理器開始核顯名字從HD Graphics變成UHD Graphics,其實(shí)就是視頻輸出接口增加支持HDMI 2.0/HDCP 2.2標(biāo)準(zhǔn),并沒有什么大變化。
而在Gen9.5核顯之后,因?yàn)镮ntel自己的10nm工藝難產(chǎn),導(dǎo)致Gen10核顯伴隨Cannon Lake處理器一同胎死腹中,使得Gen9.5核顯從2017年開始一直服役至今。
Gen11:Ice Lake
沉寂多年那之后 Intel的10nm工藝終于熟了,Ice Lake架構(gòu)攜同Gen11核顯一同出現(xiàn),得益于10nm工藝的高晶體管密度,Gen11的EU數(shù)量大幅提升,最大可以達(dá)到64組EU, 核顯首次達(dá)到了1TFlops的計(jì)算性能。
不過Ice Lake處理器只有用在第10代酷睿低功耗處理器上,桌面與移動(dòng)標(biāo)壓處理器都是Comet Lake,所以用Gen11核顯的處理器并不多,Intel一共提供了G1、G4和G7三種配置的核顯,分別有32/48/64組EU,低端的G1命名仍為“UHD”,而G4和G7都以“銳炬Plus”的品牌出現(xiàn)。
在架構(gòu)上,Gen11核顯通過增加單個(gè)Slice中含有的子Slice來擴(kuò)大規(guī)模,使得每周期的計(jì)算次數(shù)增加。其次是在緩存系統(tǒng)上做文章,擴(kuò)大了三級(jí)緩存的容量,Intel方面公布的是EU的三級(jí)緩存有3MB,并且還有0.5MB的本地共享內(nèi)存。另外還有通過處理器的內(nèi)存控制器升級(jí),能夠用上更高的內(nèi)存帶寬。
相比8代酷睿處理器上搭載的Gen9核顯,官方宣稱可以提供平均約1.8倍的幀率。
此外Gen11核顯支持VRS可變速率著色,它可以在不重要的畫面上面節(jié)約一定的GPU資源,使這部分GPU資源參與更加重要的部分畫面的渲染中,從而提高了整體的幀數(shù),并且根據(jù)Intel的數(shù)據(jù), 在支持VRS的游戲中可以讓幀數(shù)最大提高了30%。
在視頻接口方面,Gen11核顯新增支持HDMI 2.0b和DisplayPort 1.4 HBR3,輸出的最高分辨率和幀數(shù)有所提升,并且支持HDR。
在視頻硬件編碼部分,也就是Intel QuickSync特性使用的獨(dú)立硬件電路上,Gen11核顯也有比較大的改進(jìn),現(xiàn)在支持兩條HEVC 10-bit同時(shí)進(jìn)行編碼,在YUV444的情況下最高支持兩條4K60幀視頻流,或者一條YUV422的8K30幀視頻流。
Gen12:Xe
Intel的第12代顯示架構(gòu)名為Xe,它可以說是Intel這些年來最有野心的產(chǎn)品,Intel將Xe GPU的架構(gòu)描述為可擴(kuò)展的向量-矩陣架構(gòu),它的高度可擴(kuò)展性讓它能夠針對(duì)不同市場(chǎng)推出不同分支的架構(gòu)和產(chǎn)品,從面向高性能計(jì)算市場(chǎng)Xe-HPC,面向數(shù)據(jù)中心、AI計(jì)算的Xe-HP,再到面向游戲玩家的Xe-HPG和面向移動(dòng)端的Xe-LP,多種多樣。
Tiger Lake與Rocket Lake處理器上所用的Xe-LP架構(gòu)是Xe架構(gòu)中面向于 低功耗產(chǎn)品的變種,架構(gòu)的主要關(guān)注點(diǎn)是能效比,也就是要在盡量低的能耗下提供盡量強(qiáng)的性能。
Tiger Lake-U集成的Xe-LP GPU擁有6組Slice共96組EU,在規(guī)模方面較Gen11核顯大了50%。而Tiger Lake-H與Rocket Lake上的核顯則只有2組Slice共32組EU,但與Comet Lake處理器相比圖形性能依然提升了50%。
在Xe-LP上,Intel大刀闊斧的對(duì)EU內(nèi)部進(jìn)行了調(diào)整,首先Gen 11的一對(duì)一的線程控制單元現(xiàn)在變成一對(duì)二了,也就是一個(gè)線程控制單元實(shí)際要負(fù)責(zé)兩個(gè)EU的任務(wù)。再往下,到具體的ALU上面,現(xiàn)在每個(gè)EU中含有8個(gè)用于處理浮點(diǎn)或整數(shù)指令的ALU,另外還有兩個(gè)只針對(duì)擴(kuò)展數(shù)學(xué)指令的ALU,從原本的4+4結(jié)構(gòu)變成了8+2,而且兩種類型的指令可以并行處理了。
在Xe-LP上,Intel大刀闊斧的對(duì)EU內(nèi)部進(jìn)行了調(diào)整,首先Gen 11的一對(duì)一的線程控制單元現(xiàn)在變成一對(duì)二了,也就是一個(gè)線程控制單元實(shí)際要負(fù)責(zé)兩個(gè)EU的任務(wù)。再往下,到具體的ALU上面,現(xiàn)在每個(gè)EU中含有8個(gè)用于處理浮點(diǎn)或整數(shù)指令的ALU,另外還有兩個(gè)只針對(duì)擴(kuò)展數(shù)學(xué)指令的ALU,從原本的4+4結(jié)構(gòu)變成了8+2,而且兩種類型的指令可以并行處理了。
顯示引擎方面,有四條4K分辨率級(jí)別的處理管線,支持兩條eDP,外部輸出接口則是支持DisplayPort 1.4和HDMI 2.0,當(dāng)然,具體的輸出接口可以是DP和HDMI,也可以是USB-C。其他像是8K輸出、HDR10、Dolby Vision、12-bit BT2020色域和自適應(yīng)同步都有支持,對(duì)顯示器的刷新率,最高可以支持到360Hz。這里很可惜的是,我們沒能見到原生的HDMI 2.1支持,廠商可能會(huì)通過轉(zhuǎn)接芯片去做支持。
媒體引擎方面,整個(gè)處理管線的編解碼性能提升了一倍,色深的支持升級(jí)到了12-bit,并且能夠支持HDR/Dolby Vision的回放。這里還有一個(gè)亮點(diǎn)是對(duì)AV1做了硬件解碼支持,這是一個(gè)面向于未來的特性。
目前大家見到的Xe核顯以及那個(gè)DG1獨(dú)顯只是Intel的Xe計(jì)劃的第一部,如無意外的話今明兩年內(nèi)我們會(huì)見到面向游戲玩家的Xe-HPG進(jìn)入市場(chǎng),屆時(shí)我們將會(huì)在獨(dú)顯市場(chǎng)見到三足鼎立的情景。
其實(shí)Intel在早期CPU與核顯的搭配是有些問題的,越強(qiáng)的CPU配越強(qiáng)的核顯,但實(shí)際需求明顯是反過來的,還好這個(gè)問題早就改過來了,現(xiàn)在的11代酷睿處理器就很明顯,只有四核的Tiger Lake-U配的是擁有96組EU的GT2核顯,而Rocket Lake-S與Tiger Lake-H這些八核處理器則只配32組EU的GT1核顯,因?yàn)門iger Lake-U是用在輕薄本的,多數(shù)沒有獨(dú)顯,得靠自己的核顯,而Rocket Lake-S與Tiger Lake-H則多數(shù)會(huì)配獨(dú)顯,核顯的性能就顯得不那么重要了,稍微精簡(jiǎn)一點(diǎn)也沒所謂。
下一代的Alder Lake會(huì)繼續(xù)使用Xe架構(gòu),同樣的核心數(shù)量更少的Alder Lake-P會(huì)配更強(qiáng)勁的GT2級(jí)別核顯,核心數(shù)量更多的Alder Lake-S則配GT1級(jí)別核顯,再下一代的Raptor Lake估計(jì)會(huì)用改良的版本。至于Xe架構(gòu)以后會(huì)如何進(jìn)化,由于Intel從AMD的圖形部門挖了不少人,所以大家其實(shí)可以參考AMD的GCN,預(yù)計(jì)會(huì)一步步慢慢優(yōu)化挖掘Xe架構(gòu)的潛能,當(dāng)然以Intel的家底,一邊優(yōu)化Xe的同時(shí)并行開發(fā)另一種架構(gòu)的GPU不是不可能的。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。