用VPU帶來全民AI能力|英特爾AI on PC技術解讀
如今的AI技術的進步可以說是一日千里,也從前幾年我們經常提到的判定式AI的基礎上,產生了大量的生成式AI的應用,這些基于AI大模型的新應用,其實也給產業(yè)鏈上游的硬件廠商提出了新的要求。
本文引用地址:http://butianyuan.cn/article/202306/447448.htm通過布局異構計算,藍色巨人如何涉入AI這條河流
對于藍色芯片巨頭英特爾來說,目前已經通過OneAPI和OPENVINO為基礎,形成了CPU、GPU、FPGA/ASIC 、神經網絡計劃、RISC-V一系列的異構計算的產品線,前兩年,英特爾提出了XPU——超異構計算的概念,其實就是將不同計算構架下的計算能力統(tǒng)在一個通用計算的平臺下生成,而且據說英特爾的RISC-V處理器也處理于即將推出的狀態(tài)。
今天給大家聊的自然不是RISC-V,而是大家耳熟能悉的通用計算CPU平臺的AI應用,是的,你沒聽錯,在英特爾最新的CPU MapRoad(產品圖線圖)上,將整合進新的AI運算模塊,讓每一臺PC都具備一定的AI能力。而實現(xiàn)這一能力的正是下半年即將面市的Meteor Lake,如果放在個人PC上,也就是大家所關注的Meteor Lake。
你如果仔細關注過英特爾酷睿處理器,就知道英特爾其實早在Alder Lake到Raptor Lake,也就是之前混合架構的12代和13代酷睿就集成了AI深度學習的能力,它是通過一塊嵌入式芯片專門處理向量神經網絡指今集(VNNI),其實也就向AVX-512中增加了新的深度學習的功能,諸如英特爾智音技術、語音喚醒、高質音頻等以判定式AI為底層的技術都是通過它來實現(xiàn)的。而且英特爾通過向13代酷睿上加載Movidius Myriad X視覺處理單元,通過計算機視覺和深度神經網絡推理讓PC具備了生成式AI的能力。
對英特爾極為關鍵的Meteor Lake,會有哪些技術亮點
在日前英特爾的一場名為“AI on PC”技術交流會上,英特爾明確了Meteor Lake將在硬件能力上對AI的主要應用場景進行支持,而且細聊到了支持AI功能的具體構架,甚至還進一步聊到英特爾接下來IDM 2.0對芯片構架的影響。我們一步一步來給大家展開來聊。
從帕特·基辛格主導的產品路線圖來看,英特爾會在四年時間里跨越5個制程工藝的節(jié)點,其中會有三個非常重要的飛躍,第一是intel 7的Alder Lake到Raptor Lake,通過混合構架,英特爾重塑了CPU的異構計算能力;第二便是今年下半年發(fā)布的intel 4工藝制程,它采用Foveros 3D封裝技術,包含即將發(fā)布的到Meteor Lake和Arrow Lake,從英特爾代工步伐和面臨的競爭環(huán)境來看,它甚至比下一步的Intel 20A更加重要;第三就是Intel 20A和18A的2nm和1.8nm工藝。就這樣的節(jié)奏來看,英特爾必須在Meteor Lake上為新的工藝制程開一個好頭,將AI能力集成在PC中自然就是一個非常有看點的技術路線。
我們都知道,目前用于AI計算的主要是GPU,英特爾的技術人員已經明確談到,得益于前兩年在銳炫(Arc)獨立顯卡上的布局,Meteor Lake的GPU能力將會更加強大,這一代的酷睿平臺中集成的顯卡將集成銳炫顯卡技術同樣的圖形引擎——的確,英特爾過去兩代沿用相同的集成顯卡,讓競爭對手在輕薄筆記本領域,甚至在英特爾過去一直很強勢的商用筆記本領域中嘗盡了甜頭。Meteor Lake英特爾一定會利用強大的集顯能力扳回一程,甚至會讓集成顯卡具備光線追蹤、XeSS超級分辨率這樣的獨顯才會擁有的技術。要知道,光追對硬件能力的要求其實是很高的,這也讓我們對Meteor Lake即將展示的集顯性能非常期待。
VPU,英特爾首次在CPU上放入獨立的AI硬件單元
但是,但是,但是(重要的事說三遍),集成顯卡并不是英特爾用來實現(xiàn)AI的關鍵硬件,我在文章開始時一再強調英特爾在異構計算上的整合能力,是因為英特爾用來實現(xiàn)AI能力的是一個CPU上首次出現(xiàn)的全新計算模式——VPU,而在完全掌控異構計算的底層技術之后,英特爾是隨時有為新一波的科技浪潮添加相對應的硬件能力的。
之前,Movidius視覺處理器就被命名為VPU,不必意外,集成入Meteor Lake的就是這樣一個基于神經網絡計算的獨立運算模塊,與以往的通過CPU和GPU的人工智能加速指令集去實現(xiàn)人工智能服務不同,這是一個獨立的處理單元,在針對人工智能進行加速處理模式中,采用的也是“CPU+GPU+VPU“的混合處理方式,通過各個計算單元的特點,將AI處理效率最大化。這件事之所以是英特爾率先落地,是因為英特爾通過OneAPI和OPENVINO對不同構架的算力已經形成了”歸一化“的統(tǒng)籌,換其他人,還真不一定干得這么利索。
我們再來看看這塊VPU究竟有何優(yōu)勢?按英特爾技術人員的介紹,它最大的優(yōu)勢就是在消費端PC上用最快速、最便宜、最低成本的方式實現(xiàn)AI功能。其實,英特爾的Movidius視覺處理器已經在非常寬泛的領域得到應用,它以非常優(yōu)秀的每瓦性能比實現(xiàn)了高性能的深度學習功能,特別在視覺判別上擁有支持ISP、高兼容性,以及邊緣端易于布署等優(yōu)勢,適于在邊緣端部署,從某種意義上來說它很容易移植在“端”上,事實上,過去Movidius也有很多“端”上部署的案例。
放在一臺酷睿PC上行不行?答案自然是肯定的。Meteor Lake上的這個VPU計算單元便擁有端側上非常優(yōu)秀的延時表現(xiàn)、數據安全性和較低的運營成本。目前,大規(guī)模的AI運算都是通過云端來提供支持的,自然就有延時和數據安全等問題,而且云端需要有大量的服務器設備來支持,從目前的用于AI運算的超算設備來看(比如英偉達才發(fā)布的DGX GH200),AI運營方需要支付非常巨大的成本,相應,消費者也需要為AI成果支付巨額的費用,之所以止前GPT和各個運營方都沒有收費,只是大模型還在發(fā)展階段,能夠開源免費使用的也是大語言模型等一些基礎服務,那些沒開源的項目未來都是非常昂貴的,不是每個項目都能玩得起的。
英特爾在酷睿平臺上集成AI能力,這無疑為AI應用打開了一個新的天窗。如果每一臺消費級PC都具有本地化的AI能力,那么未來很可能會誕生無數多的新商業(yè)模式,所以如今圖片生成式AI除了云端支持的Midjourney之外,還有端側支持的Stable Diffusion,我相信未來更多富有想象力的AI畫作將出自Stable Diffusion,而不是Midjourney。未來,還有可能會有統(tǒng)籌每臺電腦AI算力的網絡平臺或拓撲構架出現(xiàn),用于支撐大型的AI應用,當然,這種商業(yè)模式就不是本文的探討范圍之內了。
英特爾如何推進AI技術,VPN在未來PC構架上承擔怎樣的角色
再回到英特爾VPU的討論之上。英特爾一直在推進AI方面的應用,過去我們看到的大多是判定式AI,比如像噪音抑制、圖像分割等,比如英特爾今年在網絡會議的背景處理上就采用非常完善的分割模型,能夠將頭部和背景非常細致地區(qū)分,相比兩年前模型有了10倍復雜度的提升;另外,噪音抑制的復雜度也有50倍的提升。而在生成式AI上,大語言模型、Stable Diffusion同樣也對硬件提出了較高的要求。
所以英特爾在Meteor Lake和接下來的產品路線上明確加入了VPU這樣的獨立IP,并且也在和眾多ISV合作,目前已經與超過100家的ISV開展AI方面的合作。與其他廠商不同,英特爾提供的AI服務基于整個處理器算力,也就是CPU+GPU+VPU,他們可以處理不同使用場景、不同負載、不同延時下的AI需求。比如CPU處理AI 的延時很低,不需要長時間裝載,適合敏感的AI負載;GPU延時高,但算力強,適于AI大模型;而VPU則是專門為AI設計的一套架構,能夠非常高效地完成一些矩陣運算,而且對稀疏化的處理非常擅長。之前英特爾在無人機避障上便強入了這個嵌入式IP,它的功耗非常低,對流媒體的AI處理,比如手勢控制 、背景虛化等需要長時間運行的AI負載,是非常高耗且省電的。
之所以要將VPU引入到PC之上,是因為作為通用計算平臺,如今PC上會并行很多運算任務,如果將AI負載過多加載在CPU和GPU之上,那么在占用率高的情況下就會擠占渲染等實時任務,造成游戲等應用場景的卡頓,而交給能耗較低的VPU,那么就會讓CPU和GPU隨時保持較為空載的狀態(tài),留給其他通用計算的任務。
在Meteor Lake發(fā)布之后,哪些任務可以交給VPU來做呢?以Adobe的一些軟件為例 ,自動化的處理、智能化摳圖都可以交由VPU執(zhí)行,另外,Blender(3D創(chuàng)作)、Audacity(音頻剪輯)、OBS(直播推流)、GIMP(對標 Photoshop的一個開源軟件)等軟件會做VPU的資源調用。另外,英特爾與跟Unreal Engine做的數字人,以及其他引擎級別的插件,也會由VPU來支撐AI方面的負載。另外,基于Stable Diffusion做的生成式AI,同樣可以交由英特爾的這套CPU+GPU+VPU的執(zhí)行邏輯高效的完成。
現(xiàn)場,英特爾為我們展示了一個在Stable Diffusion完成的Diffusion的模型生成,就是跑在了Meteor Lake的開發(fā)機之上,上邊沒有獨立GPU,是通過不同的IP協(xié)作完成的。比如VPU上承載了VNET模塊運行,GPU上承載了encoder模塊的運行。就VPU的具體AI性能,英特爾技術人員并沒有直接回答,最終指標會留在Meteor Lake正式發(fā)布時才會公布。不過經過我再三向英特爾技術人員確認,Meteor Lake中的這塊VPU性能,將比在13代酷睿上加載的那塊Movidius Myriad X視覺處理單元在性能和功耗上均更為強大!
可以明確的是,在上述演示的僅需20秒完成的DEMO中,明確基于VPU的方案是INT8精度,與GPU上常用的FP32或BF16相比,的確在精度上有一定差別,但大部分消費類場景上,用戶的感知差別都不會太明顯。
英特爾硬件布局上更多的話題,非常重要!
對于VPU的前生過往,今天都給大家談到了,最終只剩下一個問題,英特爾為什么要推VPU?其實我在上談解讀中已經解構得非常清晰——之所以要推VPU這個新IP,還是基于解決AI門檻的出發(fā)點,英特爾希望未來每一臺筆記本上都能運行Stable Diffusion這樣的生成式AI大模型。更何況,VPU本身是一個低功耗的IP,在實現(xiàn)AI能力同時,不會給整塊芯片帶來更大負載壓力,也符合行業(yè)越來越看重“每瓦性能比”的趨勢。
VPU本身并不是一個解決所有AI應用場景的硬件,但英特爾,卻是一個擁有解決AI所有場景、負載的芯片廠商。而且,英特爾在整合能力上,擁有比NVIDIA更強的能力,比如英偉達最近推出的DGX GH200上首次采用了拓撲結構,而英特爾去年構架日推出Xe HPC的GPU——Ponte Vecchio,就已經在SoC里將這個結構玩得非常溜了。
在這個技術溝通會上,我和英特爾技術人員還聊到一個關于Meteor Lake的重要的話題。這個全新處理器將采用Foveros 3D封裝技術,也就意味著英特爾在整合整個SoC的連接能力上將更強。更為重要的是,在這個封裝中,英特爾的芯片將全面啟用分離式的模塊構架,這意味著芯片中的每一個IP都可以作為獨立模塊設計,根據計算和功用,甚至會采用不同的制程工藝。大家可以留意到,AMD早就采用了Chiplet技術對SoC內不同IP采用不同制程工藝節(jié)點來降低成本,從ZEN 2開始就把邏輯運算模塊和I/O模塊分用不同制程工藝,這樣的需求遠不止AMD一家,而英特爾這樣做的目的更多是為了服務其代工業(yè)務(IDM2.0),滿足的客戶按需采購要求。
VPU在DIE上的面積不大,功耗也低,但卻從硬件端解決了AI功能的入門問題,讓未來所有的PC用戶都能夠使用本地端的AI功能。在芯片行業(yè),制程工藝的進步是芯片廠商能力的重要標志,異構計算的整合能力則是另一方面的能力體現(xiàn),所以未來英特爾在AI方面的布局會持續(xù)加強,從VPU到獨立GPU,再到Xe HPC GPU產品上都會看到具體AI能力的落地。
評論