嵌入式陣列處理器的發(fā)展現(xiàn)狀及前景
摘要:本文從陣列設(shè)計(jì)、制造技術(shù)與應(yīng)用領(lǐng)域三個(gè)方面,討論了嵌入式陣列處理器的發(fā)展情況,最后從微電子技術(shù)發(fā)展的趨勢與并行計(jì)算的需要,說明了陣列處理器具有換代作用的發(fā)展前景。
關(guān)鍵詞:陣列處理器;MPSoC;MPP;SIMD
前言
1971年的處理器芯片以及在其基礎(chǔ)上發(fā)展而來的PC機(jī)的問世,使計(jì)算機(jī)的應(yīng)用從科學(xué)殿堂走進(jìn)了“尋常百姓家”,同時(shí)開辟了計(jì)算機(jī)嵌入式應(yīng)用的新模式,促進(jìn)了工業(yè)產(chǎn)品的知識化/智能化。隨著芯片集成度的提高與計(jì)算模式的演變,如圖1所示,1987年人們提出了系統(tǒng)芯片(SoC,System on Chip)的概念,要將計(jì)算機(jī)的系統(tǒng)設(shè)計(jì)也轉(zhuǎn)移到芯片設(shè)計(jì)上來。從提出一個(gè)新概念到這一概念的成果市場化,一般大約需要30年左右的時(shí)間。系統(tǒng)芯片概念提出之后,經(jīng)過20多年的努力,逐漸形成了兩種系統(tǒng)芯片。一種是以處理器為IP核的多處理器系統(tǒng)芯片(MP SoC,Multi Processor SoC),簡稱MP系統(tǒng)芯片;另一種是根據(jù)并行計(jì)算技術(shù)與深亞微米技術(shù)的發(fā)展需要而發(fā)展起來的大規(guī)模并行處理系統(tǒng)芯片(MPP SoC, Massively Parallel Processing SoC),簡稱MPP系統(tǒng)芯片。因?yàn)椴捎昧岁嚵械膶?shí)現(xiàn)方法,對處理器來說又可以叫做陣列處理器(Array Processor)。下面將主要討論嵌入式陣列處理器的陣列設(shè)計(jì)、制造技術(shù)與應(yīng)用領(lǐng)域的新發(fā)展。
圖1 芯片集成度,計(jì)算模式與芯片體系結(jié)構(gòu)的發(fā)展
陣列設(shè)計(jì)的發(fā)展
處理器芯片,以及在其基礎(chǔ)上發(fā)展起來的MP系統(tǒng)芯片,設(shè)計(jì)和應(yīng)用都發(fā)展得比較成熟。目前許多嵌入式計(jì)算機(jī)的系統(tǒng)設(shè)計(jì),已經(jīng)轉(zhuǎn)移到嵌入式MP系統(tǒng)芯片的設(shè)計(jì)上來;不僅如此,1985年開始的FPGA技術(shù),在2000年就推出了帶嵌入式處理器ARM的FPGA芯片,現(xiàn)在已發(fā)展成了嵌入式MP系統(tǒng)芯片的一種硬件設(shè)計(jì)平臺。國內(nèi)已研制出以8位、16位以及32位處理器為核心的,與應(yīng)用領(lǐng)域緊密相關(guān)的嵌入式MP系統(tǒng)芯片。隨著嵌入式應(yīng)用的微型化與并行計(jì)算的要求越來越高,以及深亞微米技術(shù)的不斷發(fā)展所帶來的“紅墻”問題,使嵌入式陣列處理器的設(shè)計(jì)成了新的研究熱點(diǎn)。
為了航空航天圖像處理電子設(shè)備的微型化,美國休斯(Hughes)公司在3um CMOS工藝的基礎(chǔ)上,采用圓片級的3D 二次集成電路技術(shù),按照SIMD PE陣列的體系結(jié)構(gòu),于1987年10月就研制成功了一種3D 陣列處理器。該陣列處理器由5個(gè)大圓片(Wafer)組成了32×32個(gè)16位定點(diǎn)處理元的PE陣列,工作頻率10 MHz,峰值速度為600 MOPS,功耗約1.5W,體積只有手掌大小,如圖2所示。除了32×32的PE陣列外,休斯公司還先后研制了每個(gè)大圓片上有128×128與256×256(=65536)個(gè)功能模塊的陣列處理器。
圖2 休斯公司的第一臺3-D MPP計(jì)算機(jī)
與其它嵌入式處理器不同,嵌入式陣列處理器設(shè)計(jì)的發(fā)展,從休斯公司的圖像處理的陣列處理器可以看出,是由成千上萬的處理元PE的陣列組成的。其它的陣列處理器是存在一個(gè)并行編程的語言問題的,早期的解決方法是把常用的程序設(shè)計(jì)語言擴(kuò)充成并行程序設(shè)計(jì)語言,但沒有得到推廣;現(xiàn)在的解決方法是采用面向并行編程模式的映射語言。由于圖像處理的嵌入式陣列處理器,是一種支持?jǐn)?shù)據(jù)并行計(jì)算的可編程的陣列處理器,采用的是指令流計(jì)算模式的SIMD PE陣列的體系結(jié)構(gòu),與超級計(jì)算的陣列處理器不同。這是一種自然的實(shí)現(xiàn)數(shù)據(jù)并行計(jì)算的陣列處理器的體系結(jié)構(gòu),因?yàn)榘磿r(shí)間映射方法執(zhí)行數(shù)據(jù)并行算法時(shí),SIMD PE陣列上所有PE每個(gè)周期執(zhí)行的是同樣的一條指令的“數(shù)組操作”,數(shù)組大小理論上是沒有限制的;SIMD PE陣列的陣列處理器可以看作是數(shù)據(jù)并行算法的算法處理器(Algorithm Processor),而不必看作是一個(gè)多處理器,從而得到了圖像處理器的并行編程簡單性、高效性與通用性。由于SIMD計(jì)算方式對數(shù)據(jù)并行計(jì)算的效果非常顯著,在有些處理器/多核處理器/眾核處理器的指令集合中,也增加了支持SIMD 計(jì)算的MMX指令。
圖3 大圓片的立體組裝技
現(xiàn)代的陣列處理器的PE陣列基本上是支持兩維算法的,因?yàn)楝F(xiàn)在計(jì)算機(jī)的傳感器輸入主要是空間上的兩維陣列,顯示器輸出也主要還是空間上的兩維陣列,相應(yīng)的PE陣列自然是兩維的;而可視空間是三維的,計(jì)算科學(xué)家是通過立體視覺算法在兩維陣列的顯示器上形成三維的立體感的。其實(shí),隨應(yīng)用領(lǐng)域的不同,完成空間并行計(jì)算的陣列處理器還可以是三維的。陣列大小是可以系列化的,陣列設(shè)計(jì)的發(fā)展主要是處理元PE的概念,以及處理元PE中的操作的概念,都應(yīng)當(dāng)是廣義的,還有一般處理器中所沒有的處理元PE之間的互連方法以及陣列處理器芯片之間的互連方法。
隨應(yīng)用領(lǐng)域的不同,處理元PE的設(shè)計(jì)參數(shù)(字長精度、存儲(chǔ)容量與運(yùn)算速度,以及體積、重量、功耗與可靠性等)是可以像處理器一樣系列化的。不僅如此,為了實(shí)現(xiàn)陣列處理器芯片的換代作用,使陣列處理器芯片不僅能夠替代處理器芯片,還可以替代現(xiàn)在的可重構(gòu)的空間映射的并行處理芯片(靜態(tài)可重構(gòu)的FPGA芯片與動(dòng)態(tài)可重構(gòu)的RC Device芯片),處理元PE的概念應(yīng)當(dāng)是廣義的。隨應(yīng)用領(lǐng)域的要求不同,可以是現(xiàn)在已知的處理器(RISC/DSP),也可以是現(xiàn)在未知的,例如,RC Device陣列中的功能模塊,F(xiàn)PGA陣列中的邏輯門或神經(jīng)元,F(xiàn)PAA陣列中的模擬器件,F(xiàn)PTA陣列中的晶體管等。相應(yīng)的處理元PE中的操作的概念也是廣義的,可以是現(xiàn)在已知的處理器操作(算術(shù)/邏輯等);也可以是現(xiàn)在未知的“操作”,例如,對模擬器件的“操作”,對晶體管的“操作”等。處理元PE之間的互連方法以及陣列處理器芯片之間的互連方法,現(xiàn)在都還沒有發(fā)展到成熟的地步,為陣列設(shè)計(jì)提供了廣闊的發(fā)展空間。
表1 Intel陣列處理器的性能
制造技術(shù)的發(fā)展
雖然圖像處理的嵌入式陣列處理器是在芯片特征尺寸不是很小的情況下就開始研制的,但是,它從擴(kuò)大芯片面積與3D集成方面,推動(dòng)了芯片制造技術(shù)的新發(fā)展。例如,美國休斯(Hughes)公司在特征尺寸為3um CMOS工藝的基礎(chǔ)上,采用很有特點(diǎn)的圓片規(guī)模集成WSI( Wafer Scale Integration) 電路技術(shù),把圓片上的芯片互連起來,并采用了設(shè)計(jì)上的避錯(cuò)技術(shù)(這也是現(xiàn)在解決“紅墻”問題時(shí),芯片設(shè)計(jì)中要采用的技術(shù)),將一次集成電路的面積從芯片擴(kuò)大到了圓片;而圓片之間又采用了3D的二次集成電路技術(shù),包括硅圓片的穿通(Feedthroughs)技術(shù),相鄰大圓片之間的微橋互連(Interconnects)技術(shù),以及多個(gè)大圓片的三維組裝技術(shù)(Assembly Technology),如圖3中所示,就研制成功了成千上萬個(gè)處理元PE陣列的圖像處理的陣列處理器。
值得指出的是,3D二次集成電路技術(shù)也是高性能陣列處理器中所要用的技術(shù)。例如,Intel提出了一個(gè)名叫Tera-Scale的計(jì)劃,2007年初采用65nm工藝,總共集成了1億(100 Million)晶體管,一共采用了80個(gè)比現(xiàn)代處理器簡單的處理元PE。PE陣列與SRAM存儲(chǔ)器陣列的互連也是采用3D 二次集成電路技術(shù)實(shí)現(xiàn)的,如圖4所示,Intel陣列處理器的性能,如表1中所示,每個(gè)芯片都達(dá)到了每秒1萬億次的水平。
(a)Intel的MPP系統(tǒng)芯片
(b) 處理元PE之間的互連方法
圖4 Intel的Tera-Scale計(jì)劃的陣列處理器
因?yàn)椴捎眯酒倪呉€的辦法,單個(gè)芯片上的I/O引腳數(shù)目不能隨芯片集成度的提高成比例增長,采用3D二次集成電路技術(shù)解決單個(gè)芯片上的I/O引腳數(shù)目與“紅墻”問題,取得了成功,得到了發(fā)展。特別是TSV(Through-Silicon-Vias)方法的3D二次集成電路技術(shù)可以顯著地縮短芯片之間的連線長度,增大信號帶寬;使整機(jī)(或系統(tǒng))與外部連接點(diǎn)大大減少,進(jìn)一步提高可靠性。2007年4月IBM公司發(fā)布將采用TSV技術(shù)研制三維芯片;Samsung公司也計(jì)劃用TSV技術(shù)制作三維內(nèi)存芯片。
應(yīng)用領(lǐng)域的發(fā)展
從應(yīng)用環(huán)境來說,陣列處理器用在地基(陸基、?;涂栈?應(yīng)用環(huán)境中,是不會(huì)有爭議的。自從1957年10月4日第一顆人造衛(wèi)星上天以后,人類從此進(jìn)入太空時(shí)代。嵌入式計(jì)算機(jī)也越來越多的用到了天基應(yīng)用環(huán)境中。盡管天基應(yīng)用的芯片數(shù)量目前遠(yuǎn)少于地基應(yīng)用的芯片數(shù)量,正如電子管計(jì)算機(jī)剛發(fā)明的時(shí)候,運(yùn)算速度、存儲(chǔ)容量、體積功耗和可靠性等都是限制它廣泛應(yīng)用的關(guān)鍵因素,因此有人就說全世界有幾臺電子管計(jì)算機(jī)就夠了。但是,計(jì)算機(jī)符合人類從工業(yè)社會(huì)向知識社會(huì)發(fā)展的方向,是人們夢寐以求的建立知識社會(huì)的腦力勞動(dòng)工具。人們看到了電子管計(jì)算機(jī)剩下的問題,就是尋找新的物理技術(shù)來實(shí)現(xiàn)二進(jìn)制位的功能,于是,有了晶體管和集成電路的發(fā)明,使計(jì)算機(jī)的體積更小,功能更強(qiáng),速度更快,容量更大,價(jià)格更低與可靠性更高。計(jì)算機(jī)終于成了今天婦孺皆知的知識產(chǎn)業(yè)的基礎(chǔ),芯片成了工業(yè)發(fā)展的面包。同樣,雖然現(xiàn)在的嵌入式計(jì)算機(jī)的體積、功耗、性能、可靠性、壽命與價(jià)格等都是限制它天基應(yīng)用的關(guān)鍵因素,但天基應(yīng)用是人類從地球走向太空的一個(gè)發(fā)展方向,太空的經(jīng)濟(jì)時(shí)代已經(jīng)到來。人們將會(huì)通過促進(jìn)芯片技術(shù)的新發(fā)展,使更多的計(jì)算機(jī)嵌入到天基計(jì)算機(jī)網(wǎng)絡(luò)中去,天基應(yīng)用將是嵌入式陣列處理器的一個(gè)重要的應(yīng)用領(lǐng)域。
嵌入式陣列處理器芯片的發(fā)展,除了使工業(yè)產(chǎn)品越來越知識化/智能化,還將能使嵌入式計(jì)算機(jī)以芯片的形式,悄悄融入我們的生活環(huán)境中,使人與計(jì)算機(jī)的生理界限逐漸消失,從客觀世界進(jìn)入我們的主觀世界(身體)。
發(fā)展的前景
如何設(shè)計(jì)陣列處理器(包括嵌入式陣列處理器),首先是人才隊(duì)伍問題。我國現(xiàn)有芯片設(shè)計(jì)單位500來家,但規(guī)模小,50人以下的公司超過了半數(shù)。整合成了當(dāng)前國內(nèi)IC 設(shè)計(jì)業(yè)的熱門話題。例如,有人說“由于市場競爭激烈,許多資金不足的初創(chuàng)公司不會(huì)堅(jiān)持太久,加上國外風(fēng)險(xiǎn)投資公司逐漸淡出,預(yù)計(jì)今后將有更多的公司,走上兼并重組之路”。而通過公司的兼并重組是不能壯大芯片設(shè)計(jì)隊(duì)伍,解決資金不足的問題的。其實(shí),就像處理器的應(yīng)用那樣,通過PC計(jì)算機(jī)使計(jì)算機(jī)成了各個(gè)領(lǐng)域的腦力勞動(dòng)工具,通過嵌入式計(jì)算機(jī)使工業(yè)產(chǎn)品知識化/智能化,使計(jì)算機(jī)的應(yīng)用從科學(xué)殿堂走進(jìn)“尋常百姓家”,成了一種真正的草根運(yùn)動(dòng)。例如,處理器嵌入到相機(jī)中出現(xiàn)了“傻瓜”相機(jī);如果你把手機(jī)換成了iPhone,就會(huì)發(fā)現(xiàn)你與手機(jī)的交互發(fā)生了變化,可觸與直觀的屏幕取代了鍵盤,進(jìn)一步降低了人與計(jì)算機(jī)的生理界限。微軟公司估計(jì),人與計(jì)算機(jī)的生理界限將在10年之后徹底消失。陣列處理器的設(shè)計(jì)也是一種計(jì)算機(jī)的應(yīng)用,就像PC機(jī)與嵌入式計(jì)算機(jī)普及與簡化了計(jì)算機(jī)的應(yīng)用一樣,通過先進(jìn)的陣列處理器設(shè)計(jì)平臺,使陣列處理器的設(shè)計(jì)普及到各種應(yīng)用領(lǐng)域的系統(tǒng)設(shè)計(jì)者中去,成為一種草根運(yùn)動(dòng),可能會(huì)更快地壯大芯片設(shè)計(jì)隊(duì)伍,解決資金不足的問題。
從計(jì)算機(jī)的制造上來說,人們估計(jì)到2010年后,基于光刻技術(shù)采用SiGe的CMOS工藝的制造能力達(dá)到它的30nm極限時(shí),將會(huì)使線的延遲比門的延遲越來越重要,特征尺寸已小得使芯片缺陷不可避免,以及漏電流與功耗變得非常重要。陣列處理器是解決這些“紅墻”問題所需要的。從計(jì)算機(jī)的應(yīng)用上來說,陣列處理器是通過并行計(jì)算提高計(jì)算性能的有效辦法,具有處理器那樣的通用性。所以,陣列處理器(包括嵌入式陣列處理器)具有換代作用的發(fā)展前景。
評論