MPF 2008: 混合架構(gòu)主宰消費(fèi)類領(lǐng)域
同構(gòu)架構(gòu)已經(jīng)兌現(xiàn)了其承諾:有效的低功耗、靈活性以及準(zhǔn)備好應(yīng)對(duì)任何新的工作負(fù)荷,加上在互聯(lián)網(wǎng)上升級(jí)消費(fèi)電子系統(tǒng)的好處。然而,在日本舉行的2008年微處理器論壇(MPF)上,為期兩天的日程上填滿了24個(gè)演講,其中,兩個(gè)是主題演講,除了軟件工具之外,只有一個(gè)演講可能聲稱描述同構(gòu)架構(gòu)設(shè)計(jì)。
本文引用地址:http://butianyuan.cn/article/89405.htm各個(gè)公司提交的異構(gòu)(heterogeneous)設(shè)計(jì)存在差異,但是,它們有一點(diǎn)是共同點(diǎn):它們并不是由節(jié)省功率而展示的高度并行的同構(gòu)架構(gòu)。更為精確地說(shuō),把在一顆芯片上的四顆處理器視為構(gòu)成一種高度并行同構(gòu)架構(gòu)是不公平的。然而,即使一顆芯片寬大地把它們包含在一類中,在2008年日本MPF上,所展示的大多數(shù)四引擎同核實(shí)現(xiàn)均采用與硬線連接的加速器接口掛鉤來(lái)實(shí)現(xiàn)的,而不是增加更多的相同的ISA核,以便不需要特殊目的引擎就完成任務(wù)。
豐富的配置
根據(jù)處理通用目的控制工作負(fù)載所采用的配置以及所實(shí)現(xiàn)的針對(duì)特定應(yīng)用的加速方法,在2008日本MPF上所展示的架構(gòu)可以分為幾類。
在混合架構(gòu)設(shè)計(jì)中,控制引擎由作為一個(gè)多核處理器工作的若干通用目的內(nèi)核實(shí)現(xiàn)或僅僅由一個(gè)內(nèi)核實(shí)現(xiàn)。引擎可接受的功耗取決于執(zhí)行通用目的應(yīng)用以及控制不同的音視頻編解碼器所需要的性能。一般來(lái)說(shuō),處理器必須有效率,但是,所需要的效率范圍進(jìn)一步依賴于功率的可用性。在起居室中的多媒體應(yīng)用的要求可能更為寬松,而安裝在汽車中的系統(tǒng)將期待更佳的效率。蜂窩電話和其它電池供電的手持設(shè)備將被設(shè)計(jì)為消耗最低的功率。
加速器的設(shè)計(jì)可以采用幾類實(shí)現(xiàn)方案,從采用定制指令集架構(gòu)(ISA)的內(nèi)核、參數(shù)受控的靈活狀態(tài)機(jī)到固定程序硬件連線的實(shí)現(xiàn)。根據(jù)在控制處理器以及加速器之間是否需要去掉存儲(chǔ)器訪問(wèn),可能要或不要提供本地存儲(chǔ)器。
架構(gòu)設(shè)計(jì)的分配
架構(gòu)配置的分配結(jié)果是不言而喻的(表1)。在表1中,“Text Reference”一列指的是對(duì)表中列出的有限陳述的簡(jiǎn)短描述;這些陳述由描述每一個(gè)陳述的加括弧的數(shù)字來(lái)識(shí)別。
表1:對(duì)于在器件的實(shí)現(xiàn)中所采用的架構(gòu)類別來(lái)說(shuō),通過(guò)表中的各欄可以識(shí)別在2008日本MPF上展示的最佳匹配的處理器/SoC/IP。處理器的標(biāo)題為縮寫。參考數(shù)字可以被用來(lái)查找陳述的簡(jiǎn)短描述。軟件已經(jīng)被包含以實(shí)現(xiàn)完備性,但是并不總是顯示硬件的存在。
為了公平起見(jiàn),我們已經(jīng)省略了兩個(gè)可能顯示異構(gòu)芯片的主題演講,但是,并不是如此明確。會(huì)議的背景集中在娛樂(lè)之處,并且暗指需要不同的架構(gòu)配置,這些配置由英特爾公司的副總裁、數(shù)字娛樂(lè)組的Ton Steenman以及KDDI Labs公司的執(zhí)行總監(jiān)Hiroki Horiuchi做了適當(dāng)?shù)脑O(shè)置。他們的演講在描述不久將受到歡迎的連接固定和移動(dòng)設(shè)備(Ton Steenman) [1]的世界上相互補(bǔ)充,而網(wǎng)絡(luò)和無(wú)線電意味著[2]保持它們的工作(Hiroki Horiuchi)。我們還省略了四個(gè)重點(diǎn)放在軟件的演講;我們發(fā)現(xiàn)在18個(gè)新的設(shè)計(jì)中,17個(gè)不是同構(gòu)設(shè)計(jì)。我們還發(fā)現(xiàn),所介紹的大多數(shù)軟件工具重點(diǎn)放在基準(zhǔn)上,并提供對(duì)同構(gòu)架構(gòu)的并行支持。
從統(tǒng)計(jì)上看,采用24個(gè)演講作為樣本就得出關(guān)于一個(gè)覆蓋全球人口的平均數(shù)的結(jié)論是不準(zhǔn)確的,除非已知這個(gè)樣本代表可靠的覆蓋率??紤]那些已經(jīng)在2008日本MPF上做演講的公司,我們能夠假設(shè)它們大部分代表了IP、處理器以及復(fù)雜SoC設(shè)計(jì)的領(lǐng)導(dǎo)者。如上所述,這一統(tǒng)計(jì)數(shù)字說(shuō)明,我們?cè)噲D解釋的狀況出自如此高度偏向有利于異構(gòu)架構(gòu)的樣本。
在大批量銷售的消費(fèi)娛樂(lè)芯片中,有三個(gè)較之于其它應(yīng)用更為重要的參數(shù):(1) 流片投資;(2) 在并行化編譯器上缺乏突破;(3) 進(jìn)展緩慢的音視頻標(biāo)準(zhǔn)。
根據(jù)作者的感覺(jué),表2示出了對(duì)實(shí)現(xiàn)技術(shù)的、總是有幫助但可能引起爭(zhēng)議的定性比較。數(shù)字代表分析師的定性估計(jì)而不是精確的數(shù)據(jù)。數(shù)字越小則越好。
表2:該表格根據(jù)作者的感覺(jué)對(duì)各種實(shí)現(xiàn)技術(shù)進(jìn)行了定性比較。數(shù)字越小越好。在價(jià)格敏感的應(yīng)用中,并行同構(gòu)架構(gòu)表現(xiàn)不那么好。異構(gòu)架構(gòu)將需要重新說(shuō)明,只要新的編解碼器看起來(lái)不能由控制加強(qiáng)的內(nèi)核執(zhí)行的話。然而,這些將在每幾代出現(xiàn)一次,并且大多數(shù)的硬連線或定制ISA單元仍將是可重用的。
并行同構(gòu)實(shí)現(xiàn)根據(jù)整個(gè)比較參數(shù)被給予一個(gè)平均打分,因?yàn)檫@些實(shí)現(xiàn)在靈活性、降低開發(fā)風(fēng)險(xiǎn)、遠(yuǎn)程診斷或升級(jí)上較之于異構(gòu)架構(gòu)更好。然而,它們?cè)诹髌顿Y以及—更為重要的是—軟件工具上落后于其它架構(gòu)。
最佳打分仍然看起來(lái)屬于單核或四核、“高頻”實(shí)現(xiàn)。這個(gè)配置將繼續(xù)被使用,只要運(yùn)行應(yīng)用所需要的性能能夠允許芯片的功耗被保持在控制之中。
對(duì)于批量銷售來(lái)說(shuō),兩個(gè)異構(gòu)是最佳的。流片投資低,使得裸片價(jià)格在消費(fèi)應(yīng)用中有競(jìng)爭(zhēng)力。開發(fā)風(fēng)險(xiǎn)高,因?yàn)樗馕吨捎肁SIC設(shè)計(jì)且所得到的芯片具有較低的編程靈活性,然而,如果它導(dǎo)致非常高的營(yíng)業(yè)收入就非常值得投資。附加的優(yōu)勢(shì)是在定制ISA和硬線編解碼器上:標(biāo)準(zhǔn)進(jìn)化緩慢。設(shè)計(jì)工程師能夠重用定制ISA以及在許多芯片中的硬線加速器。
芯片和內(nèi)核被隨意連接至加速器
相當(dāng)多的演講提供了具有或不具有加速器的、采用一個(gè)小型MP群的選擇權(quán)。由ARM公司高級(jí)編程經(jīng)理John Goodacre講述的四核MP配置采用了該公司最新的Cortex-A9,它可能被認(rèn)為是一種混合架構(gòu),因?yàn)樗ㄟ^(guò)其NEON協(xié)處理器提供DSP處理。然而,ARM還實(shí)現(xiàn)了一種連接,通過(guò)它多個(gè)處理器群能夠與定制設(shè)計(jì)的加速器配合工作。MIPS技術(shù)公司的高級(jí)工程師Tom Berg介紹了在多線程處理器中的IO一致性,解決了一種類似的MP配置。它能夠在SoC中采用該公司的1~4MP核,從而把通用目的處理與調(diào)諧器、解碼器以及圖形加速器一起集成進(jìn)混合架構(gòu)的實(shí)現(xiàn)之中。
Fujitsu Laboratories的演講由Processing LSI Development Group總監(jiān)Atsuhiro Suga提供。Atsuhiro Suga在2007年日本MPF上就因他的軟件演講而知名。在那時(shí)候,他介紹了一種被用于在多個(gè)處理器之間分配任務(wù)的異步遠(yuǎn)程程序調(diào)用(ARPC)的應(yīng)用,它與那些不必在相同的ISA上實(shí)現(xiàn)的引擎集合起來(lái)(見(jiàn)MPR 8/13/07-01, “Fujitsu Calls Asynchronously”一文)。Suga的新演講[5]描述了增加的一種硬件狀態(tài)機(jī),以替代可能相同的處理器之一,迄今為止,這項(xiàng)任務(wù)利用有待狀態(tài)機(jī)處理的工作負(fù)荷的線程進(jìn)行調(diào)度。
英特爾公司的首席架構(gòu)師Belli Kuttanna介紹了它的Atom芯片,不久前,該公司宣布它已經(jīng)進(jìn)入復(fù)雜的采用多種設(shè)計(jì)的SoC市場(chǎng),其中一些是基于雙線程Atom架構(gòu)。一個(gè)這樣的SoC設(shè)計(jì)把計(jì)算復(fù)雜體與媒體加速器結(jié)合起來(lái),實(shí)現(xiàn)圖形、音視頻以及顯示器引擎,還允許第三方知識(shí)產(chǎn)權(quán)被連接起來(lái)。Atom芯片連接可以隨意接上加速器的處理器組,它們是完全或部分可編程的。
IBM公司的顧問(wèn)研發(fā)工程師Masahiro Murakami講述了IBM的PowerPC4xx SoC平臺(tái)[7],描述了允許把用戶定制邏輯連接至PowerPC內(nèi)核以創(chuàng)造多核異構(gòu)設(shè)計(jì)的接口裝置。這種至PowerPC內(nèi)核的連接性是通過(guò)把連接內(nèi)核的本地總線橋接至AHB總線來(lái)實(shí)現(xiàn)的。在以前的單一或異構(gòu)配置的PowerPC設(shè)計(jì)中,如Cell BE,可以成為高度集成的SoC的控制器。
異構(gòu)架構(gòu)
東芝負(fù)責(zé)蜂窩項(xiàng)目的項(xiàng)目帶頭人Yoshio Masubuchi演講了該公司的SpursEngine [8],并且是該公司領(lǐng)導(dǎo)該芯片開發(fā)的邏輯選擇。 SpursEngine的設(shè)計(jì)結(jié)合了來(lái)自8-SPE Cell BE的四個(gè)增效處理器單元(SPE),加上支持不同視頻編解碼器的硬件加速器。
Trango Japan公司的領(lǐng)導(dǎo)Tom Kobayashi講述了面向DRM的安全執(zhí)行環(huán)境的實(shí)現(xiàn)。Kobayashi描述了Trango的系統(tǒng)管理程序的安全軟件域的應(yīng)用。Trango的系統(tǒng)管理程序在一個(gè)或多個(gè)操作系統(tǒng)以及基礎(chǔ)硬件之間形成一種抽象層。它能夠把一個(gè)或多個(gè)處理器分為獨(dú)立安全和針對(duì)應(yīng)用執(zhí)行的域。處理器本身可以是相同的或者可以作為混合架構(gòu)被實(shí)現(xiàn)。
DxO Labs的首席運(yùn)營(yíng)官Bruno Liege講述了一種可配置、可編程、面向像素的、高質(zhì)量、高性能、可授權(quán)的IP架構(gòu)[10],它被設(shè)計(jì)為一種把窄數(shù)據(jù)路徑、12-bit標(biāo)量引擎級(jí)與寬向量處理級(jí)相結(jié)合的加速器。多個(gè)ALU結(jié)構(gòu)由采用ARM的AHB總線的內(nèi)核中的標(biāo)量邏輯進(jìn)行控制。
CEVA公司的核心架構(gòu)總監(jiān)Michael Boukaya的演講與在消費(fèi)娛樂(lè)中缺乏成功的高度并行引擎的許多其它實(shí)現(xiàn)相比,更為讓人大開眼界。CEVA的32-bit DSP單一引擎所獲得的性能是通過(guò)在DSP內(nèi)核上采用高頻,加上用于專用函數(shù)如FFT和維特比的加速器來(lái)實(shí)現(xiàn)的。
德州儀器(TI)的超低功耗MSP430F5xx MCU家族[12]由MSP430 MCU首席架構(gòu)師Horst Diewald講述,它利用在性能上的提升進(jìn)一步提供超低功耗控制。Horst描述了通過(guò)硬件和軟件相結(jié)合來(lái)管理處理器,以實(shí)現(xiàn)諸如遠(yuǎn)程抄表、對(duì)用于安全目的的氣體泄漏的檢測(cè)、個(gè)人醫(yī)療以及能量收集等功能所要求的低功耗數(shù)字。新家族的芯片增加了一體化外設(shè),如射頻、加密以及至MSP430平臺(tái)的LCD接口。
東芝的首席專家Takashi Miyamori介紹的Venezia架構(gòu)[13]能夠利用由用戶選擇的主CPU—如ARM或MIPS—實(shí)現(xiàn)一種控制資源,加上由不同的處理器—如控制和線程的分派所需要的—實(shí)現(xiàn)的加速Venezia引擎,一個(gè)調(diào)度器,以及一些媒體處理引擎。
ARM公司的研發(fā)組咨詢工程師Nigel Paver描述了移動(dòng)互聯(lián)網(wǎng)設(shè)備(MID)[14]可配備內(nèi)部處理資源的途徑。根據(jù)Paver的介紹,高性能的MID能夠利用由高端攝像機(jī)圖像處理器、三維圖形引擎、高清視頻編解碼加速器、TrustZone安全性以及包含GPS基帶功能的、支持的Cortex Aclass內(nèi)核來(lái)實(shí)現(xiàn)的異構(gòu)架構(gòu)。稍廉價(jià)的較低性能MID還可以由TrustZone實(shí)現(xiàn)加密。MID可以由ARM11內(nèi)核控制。它可以配合較低性能的攝像機(jī)、非高清視頻編解碼器、不太先進(jìn)的三維圖形以及一體化的無(wú)線基帶。
此外,ARM公司的高級(jí)產(chǎn)品經(jīng)理Chris Porthouse講述了Mali400 MP GPU架構(gòu)[15],其用途是與ARM CPU內(nèi)核在同一芯片上工作。Mali-400 Vertex處理器以及多達(dá)四個(gè)片段處理器被通過(guò)本地互連連接至MaliMMU。MaliMMU被連接至一個(gè)L2高速緩沖存儲(chǔ)器,它本身接至AXI總線。ARM公司的一部APB外設(shè)總線被用于把數(shù)據(jù)傳輸至Vertex和片段處理器以及至MaliMMU和L2高速緩沖存儲(chǔ)器。
TI公司的圖形軟件工程師Clay D. Montgomery講述了由OMAP3家族之一的OMAP35x應(yīng)用處理器所采用的圖形內(nèi)核[16]。TI在OMAP3530高集成度處理器中正采用由Imagination Technologies提供的異構(gòu)PowerVR SGX圖形內(nèi)核。該芯片還集成了一種TMS320C64x+ DSP內(nèi)核,加上圖形外設(shè)以及加速器。異構(gòu)OMAP35x平臺(tái)以Cortex-A8內(nèi)核為基礎(chǔ)。
ADI日本公司微機(jī)電技術(shù)組總監(jiān)Yutaka Katano以及In-Stat技術(shù)分析師Max Baron講述了一種泛系統(tǒng)的異構(gòu)架構(gòu)[17],采用了DSP處理器、MEMS、運(yùn)算放大器以及連接至桌面的藍(lán)牙接口。
SATO創(chuàng)始人Tomoyoshi與IPFlex首席技術(shù)官IPFlex介紹了一種異構(gòu)架構(gòu)[18],它采用大量不同的功能處理單元(PE)以及能夠更加有效地處理MPEG-2/-4和H.264比特流的增強(qiáng)比特流處理器(BSP)。
PE和BSP單元能夠被動(dòng)態(tài)地重新配置以執(zhí)行在前景中的各種任務(wù),與此同時(shí),通過(guò)從外部存儲(chǔ)器加載下一個(gè)配置信息而在背景中設(shè)置新的任務(wù)。盡管它具有靈活性,IPFlex公司的新引擎能夠執(zhí)行多個(gè)編解碼器的應(yīng)用,這一功能在產(chǎn)品發(fā)布之后會(huì)加入設(shè)計(jì)中,它還能夠被配置為執(zhí)行針對(duì)用戶的工作負(fù)荷。
同構(gòu)架構(gòu)
日本嵌入式微處理器基準(zhǔn)聯(lián)盟(EEMBC)的區(qū)域經(jīng)理Satoshi Otsuka講述了面向多個(gè)內(nèi)核以及高度并行同構(gòu)架構(gòu)的基準(zhǔn)狀況。對(duì)于MPR了解的最佳情況來(lái)說(shuō),該聯(lián)盟仍然就針對(duì)采用相同內(nèi)核進(jìn)行配置的最初套件進(jìn)行最終完善。瑞薩公司提供且由日本W(wǎng)aseda大學(xué)開發(fā)的高性能并行化編譯器所支持的一種8個(gè)CPU的多核處理器[20],被認(rèn)為應(yīng)該考慮為同構(gòu)架構(gòu)。Waseda大學(xué)的教授Hironori Kasahara以及瑞薩科技公司的部門經(jīng)理Toshihiro Hattori輪流介紹了OSCAR編譯器以及多核架構(gòu)。
同構(gòu)可配置、可擴(kuò)展處理器
Tensilica公司的技術(shù)福音傳道者Steve Leibson描述了可擴(kuò)展配置的優(yōu)點(diǎn),他認(rèn)為,對(duì)稱多處理器(SMP)架構(gòu)對(duì)于服務(wù)器不錯(cuò),但是,在多媒體應(yīng)用中的運(yùn)行效率不高。Tensilica的方法就是采用在公司的基本Xtensa架構(gòu)上實(shí)現(xiàn)的針對(duì)應(yīng)用的ISA[21]來(lái)創(chuàng)建加速器。異構(gòu)架構(gòu)—如在愛(ài)普生打印機(jī)中所采用的—被用于描述這類加速器的應(yīng)用。
Tensilica公司的Darin Petkov介紹了一種音頻設(shè)計(jì),它采用了由ISA擴(kuò)展獲得的應(yīng)用專用處理器[22],在該公司的Xtensa LX VLIW基本引擎上構(gòu)建了大約300個(gè)針對(duì)音頻的指令。
ARC公司的首席技術(shù)官Nigel Topham介紹了該公司采用異構(gòu)架構(gòu)實(shí)現(xiàn)的VRaptor家族[23],其中有采用ARC 750D CPU針對(duì)工作負(fù)荷而配置的可編程加速器。該公司在控制它的流以及計(jì)算群的協(xié)調(diào)群中采用了類似的CPU,它們本身作為異構(gòu)架構(gòu)被實(shí)現(xiàn)。
Target Compiler Technologies公司的首席執(zhí)行官Gert Goossens講述了該公司的工具,它們有助于設(shè)計(jì)工程師創(chuàng)建針對(duì)應(yīng)用的處理器(ASIP)[24]以及從零做起的編程工具。與采用所有其它的針對(duì)應(yīng)用的引擎一樣,一組ASIP內(nèi)核可以被最優(yōu)化以提供具有最少邏輯的SoC以及對(duì)工作負(fù)荷的良好分配,唯一的例外就是基本狀態(tài)機(jī)或也是從零開始設(shè)計(jì)的簡(jiǎn)單的處理器,從直覺(jué)上看,在流片投資以及功耗上提供優(yōu)勢(shì),而所付出的代價(jià)就是設(shè)計(jì)一種品牌新架構(gòu)所需要的額外工程時(shí)間。
本文總結(jié)
與多核同構(gòu)配置相比,異構(gòu)架構(gòu)提供有利于流片投資以及功耗的更佳折中?;仡欉^(guò)去可見(jiàn),在流片投資、功耗以及軟件創(chuàng)建上同構(gòu)架構(gòu)要變得更為舒適,設(shè)計(jì)工程師必須看到用于相同ISA內(nèi)核的更多優(yōu)勢(shì)。
目前,同構(gòu)架構(gòu)的狀況使之更加適合于高度數(shù)據(jù)密集的處理工作。對(duì)于家庭娛樂(lè)以及移動(dòng)應(yīng)用來(lái)說(shuō),在一個(gè)量產(chǎn)芯片的設(shè)計(jì)工程師的喜好中,同構(gòu)架構(gòu)僅僅高于FPGA。同構(gòu)配置將在面向即將出現(xiàn)的應(yīng)用—如專用圖形、游戲和汽車視頻圖像識(shí)別—中獲得優(yōu)先權(quán)。
同構(gòu)架構(gòu)在低成本、大批量應(yīng)用中獲得競(jìng)爭(zhēng)力以前,硬線連接以及針對(duì)應(yīng)用的內(nèi)核IP提供商將有機(jī)會(huì)贏得市場(chǎng)占有率。
評(píng)論