多內核處理器架構改善嵌入式系統(tǒng)性能

作者：時間：2012-12-14 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

處理器的設計正在從提高頻率向降低功耗的方向轉變，為滿足更高性能的要求并使功耗不超過許多應用所能承受的范圍，微處理器的一個明顯變化是從頻率越來越高向多內核架構轉變。本文分析這種轉變對嵌入式系統(tǒng)設計的性能帶來哪些改善。

本文引用地址：http://www.butianyuan.cn/article/148184.htm

雙內核微處理器是當前計算設計關注的焦點，為滿足更高性能要求并使功耗不超過許多應用所能承受的范圍，微處理器正在從頻率越來越高的發(fā)展趨勢向多內核架構轉變。

其它的一些重要進展也專注于提供更高的單位功耗上完成的指令數量的指標上，例如片上存儲器控制器、更先進的動態(tài)功率管理(DFM)以及單指令多數據(SIMD)引擎。

在過去幾年，改善工藝和晶體管技術是提高處理器性能的主要方法，而更高頻率則是獲得更高性能的驅動力。然而，最近關注焦點從頻率轉移到功耗上。

是什么促使關注焦點發(fā)生變化?一直以來，設計工程師主要考慮的功率問題是由門電路充放電引起的AC分量。半導體技術向90nm和更小工藝尺寸的轉移，引入了重要的DC功率分量(又稱漏功率或者靜態(tài)功率)。實際上，相同電壓下90nm設計的典型漏電流大約為130nm設計的2到3倍，漏電流引起的功耗可能占到某些90nm器件總功耗的一半以上。

更低功率的產品采用低功率工藝制造，例如絕緣硅(SOI)技術。SOI能減少寄生電容，使開關頻率提高25%或者使功耗降低20%。將功率更低、介電常數k值更高的介質材料用作柵極絕緣體(gate insulator)的相關工作也在進行中，這將獲得比目前使用的二氧化硅層更易于制造且更厚的層。

更高頻率的器件需要更高的電源電壓，因而其功耗也呈指數增長。更高頻率的處理器還會增加中斷等待時間，這對實時應用來說非常關鍵，并需要給內核提供更深的管線。當處理器執(zhí)行一條未曾預設的指令時，管線將會擁塞造成執(zhí)行停止，這會對性能造成嚴重影響。

還有其它因素迫使芯片設計工程師通過新方法提高性能。更高的頻率需要額外的時鐘開銷，處理器需要在時鐘邊沿附近建立一定的安全裕量以確保正確運行。因為安全裕量近似保持不變，所以隨著頻率的增加，在一個時鐘周期內可用的時間實際上會更少。因此，增加頻率并沒有使性能得到相應提高。

這樣以來，系統(tǒng)設計工程師轉向多內核處理器架構而不是更高頻率的器件來實現系統(tǒng)性能的提高，并使功耗的增加最小。雙內核微處理器最初設計用于服務器等計算密集型應用，現在則用于廣泛的嵌入式應用中。

存儲器控制器和橋接芯片也與多個內核一起集成在單個硅片上。存儲器子系統(tǒng)一直以來就是高性能處理系統(tǒng)的一個瓶頸，存儲器技術的最新發(fā)展，包括引入第2代雙倍數據速率(DDR2)接口，已使性能有了顯著提高。相比單倍數據速率(SDR)技術133MHz的傳輸速率，DDR2的傳輸速率高達667MHz。但是，因為處理器時鐘速率增加得更快，所以人們已開始更多地關注存儲器的響應時間。

直到最近，包括存儲器控制器在內的許多系統(tǒng)邏輯都以北橋和南橋芯片的形式存在于處理器外部。將存儲器控制器和橋接芯片集成到同一個硅片內作為微處理器內核，可減少帶寬和響應時間的瓶頸。例如，片上存儲器控制器將使處理器到存儲器的等待時間減少2/3到3/4。

某些時候更重要的是，這樣的集成可節(jié)省電路板空間。更高的集成對在像高級夾層卡(Advanced Mezzanine Cards, AMC)這樣小的尺寸內提供更強處理能力來說尤其重要。更好的存儲器控制可節(jié)省功率。當沒有數據要處理以及不需要進行刷新時，更智能的存儲器控制器可以使時鐘使能信號無效，這樣避免產生不必要存儲器時鐘，一般可以降低高達20%的存儲器功耗。

另外一個可用來減少存儲器芯片及其終結電阻功耗的系統(tǒng)設計技術是，當它們以集束形式(clustered arrangement)連接在一起時，利用處理器進行遠端引導和控制。高速互連/網絡方案，比如RapidIO技術，能通過處理器節(jié)點到架構的連接，完全控制處理器節(jié)點。這樣可消除用于引導程序的閃存，以及用來驅動復位和中斷的各種可編程邏輯器件，從而節(jié)省功率和電路板面積。

像以太網控制器這樣的傳統(tǒng)裝置現在似乎具有這樣的基本功能，即在沒有額外閃存的情況下啟動基于FTP的引導程序。在數字用戶線接入復用器(DSLAM)應用中，消除每個線卡上的閃存對32線的DSLAM來說可節(jié)省大約3W的功率。

處理器的數據輸入和輸出是提高系統(tǒng)性能的另外一個關注焦點。先進通信計算架構(AdvancedTCA)等新規(guī)范也推動著片上高帶寬管線的發(fā)展，支持通過背板上幾個高性能互連的能力是AdvancedTCA的關鍵優(yōu)勢。到目前為止，每個這樣的互連都需要外部芯片。

現在設計用于AdvancedTCA的處理器具有片上高帶寬管線，無需外部器件就可實現從背板到處理器的千兆位以太網、串行RapidIO和PCI-Express的直接連接，這在功率、電路板面積、開發(fā)時間和系統(tǒng)成本方面提供了最佳解決方案。

在芯片上集成這樣的接口還允許優(yōu)化內核和接口之間的處理。例如在千兆以太網模塊中，接口硬件可以以線速執(zhí)行一些早期的分析和分類，將不同類型的幀送到不同的緩沖池，并將頭幀傳輸到2級緩存以便更快地被微處理器內核處理。這種方法通過在接口和內核之間建立一個處理管線，大大減輕了內核的負擔。

嵌入式設計工程師可利用各種節(jié)省處理器功率的機會。例如，動態(tài)頻率切換(DFS)允許軟件在一個時鐘周期內顯著地改變處理器運行時的內核頻率，它無需插入空周期或者對器件進行復位，且處理器仍保持完整功能。這樣一般可節(jié)省45%的功率。

嵌入式應用推動了另外一些減少發(fā)熱特性的產生。一些新型處理器具有集成的DPM功能，當執(zhí)行單元沒有使用的時候，該功能可以自動停止向它們提供功率。另外一個實例是指令緩存節(jié)流，這種技術通過降低最高的指令執(zhí)行速率，使DPM的影響最大化。

低功率模式經常被忽視而沒有得到利用。有了現在的高性能嵌入式處理器，“開”或“關”不再是一個問題。新的處理器可有多個狀態(tài)，如運行、打盹、小睡、睡眠以及深度睡眠模式等，每種狀態(tài)下對處理器時鐘、PLL以及是否響應監(jiān)聽和中斷都有相關設置。例如，在睡眠模式下，通常PLL處于開通狀態(tài)，而內部時鐘則完全關閉。盡管中斷能使處理器轉換到完全開通的狀態(tài)，但處理器經常對監(jiān)聽不響應。這些模式可使處理器處于對外部時間反應的不同靈敏度和功耗級別，通過正確應用這些模式可實現主要的功率節(jié)省。充分利用這些可用特性的經過優(yōu)化的軟件設計，將會實現額外的功率節(jié)省。

嵌入式微處理器基準協(xié)會(EEMBC)自1997年建立以來，已成功地重新定義了嵌入式處理器的基準，EEMBC認為功率是嵌入式系統(tǒng)設計的首要關注點，并正在考慮定義評價能耗的基準。

直到現在，設計工程師還不得不依賴處理器提供商，以及他們自己在各種狀態(tài)下測試“典型功率”的技術，一種可靠、一致、可理解的功耗基準將對設計工程師非常有好處。EEMBC期望在運行現有的基準套件同時測量能耗，然后將結果以焦耳值的形式給出，或者用一個累計的PowerMark分數來概括。

SIMD引擎能實現高度并行的運算，允許依靠指令級執(zhí)行單元在單個時鐘周期里同時執(zhí)行多個運算，這些指令級執(zhí)行單元可并行運行現有的整數和浮點單元。EEMBC認證結果表明，其運算速度比電信基準的標量處理(scalar processing)速度高12倍。這些包括用在無線基站基帶處理中的維特比解碼算法和卷積編碼等算法。這些結果是通過用C語言編碼獲得的，盡量減少了對手工代碼匯編的需求。設計工程師在任何可能的情況下都避免匯編，而是通過他們自己的C編碼和處理器供應商提供的匯編優(yōu)化庫來獲得性能。重要的是，獲得這些SIMD引擎性能增量僅只需增加5-10%的處理器功率。

SIMD引擎也可給軟件投資帶來可觀回報，在對功率影響最小的情況下獲得重大的性能提升。

低功率嵌入式系統(tǒng)在其它方面帶來系統(tǒng)設計新的挑戰(zhàn)，例如電源管理。不斷縮小的處理器尺寸增加了電流并降低了電壓。容量更大、速度更快的存儲器其瞬變過程也更快，這需要電源具有更好的吸收和輸出電流的能力。傳統(tǒng)用于限制大電流和瞬態(tài)電流的PCB上的電阻和電容器件可能導致負載調節(jié)能力欠佳，使電路板上的電壓發(fā)生波動。此外，電路板上不同電壓的數量也在增加，增加了電源布線的復雜程度。

一種稱為負載點(PoL)的新興架構標準通過提供更高的電壓精度、更少的紋波和更快的瞬態(tài)響應，可解決很多這些挑戰(zhàn)。它還能提供更多的設計靈活性，因為來自多個供應商的產品的互操作性可得到保障。

系統(tǒng)架構師現在采用新的方法來處理嵌入式應用中的發(fā)熱和功率問題。一種方法是構建能承受和發(fā)散更多熱量的物理尺寸更大的系統(tǒng)，用于電信基礎設施的AdvancedTCA規(guī)范就是這樣的例子。作為一個概念驗證平臺，AdvancedTCA規(guī)范受到運營商、設備制造商和器件供應商的歡迎。多個供應商和產品都可使用的通用外形尺寸的問世，顯著減少了原型開發(fā)時間和成本。

然而，AdvancedTCA在制造基礎設施上應用的廣泛程度仍然是個未知數，功率、體積和成本是主要考慮因素。設計工程師采納的替代方法利用了集成的雙內核微處理器中的最新技術，使它們每毫瓦的處理能力最大。與其被迫采用一種基礎設施系統(tǒng)來處理產生的熱量，設計工程師更愿意在第一階段中避免產生熱量。

對稱多處理器(SMP)雙處理器應用是雙內核器件明顯的應用目標。在這些應用中，處理器共享相同的操作系統(tǒng)(OS)和存儲器。兩個分離的處理器和它們的系統(tǒng)邏輯可以全部集成在一個器件里。

一個常見的誤解是認為雙內核器件僅限于SMP應用。采用智能設計，設計工程師可增加必要的hook函數和功能性，以允許不僅支持在每個內核上具有相同操作系統(tǒng)的非SMP處理器，還支持每個內核不同的操作系統(tǒng)。設計工程師利用這種靈活性銜接現有操作系統(tǒng)(通常是專用的)與新興操作系統(tǒng)，如Linux。操作系統(tǒng)供應商通過定義標準化的通信方法進行合作，以實現雙內核器件中操作系統(tǒng)之間的這種“協(xié)同不對稱多處理”功能。

靈活利用集成的多內核處理器特性和技術，可為許多嵌入式應用實現外形尺寸小、成本低、性能可靠的系統(tǒng)。很明顯，集成的雙內核微處理器正在改變架構現狀。專門為嵌入式應用而設計的新型處理器，可實現在特定功率預算內大大提高計算密度的高性能系統(tǒng)設計。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

多內核處理器架構改善嵌入式系統(tǒng)性能

評論

相關推薦

技術專區(qū)