功率與性能：DSP 設(shè)計(jì)面臨的終極挑戰(zhàn)

作者：Doug Morrissey, 副總裁兼 CTO, Octasic, Inc. 時(shí)間：2008-04-23 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　多年來(lái)，數(shù)字信號(hào)處理器 (DSP) 設(shè)計(jì)人員一直在應(yīng)付這樣一項(xiàng)艱難的工作：提供占用空間小的高性能芯片，而且要不影響靈活性和軟件的可編程能力。

　　由于新的應(yīng)用程序發(fā)展速度驚人，提供的 DSP 必須在功率、性能和使用壽命上跟上這種速度，應(yīng)對(duì)當(dāng)前面臨的挑戰(zhàn)，并準(zhǔn)備好應(yīng)對(duì)未來(lái)的應(yīng)用。這些高性能多核心 DSP被越來(lái)越多地應(yīng)用在電信接入、改進(jìn)數(shù)據(jù)率GSM服務(wù)(EDGE)和基礎(chǔ)設(shè)施設(shè)備領(lǐng)域，用來(lái)處理語(yǔ)音、視頻和無(wú)線電信號(hào)。

　　以前，電信設(shè)備制造商使用專用的 ASIC 或 DSP-ASIC 組合來(lái)達(dá)到自己的目標(biāo)。現(xiàn)在，這些新的 DSP 可以替代那些繁瑣的解決方案；如果足夠強(qiáng)大，它們還可以實(shí)現(xiàn)以前的解決方案所無(wú)法實(shí)現(xiàn)的靈活性。對(duì)于那些必須在網(wǎng)絡(luò)部署中持續(xù)使用多年的接入和基礎(chǔ)設(shè)施設(shè)備，而言, 這些靈活的解決方案是大有裨益的。假如這些類型的設(shè)備和應(yīng)用程序的使用壽命得到延長(zhǎng)，那么，成功的關(guān)鍵就是靈活性、適應(yīng)性和現(xiàn)場(chǎng)可編程性。

本文引用地址：http://www.butianyuan.cn/article/81852.htm

　　在目前的技術(shù)條件下，ASIC 在靈活性或現(xiàn)場(chǎng)可編程性方面不如 DSP，但 DSP 的能耗較大，這讓芯片設(shè)計(jì)人員左右為難。不過(guò)，還是有希望：新一代的多核心 DSP 可以同時(shí)做到高性能和高能效。做到這點(diǎn)的技術(shù)是存在的，但必須先解決“功率耗散”（功率極限）問(wèn)題。

功率極限

　　目前，芯片功率耗散的源頭有兩個(gè)：以泄漏形式出現(xiàn)的靜態(tài)現(xiàn)象；以開關(guān)運(yùn)算形式出現(xiàn)的動(dòng)態(tài)現(xiàn)象。在采用 90 納米和以下工藝的 CMOS 技術(shù)中，這種功率耗散現(xiàn)象最為明顯。但是，新一代的 DSP 設(shè)計(jì)不僅能減輕和避開這種功率極限，而且實(shí)際上可以提高基礎(chǔ)設(shè)施、接入和 EDGE 設(shè)備的處理能力，同時(shí)限制功率消耗和熱量耗散。

　　部分特定CMOS 技術(shù)下的能耗界定的關(guān)鍵度量指標(biāo):
　　• 電源電壓
　　• 門開關(guān)速度
　　• 門輸入電容
　　• 門功耗
　　• 每個(gè) MAC 運(yùn)算消耗的能源

　　研究表明，同等功能（如 MAC 單元）的功率密度（即單位面積的功率）在 0.13 微米（含）以上的芯片中相當(dāng)穩(wěn)定。但是，到達(dá) 90 納米時(shí)，這個(gè)指標(biāo)會(huì)突然升高。

Power/Area versus Silicon Technology	功率/面積與硅技術(shù)
Power crisis at 90 nm and below	90 納米及以下工藝的功率極限
um	微米
nm	納米

　　在采用 0.13 微米技術(shù)以前，DSP 設(shè)計(jì)能夠在提高性能的同時(shí)降低功率，從而可以在單個(gè)芯片中植入更多的電路。這主要是通過(guò)減小尺寸并降低電壓實(shí)現(xiàn)的。采用了 90 納米技術(shù)后，所有這一切就都行不通了。

　　現(xiàn)在面臨的是以性能換功能的問(wèn)題，這是設(shè)備制造商所不愿遇到的情況：在一個(gè)芯片中植入更多電路但降低性能，或者減少電路數(shù)以減少功能。

　　由于“功率極限”的情形繼續(xù)存在，設(shè)計(jì)人員一直在通過(guò)增加功耗來(lái)獲得性能和功能方面的優(yōu)勢(shì)。但是，這會(huì)帶來(lái)一種新的風(fēng)險(xiǎn)：達(dá)到熱量耗散的極限。所產(chǎn)生的問(wèn)題可能已經(jīng)在當(dāng)前市場(chǎng)上最新一代的通用多核心 DSP 中出現(xiàn)。

零-和博弈：靜態(tài)能效

　　因?yàn)樾阅苁腔A(chǔ)設(shè)施、接入和 EDGE 應(yīng)用的主要目標(biāo)，因此設(shè)計(jì)人員一般并不關(guān)心零待機(jī)功率問(wèn)題。因此，通常采用通用硅工藝來(lái)優(yōu)化性能，而不會(huì)選擇低泄漏的硅。選擇低泄漏的硅可以降低待機(jī)功率，但也會(huì)降低速度和性能。

　　這就要求有選擇地使用晶體管。

　　在使用電池的設(shè)備中，高電壓閾值 (HVT) 可能是最佳的；但在基礎(chǔ)設(shè)施應(yīng)用中，首選的是標(biāo)準(zhǔn)電壓閾值 (SVT) 技術(shù)。

　　例如，假如某個(gè)設(shè)計(jì)使用 HVT 邏輯運(yùn)算，并且電源電壓為 1.2V，則將連續(xù)產(chǎn)生 20mW 的泄漏功率。如果以最大容量運(yùn)算，則將消耗 1W 的動(dòng)態(tài)功率。

　　使用 SVT 邏輯運(yùn)算的相同設(shè)計(jì)在電源電壓為 1.0V 時(shí)可以實(shí)現(xiàn)幾乎相同性能，產(chǎn)生的泄漏功率多出 4 倍 (100mW)，但動(dòng)態(tài)消耗的功率只有 694mW (1.02 /1.22 = 0.694)。

　　因此，泄漏較高的 SVT 設(shè)計(jì)消耗的總功率只有 790mW，而相比之下，HVT 設(shè)計(jì)的消耗總功率為 1.02W。前者比后者節(jié)能 23%。

　　HVT 設(shè)計(jì)和 SVT 設(shè)計(jì)的功耗比較

Power Consumption	HVT design (VDD = 1.2V)	SVT design (VDD = 1.0V)
Leakage Power	0.02W	0.10W
Dynamic Power	1W	0.69W
Total Power	1.02W	0.79W
Performance	Both designs deliver the same performance.
功耗	HVT 設(shè)計(jì) (VDD = 1.2V)	SVT 設(shè)計(jì) (VDD = 1.0V)
泄漏功率	0.02W	0.10W
動(dòng)態(tài)功率	1W	0.69W
總功率	1.02W	0.79W
性能	兩種設(shè)計(jì)實(shí)現(xiàn)的性能相同。

　　盡管與人們預(yù)料的情況相反，這一示例表明，使用較高泄漏的 SVT 邏輯與使用低泄漏的 HVT 邏輯相比，可以在總體上節(jié)能，這是因?yàn)楹笳唠娐分械拈_關(guān)活動(dòng)量很大。對(duì)于乘法和累加 (MAC) 電路，這種設(shè)計(jì)特別有用；但如果用在低活動(dòng)因素的電路（如 RAM 電路或測(cè)試電路）上，則會(huì)出現(xiàn)相反的結(jié)果。因此，SVT 邏輯適用于基礎(chǔ)設(shè)施中“始終打開”的設(shè)備。

　　動(dòng)態(tài)化：能效優(yōu)化

　　時(shí)鐘樹和邏輯切換都會(huì)導(dǎo)致動(dòng)態(tài)能耗，必須在新一代多核心 DSP 中進(jìn)行處理。通過(guò)不斷優(yōu)化這兩種耗能因素的設(shè)計(jì)，可以極大地改進(jìn)能效指標(biāo)。

　　時(shí)鐘樹（用于實(shí)現(xiàn)同步時(shí)鐘以觸發(fā)設(shè)計(jì)的線網(wǎng)和緩沖區(qū)）會(huì)在其自身的觸發(fā)運(yùn)算過(guò)程中從芯片中吸收一些能量。在對(duì)最新的高速芯片中遍布的時(shí)鐘樹（通常數(shù)量較大）進(jìn)行充電和放電的過(guò)程中，也會(huì)消耗能量。此外，有些新一代 DSP 使用了速度更快的時(shí)鐘 (1GHz 或更高)，這就需要耗能更多的更大的激勵(lì)器。如果要通過(guò)芯片和相關(guān)的時(shí)滯最小化時(shí)鐘傳播延遲，則需要更大的激勵(lì)器。這又導(dǎo)致消耗更多的能量。

用于降低能耗的時(shí)鐘樹門控

An unused module can be disabled anytime using an enable signal. Associated logic and clock trees contained in a disabled module will therefore stop consuming power.	可以使用激活信號(hào)隨時(shí)禁用未使用的模塊。被禁用的模塊中包含的相關(guān)邏輯和時(shí)鐘樹會(huì)因此停止消耗能量。
module0 is enabled	module0 已激活
module1 is enabled	module1 已激活
module2 is disabled	module2 被禁用
mclk is grounded	mclk 接地
MODULE0 (array of gates and flip-flops)	MODULE0（門和觸發(fā)器陣列）
MODULE1 (array of gates and flip-flops)	MODULE1（門和觸發(fā)器陣列）
MODULE2 (array of gates and flip-flops)	MODULE2（門和觸發(fā)器陣列）

設(shè)備設(shè)計(jì)人員可以通過(guò)組合以下成熟的技術(shù)來(lái)降低時(shí)鐘樹中的能耗：

單獨(dú)啟用時(shí)鐘的觸發(fā)器，可以在需要計(jì)時(shí)時(shí)限制觸發(fā)運(yùn)算的次數(shù)。
門控時(shí)鐘樹，可以在不使用時(shí)動(dòng)態(tài)阻止對(duì)整個(gè)電路段計(jì)時(shí)。
多循環(huán)路徑設(shè)計(jì)，可以減少電路中的觸發(fā)次數(shù)以及觸發(fā)的頻率。
在架構(gòu)上可行的情況下組合計(jì)算線路，從而讓一系列的MAC 運(yùn)算可以在級(jí)聯(lián)組合電路而不是同步反饋電路中實(shí)現(xiàn)。借用多循環(huán)路徑技術(shù)；這種方式可以極大地減少所用的觸發(fā)次數(shù)并降低觸發(fā)頻率。
最小化觸發(fā)器和電路的使用范圍，使用物理尺寸較小的時(shí)鐘樹，從而縮小所需的激勵(lì)緩沖區(qū)。

　　最后，消除全部時(shí)鐘樹可以在提高性能的同時(shí)極大地降低能耗。無(wú)時(shí)鐘設(shè)計(jì)技術(shù)可以用在耗能最多的邏輯電路部分。思想超前的設(shè)計(jì)人員會(huì)積極地追隨上述解決方案。在解決性能和功率之間一直存在的沖突時(shí)，無(wú)時(shí)鐘設(shè)計(jì)是效率最高、成本效益最好的方式。

　　邏輯切換優(yōu)化

　　邏輯切換在能耗方面發(fā)揮著重要的作用，因?yàn)檎w能耗都發(fā)生在邏輯切換狀態(tài)轉(zhuǎn)換的充電和放電過(guò)程中?？梢圆捎靡韵鲁墒旒夹g(shù)的組合來(lái)最大程度地減少邏輯轉(zhuǎn)換中的能耗。

優(yōu)化物理門：這種技術(shù)可以實(shí)現(xiàn)最大的能效指標(biāo)收益，對(duì)于較小的芯片尺寸技術(shù)更是如此。雖然其原理非常簡(jiǎn)單，但使用當(dāng)前的布局工具和方法來(lái)實(shí)現(xiàn)這種技術(shù)卻有一定難度；因?yàn)檫@些工具和方法原來(lái)的開發(fā)目的是加快推出產(chǎn)品，犧牲性能來(lái)提高設(shè)計(jì)的水平和復(fù)雜度。

　　最終發(fā)明了物理門，可以使用某種抽象語(yǔ)言 (如 VHDL）來(lái)根據(jù)設(shè)計(jì)人員的功能目標(biāo)來(lái)創(chuàng)建芯片。這種技術(shù)既有優(yōu)點(diǎn)也有缺點(diǎn)。目前的標(biāo)準(zhǔn)方法是讓設(shè)計(jì)人員避開物理實(shí)現(xiàn)方式的細(xì)節(jié)，從而加快產(chǎn)品推出的速度。

　　這種技術(shù)的缺點(diǎn)是復(fù)雜芯片的設(shè)計(jì)人員無(wú)法控制其設(shè)計(jì)，包括無(wú)法控制線路的長(zhǎng)度，從而可能極大地增加電路的總電容。在找出最佳的線路和電路設(shè)計(jì)方面，設(shè)計(jì)人員仍然優(yōu)于設(shè)計(jì)工具。如果使用成熟的技術(shù)并深入了解設(shè)計(jì)細(xì)節(jié)，人腦的判斷仍然具有優(yōu)勢(shì)。設(shè)計(jì)人員還可以立即發(fā)現(xiàn)集成電路的細(xì)微變化可能成倍減少互連線路長(zhǎng)度的情況。事實(shí)上，記錄的信息顯示，有人干預(yù)的物理門技術(shù)可以將電路線路的平均長(zhǎng)度最高縮減一半（與傳統(tǒng)的最佳自動(dòng)后端工具中實(shí)現(xiàn)的相同設(shè)計(jì)相比）。而且，由于戰(zhàn)略性布線實(shí)現(xiàn)的電路集成度可以輕松地將硅使用率提高到 90% 以上。這意味著，與使用自動(dòng)后端工具的結(jié)果相比，硅使用率提高了大約 20%。

　　此外，與自動(dòng)布線和路由的設(shè)計(jì)相比，激勵(lì)這些極短線路的門通常尺寸較小，能耗也更低。因此，與自動(dòng)布線的同類設(shè)計(jì)相比，整個(gè)電路的尺寸更小，運(yùn)算速度更快，能耗也大幅降低。在 90 納米技術(shù)中僅使用低 HVT 邏輯元素時(shí)，這種電路集成技術(shù)允許整個(gè)數(shù)據(jù)路徑引擎以 1.5-2GHz 的速度運(yùn)行，而其能耗與傳統(tǒng)設(shè)計(jì)的同類電路相比最多可降低 4 倍。

Design placed by conventional back-end tools: 70-80% silicon usage efficiencey	傳統(tǒng)后端工具布線的設(shè)計(jì)：70-80% 的硅使用效率。
Designer Optimized circuit placement: 90% silicon usaged efficiency	經(jīng)過(guò)設(shè)計(jì)人員優(yōu)化的電路布線：90% 的硅使用效率。
Advantages of Optimized Placement: Circuit Compaction and Power Reduction.	優(yōu)化布線的優(yōu)勢(shì)：電路集成度高，能耗降低。
The gates are illustrated in yellow, unused silicon is shown in purple.	門用黃色表示，未使用的硅用紫色表示。

　　優(yōu)化長(zhǎng)信號(hào)的線路：與其它高功率高速度的電路元素結(jié)合使用時(shí)，長(zhǎng)信號(hào)線路可以顯著地提高性能。例如，數(shù)據(jù)總線可以使用長(zhǎng)路由并頻繁改變狀態(tài)。降低此類線路的整體電容可以極大地降低能耗，加快速度，并減少緩沖需求。但是，設(shè)計(jì)人員面臨的難題是：要通過(guò)加大間距布置長(zhǎng)信號(hào)來(lái)降低電容，同時(shí)仍要允許線路器關(guān)閉設(shè)計(jì)中密度極高的部分。其中的部分工具和方法包括：

　　消除對(duì)狀態(tài)進(jìn)行無(wú)益更改的電路：禁用其更改后的輸出不會(huì)被使用的任何電路。這可以通過(guò)使用時(shí)鐘門控實(shí)現(xiàn)。

　　減少高頻門的數(shù)量：PC 處理器芯片（如 Pentium™ 和其它處理器）已經(jīng)證明，提高功能要以增加能耗為代價(jià)。能耗的指數(shù)級(jí)增長(zhǎng)源于利用以下一種或多種技術(shù)提高電路的性能：

　　使用復(fù)雜度更高的電路（即使用超前加法器而不是并行加法器），則會(huì)占用更大的面積，消耗更多的能量；

　　使用較大的門、緩沖區(qū)和激勵(lì)器來(lái)加快切換速度，致使回報(bào)的逐漸減小。

　　通常，同等的性能可以通過(guò)使用更簡(jiǎn)單、速度更慢的電路實(shí)現(xiàn)；這些電路以并行方式運(yùn)算，或者采用慢速的多循環(huán)路徑，這可以極大地降低能耗。但是，與人們預(yù)料的情形相反，此類電路通常占用的總體面積較小。事實(shí)上，即使以并行方式使用，它們的總布線量通常較少。這是因?yàn)?，從個(gè)體上看，與更快、更大、更耗能的大型電路相比，它們?cè)诿總€(gè)實(shí)例上所需的門數(shù)更少，門更小。

　　• 降低電壓切換擺幅的大?。和ㄟ^(guò)長(zhǎng)總線和時(shí)鐘線降低電壓切換擺幅，可以進(jìn)一步降低能耗。這涉及使用具有較小的電壓擺幅的平衡傳輸線技術(shù)，諸如在高性能內(nèi)存設(shè)計(jì)中使用的技術(shù)（如差動(dòng)放大器）。此類傳輸線以較小的電壓切換運(yùn)行，可以極大地降低能耗。盡管這種技術(shù)通常需要在芯片中使用中間電壓軌/平面，這些傳輸線的狀態(tài)更改速度可以達(dá)到傳統(tǒng) CMOS 軌到軌線路速度的 10 倍；在能耗相同的情況下，可以極大地提高能效指標(biāo)。

　　• 規(guī)劃電壓運(yùn)算范圍：設(shè)計(jì)人員在確定其系統(tǒng)規(guī)格時(shí)，應(yīng)該有所節(jié)制。并非系統(tǒng)中的每個(gè)元素都需要有很高的性能，對(duì)于哪些不屬于對(duì)整個(gè)系統(tǒng)至關(guān)重要的 10% 的功能的元素更是如此。事實(shí)上，以盡可能精益的方式運(yùn)行其它 90% 的功能是可以接受的。因此，設(shè)計(jì)人員應(yīng)采用不同的電壓軌區(qū)別對(duì)待電路的各個(gè)部分。例如，可以為 10% 的芯片線路提供 1.2V 的電壓使其以 3GHz 的速度運(yùn)行，為另外 40% 的線路提供 1.0V 的電壓使其以 1GHz 的速度運(yùn)行，而對(duì)剩余的 50% 線路提供 0.8V 的電壓使其以 400MHz 的速度運(yùn)行。在總體上，可以實(shí)現(xiàn)特定應(yīng)用可以達(dá)到的最佳整體能效指標(biāo)。

　控制能效問(wèn)題

　　隨著應(yīng)用程序越來(lái)越多樣化，工具變得越來(lái)越復(fù)雜，電信接入和基礎(chǔ)設(shè)施設(shè)備的設(shè)計(jì)人員在如何以恰當(dāng)?shù)拇鷥r(jià)構(gòu)建高性能產(chǎn)品并實(shí)現(xiàn)合理的使用壽命的問(wèn)題上費(fèi)盡心思。但是，芯片設(shè)計(jì)方法的不斷細(xì)化和專業(yè)化使得許多產(chǎn)品無(wú)法接觸到這些技術(shù)。對(duì)于那些由專門的工程設(shè)計(jì)人員組成的大型團(tuán)隊(duì)使用一流的后端設(shè)計(jì)工具設(shè)計(jì)的芯片，其面臨的困難尤其突出。值得慶幸的是，有多種技術(shù)可以管理芯片的能效指標(biāo)，獲得高達(dá) 3:1 MIPS/功率比。這些技術(shù)中既有非常簡(jiǎn)單的技術(shù)，也有極其復(fù)雜的技術(shù)，可以提供范圍廣泛的改進(jìn)可能性。

　　令人意外的是，如果使用了為特定目的設(shè)計(jì)的工具，基于設(shè)計(jì)人員的最佳判斷和智慧的效率最高的技術(shù)（如優(yōu)化布線和路由）可能是相對(duì)簡(jiǎn)單的技術(shù)。

　　出人意料的是，最有效的技術(shù)，諸如優(yōu)化布局布線，當(dāng)使用為該特定目的而設(shè)計(jì)的工具并基于設(shè)計(jì)者的最佳判斷和智慧時(shí)會(huì)變得相對(duì)比較簡(jiǎn)單。

新聞中心

功率與性能：DSP 設(shè)計(jì)面臨的終極挑戰(zhàn)

零-和博弈：靜態(tài)能效

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)