嵌入式系統(tǒng)中軟件優(yōu)化的低功耗研究
引言
從20世紀70年代世界上第一個為嵌入式應(yīng)用而設(shè)計的微處理器Intel 4004誕生以來,嵌入式系統(tǒng)已經(jīng)發(fā)展了30多年。近幾年,嵌入式系統(tǒng)(embedded system)已經(jīng)成為電子信息產(chǎn)業(yè)中最具增長力的一個分支。隨著手機、PDA、GPS、機頂盒等新興產(chǎn)品的大量應(yīng)用,嵌入式系統(tǒng)的市場正在以每年30%的速度遞增,嵌入式系統(tǒng)的設(shè)計也成為軟硬件工程師越來越關(guān)心的話題。
嵌入式系統(tǒng)是以應(yīng)用為中心、以計算機技術(shù)為基礎(chǔ),并且軟硬件可裁減,適用于應(yīng)用系統(tǒng)對功能、可靠性、成本、體積、功耗等有嚴格要求的專用計算機系統(tǒng)[1]。在嵌入式系統(tǒng)的設(shè)計中,低功耗設(shè)計(Low-Power Design)是必須面對的問題。其原因在于嵌入式系統(tǒng)被廣泛應(yīng)用于便攜式和移動性較強的產(chǎn)品中,而這些產(chǎn)品不是一直都有充足的電源供應(yīng),往往靠電池來供電,所以應(yīng)從每一個細節(jié)來考慮降低功率消耗,盡可能地延長電池的使用時間。事實上,從全局來考慮低功耗設(shè)計已經(jīng)成為了一個越來越迫切的問題。
低功耗是便攜式電子設(shè)備必須具備的一個關(guān)鍵特性。過去幾年的研究主要針對硬件部分,而現(xiàn)在人們則更注重通過優(yōu)化軟件部分來降低系統(tǒng)功耗。要想對軟件進行優(yōu)化,必須了解每條指令所產(chǎn)生的功耗,并選擇正確的編譯方法,以降低程序執(zhí)行的功耗。由于各種微處理器架構(gòu)不同,指令集和功耗也不一樣。因此,適用于某一處理器的優(yōu)化方式并不一定適用于其他處理器。這樣,選擇與可降低功耗的軟件相匹配的微處理器便十分重要。
1 編譯優(yōu)化
編譯器的作用是將由高級語言編寫的程序,如C/C++等,翻譯成能夠在目標機上執(zhí)行的程序。換句話說,編譯器為高級語言程序員提供了一個抽象層,使得程序員能夠通過編寫與實際問題相近的高級語言代碼(而不用匯編或者機器語言),方便地解決實際問題;同時,也使得程序的可讀性和可維護性得到保證,提高軟件開發(fā)的效率。另外,將程序移植到新的目標機,也只要用相應(yīng)的編譯器對程序進行重新編譯,而不必重新編寫程序。
但是某些情況下,這樣的做法是以犧牲程序的執(zhí)行性能為代價的。編譯器的有效性以及它所生成的代碼效率,可以與專家級的匯編/機器語言程序員所編寫的代碼相比較得出,因此可以通過對編譯器的優(yōu)化,生成效率更高的代碼。
通過優(yōu)化編譯器可以有效地降低嵌入式設(shè)備的功耗。在一個程序中,每一條指令都將激活微處理器中的某些硬件部件,因此,正確選擇指令可降低處理器的功耗。通過建立特定處理器架構(gòu)下指令集的功耗信息,利用“減少跳轉(zhuǎn)的指令重排序”等方法,可以進行有效的軟件低功率優(yōu)化。
這里作兩點假設(shè):① 每一條指令都有一個固定量的功率;② 每條指令的散熱與它的操作數(shù)及其他指令無關(guān)。從圖1可以看到,通過對指令的重新排序,可以把一段程序的初始功率狀況,如圖1(a)所示,轉(zhuǎn)換成圖1(b)所示的那樣??梢缘贸鲞@樣的結(jié)論:盡管兩種情況中局部區(qū)域的散熱狀況不一樣,但是它們所消耗的總電能是一致的。換句話說,可以在不影響總耗電的情況下,對程序的局部散熱情況作出某些調(diào)整,以符合實際的需要。下面通過將指令進行重新排序來實現(xiàn)系統(tǒng)功耗的降低[2]。
圖1程序內(nèi)局部區(qū)域功率的兩種可能性
2 指令排序
我們知道,運行某一特定程序的處理器的功率P=I×Vdd(I為平均電流,Vdd為給定的電壓),則程序的功耗E=P×t(t為程序的執(zhí)行時間);同時,t=N×T(T為指令周期),即為主頻的倒數(shù),N為程序執(zhí)行的周期數(shù))。在嵌入式系統(tǒng),尤其是在移動設(shè)備中,一般都通過電池供電,故系統(tǒng)的功耗是一個非常重要的指標?,F(xiàn)在,Vdd和T都是已知量,因此程序消耗的電能E與電流I和程序周期數(shù)N的乘積成正比。這里通過引用參考文獻[3]中所建立的模型來進行闡述。該模型中通過示波器等設(shè)備,測量并估計執(zhí)行每條指令所需要的電流I[4]。綜上所述,可以利用嵌入式處理器中的多數(shù)據(jù)存儲區(qū)域的特性,實現(xiàn)數(shù)據(jù)的并行處理,通過對指令的排序,減少指令的執(zhí)行周期,從而達到降低功耗的目的。
2.1 舉例
假設(shè)有一段C語言程序,如圖2(a)所示。圖2(b)是其相應(yīng)的匯編代碼,圖2(c)表示每個結(jié)點帶有兩個權(quán)值的數(shù)據(jù)依賴圖(Data Dependence Graph,DDG)。第一個權(quán)值表示結(jié)點在DDG中的深度,如V10的第一個權(quán)值為1,V0的第一個權(quán)值為6。假設(shè)這個權(quán)值越大,表示其優(yōu)先級越高,如圖2(c)中V0和V1具有最高的優(yōu)先級。
圖2C語言代碼、匯編代碼與數(shù)據(jù)依賴圖
圖3為未使用文中的算法前指令的執(zhí)行順序。注意,圖中的黑體字,即V2、V6以及V9,與其他指令不同。它們是ADD或者MPY指令,需要用到系統(tǒng)的ALU部件。在同一指令周期中,可以同時執(zhí)行ALU運算以及MOVE操作,但是不可以同時執(zhí)行兩個ALU操作。
圖3指令排序前結(jié)點的執(zhí)行順序
節(jié)點的第二個權(quán)值,表示相關(guān)寄存器的生命周期。如圖4所示,V0所依賴的寄存器是r0,它的生命周期為1到3,即為2。從圖中可以得出以下結(jié)論:此段程序總共需要11個指令周期和最少同時使用2個寄存器。
圖4指令排序前的狀況
圖5為基于本文的算法,將指令重新排序后的情況。程序總的執(zhí)行周期變?yōu)?,但是所占用的寄存器個數(shù)增加到3。由此也可以看到,程序的執(zhí)行周期與寄存器的個數(shù)之間也是一個折衷權(quán)衡的結(jié)果。
圖5基于排序算法后的情況
文中借用了參考文獻[3]中所建立的模型,用以計算程序的耗電量。在圖5中,程序執(zhí)行時所需要的總電流I=780 mA,總的執(zhí)行周期數(shù)為N=6,因此消耗電路E=N×I=6×780 mA=4 680 mA。不使用任何算法的情況,即圖2所示,E=N×I=1 080×11=11 880 mA。通過使用文中的算法,將程序執(zhí)行周期減少了,同時程序的功耗也降低了。也就是說,通過使用文中的算法,程序的執(zhí)行性能得到提高,系統(tǒng)的功耗也最大程度地得到了優(yōu)化。由此可見,在這一層面上,采用何種算法是非常重要的。
2.2 算法描述
文中的算法是基于文獻[5]中提出的以串列為基礎(chǔ)的排序機制,主要是以減少程序的執(zhí)行周期為目的,同時考慮到使用盡量少的寄存器。程序的描述如下:
?、?構(gòu)造數(shù)據(jù)依賴圖DDG。
?、?構(gòu)造帶權(quán)的元組,其中第一個權(quán)值為結(jié)點在DDG中的深度,設(shè)為P;第二個權(quán)值為生命周期,設(shè)為L。
③ 查找就緒表R(如圖3所示)。
④ while就緒表R不為空 do
P值為最高結(jié)點所具有的最高優(yōu)先級
if當前指令周期中的結(jié)點的深度
if存在幾個結(jié)點
if結(jié)點具有相同的優(yōu)先級
if結(jié)點具有相同的生命周期
則在DDG中處于相同子樹的結(jié)點具有高優(yōu)先級,加入到新的排序序列中(使在進行ALU操作時執(zhí)行1至2條MOVE指令成為可能)
else
生命周期越小的結(jié)點越具有高優(yōu)先級,加入到新的排序序列中(用于減少寄存器數(shù))
else
具有最大深度的結(jié)點具有高優(yōu)先級,加入到新的排序序列中(用于減少指令周期) else直接加入到新的排序序列中
else
break
在以上的算法中,結(jié)點的深度是最為重要的。它用于控制整個程序所需的指令周期數(shù),從而使程序的功耗得到有效的控制。另外,結(jié)點的生命周期也是相當重要的,它可以控制程序中所用到的寄存器的個數(shù)。這在DSP處理器中顯得尤為重要。同時,該算法也充分利用了處理器的數(shù)據(jù)并行處理能力,為在同一指令周期內(nèi)執(zhí)行不同的操作提供了可能。
3 結(jié)論
近年來,功耗成為嵌入式應(yīng)用領(lǐng)域的一個越來越令人關(guān)注的問題。尤其是在移動設(shè)備中,由于通過電池供電,功耗顯得尤為重要。當前的編譯器很少能夠充分利用處理器的各種特性,因此編譯生成的代碼不能與那些專家級匯編程序員寫出的代碼相提并論。本文從軟件角度出發(fā),提出了一個優(yōu)化編譯器,對指令進行重新排序的算法,通過優(yōu)化編譯器來實現(xiàn)降低系統(tǒng)的功耗。下一步工作則要選擇和研究某種特定的微處理器,然后創(chuàng)建相關(guān)工具,產(chǎn)生這種微處理器的指令集功耗信息,再進一步運用該算法實現(xiàn)編譯優(yōu)化,最終實現(xiàn)功耗的優(yōu)化。
參考文獻
1 Wayne Wolf. 嵌入式計算系統(tǒng)設(shè)計原理. 孫玉芳等譯. 北京:機械工業(yè)出版社,2002
2 Sathishkumar Udayanarayanan. Energyefficient code generation for DSP56000 family, MS. Thesis in Arizona State University (Aug. 2000)
3 Gibbons P A, Muchnick S S. Efficient Instruction Scheduling for a Pipelined Processor, in Proc. of the SIGPLAN Symposium on Compiler Construction (July1986), pp. 11-16
4 Ulrich Kremer. Low Power/Energy Compiler Optimizations
5 WenTsong Shiue. Retargetable Compilation for Low Power王力生,碩士生導(dǎo)師。夏志江,碩士:主要研究方向為嵌入式系統(tǒng)及其應(yīng)用。
評論