高效的C編程之:C循環(huán)結(jié)構(gòu)
14.5.2循環(huán)展開
在14.5.1節(jié)中可以發(fā)現(xiàn),每次循環(huán)需要在循環(huán)體外加兩條指令:一條減法指令來減少循環(huán)計(jì)數(shù)值和一條條件分支指令。通常這些指令稱為循環(huán)開銷(LoopOverhead)。在ARM7或ARM9處理器上,加法指令需要1個(gè)周期,條件分支指令需要3個(gè)周期,這樣每個(gè)循環(huán)就需要4個(gè)周期的開銷。
可以通過展開循環(huán)體(LoopUnrolling),即重復(fù)循環(huán)主體多次,同時(shí)按同樣的比例減少循環(huán)次數(shù)來降低循環(huán)開銷。
下面的例子通過將循環(huán)體展開4次,來達(dá)到減少循環(huán)開銷的目的。
intcountbit1(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
n>>=1;
}
returnbits;
}
將循環(huán)主體展開。
intcountbit2(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
if(n2)bits++;
if(n4)bits++;
if(n8)bits++;
n>>=4;
}
returnbits;
}
這里減少了4N的循環(huán)開銷(N=4,即循環(huán)體執(zhí)行的次數(shù))。如果循環(huán)體中存在耗時(shí)的Store/Load指令,則代碼執(zhí)行效率的提高將更明顯。
ARM編譯器不會(huì)自動(dòng)將循環(huán)體展開,只有用戶自己判斷何時(shí)將循環(huán)體展開,到底應(yīng)該展開多少次,如果循環(huán)的次數(shù)不是循環(huán)展開的倍數(shù)該怎么辦?下面就將詳細(xì)討論,用戶編寫自己的循環(huán)展開程序時(shí),需要注意的問題。
①只有當(dāng)循環(huán)展開對(duì)提高應(yīng)用程序的整體性能非常重要時(shí),才進(jìn)行循環(huán)展開;否則反而會(huì)增加代碼尺寸。
②應(yīng)設(shè)法使循環(huán)的次數(shù)是循環(huán)展開的倍數(shù)。如果難以實(shí)現(xiàn),那么就要增加額外的代碼來處理數(shù)組的剩余元素。這將增加少許代碼量,但可以保持較好的性能。
評(píng)論