DSP在自動(dòng)目標(biāo)識(shí)別中的應(yīng)用

作者：時(shí)間：2008-08-25 來(lái)源：21IC 中國(guó)電子網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　自動(dòng)目標(biāo)識(shí)別（ATR）算法通常包括自動(dòng)地對(duì)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別和選擇攻擊點(diǎn)等算法。戰(zhàn)場(chǎng)環(huán)境的復(fù)雜性和目標(biāo)類型的不斷增長(zhǎng)使ATR算法的運(yùn)算量越來(lái)越大，因此ATR算法對(duì)微處理器的處理能力提出了更高的要求。由于通用數(shù)字信號(hào)處理芯片能夠通過(guò)編程實(shí)現(xiàn)各種復(fù)雜的運(yùn)算，處理精度高，具有較大的靈活性，而且尺寸小、功耗低、速度快，所以一般選擇DSP芯片作為微處理器來(lái)實(shí)現(xiàn)ATR算法的工程化和實(shí)用化。

本文引用地址：http://butianyuan.cn/article/87321.htm

　　為了保證在DSP處理器上實(shí)時(shí)地實(shí)現(xiàn)ATR算法，用算法并行化技術(shù)。算法并行化處理的三要素是：①并行體系結(jié)構(gòu)；②并行軟件系統(tǒng)；③并行算法。并行體系結(jié)構(gòu)是算法并行化的硬件基礎(chǔ)，并行算法都是針對(duì)特定的并行體系結(jié)構(gòu)開(kāi)發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目，ATR算法的并行實(shí)現(xiàn)可以分為處理器間并行和處理器內(nèi)并行。處理器間并行是指多個(gè)DSP處理器以某種方式連接起來(lái)的多處理器并行系統(tǒng)，ATR算法在多個(gè)處理器上并行招待。根據(jù)處理器使用存儲(chǔ)器的情況，多處理器并行系統(tǒng)又可分為共享存儲(chǔ)器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內(nèi)并行是指在單個(gè)DSP處理器內(nèi)通過(guò)多個(gè)功能單元的指令級(jí)并行（ILP）來(lái)實(shí)現(xiàn)ATR算法的并行化。本文分別對(duì)在共享存儲(chǔ)器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級(jí)并行DSP處理器上并行實(shí)現(xiàn)ATR算法進(jìn)行了探討。

　　1 在共享存儲(chǔ)器多處理并行系統(tǒng)上實(shí)現(xiàn)ATR算法

　　在共享存儲(chǔ)器多處理器并行系統(tǒng)中，各個(gè)處理器通過(guò)共享總線對(duì)所有的存儲(chǔ)器進(jìn)行操作，實(shí)現(xiàn)各個(gè)處理器之間的數(shù)據(jù)通信。而在任一時(shí)刻，只允許一個(gè)處理器對(duì)共享總線進(jìn)行操作。所以處理器對(duì)存儲(chǔ)器進(jìn)行讀/寫(xiě)操作時(shí)就必須先獲得對(duì)共享總線的控制權(quán)，這通過(guò)總線仲裁電路實(shí)現(xiàn)。然而，由于所有的處理器只能通過(guò)一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問(wèn)，這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。共享存儲(chǔ)器多處理器并行系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單，當(dāng)處理器的數(shù)目較少時(shí)，可以達(dá)到較高的加速比。

　　ADSP2106x處理器支持最為常用的共享存儲(chǔ)器多處理器并行系統(tǒng)，組成多處理器系統(tǒng)的每一片ADSP2106x的片內(nèi)存儲(chǔ)器統(tǒng)一編址，任一ADSP2106x可以訪問(wèn)其它任何一片ADSP2106x的片內(nèi)存儲(chǔ)器。由于片內(nèi)SRAM為雙口存儲(chǔ)器，因而這種訪問(wèn)并不中斷被訪問(wèn)處理器的正常工作。每個(gè)處理器片內(nèi)SRAM既是該處理器的局部存儲(chǔ)器，又是共享存儲(chǔ)器的部分。在不增加輔助電容的情況下，通過(guò)外部總線接口直接相連的處理器數(shù)量最多為6個(gè)。由于每個(gè)處理器的工作程序放在其片內(nèi)的雙口SRAM中，因此各個(gè)處理器可以實(shí)現(xiàn)并行處理，這是ADSP2106x的存儲(chǔ)器結(jié)構(gòu)所決定的。

　　ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)時(shí)，在編寫(xiě)并行算法程序方面應(yīng)當(dāng)重點(diǎn)考慮的問(wèn)題包括：

　　（1）均衡地把任務(wù)分配給各個(gè)處理器

　　ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)任務(wù)級(jí)并行，因此必須把ATR算法劃分為計(jì)算量均衡的多個(gè)任務(wù)，把各個(gè)任務(wù)分配給多個(gè)處理器，才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。

　　（2）盡量減少多處理器之間數(shù)據(jù)通信

　　由于多處理器只能通過(guò)一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問(wèn)，這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競(jìng)爭(zhēng)而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。

　?。?）利用單個(gè)處理器的并行編程特性

　　充分應(yīng)用單個(gè)處理器的并行編程特性，有利于縮短各個(gè)處理器上任務(wù)的運(yùn)行時(shí)間。例如，ADSP2106x的32位浮點(diǎn)運(yùn)算單元包含一個(gè)乘法器、一個(gè)加法器和移位邏輯電路，它們并行工作；比特倒轉(zhuǎn)尋址在傅立葉變換運(yùn)算時(shí)非常有用；循環(huán)尋址在作卷積、數(shù)字濾波運(yùn)算時(shí)經(jīng)常用到等。

　　2 在分布式多處理器并行系統(tǒng)上實(shí)現(xiàn)ATR算法

　　在分布式多處理器并行系統(tǒng)中，多處理器有各自獨(dú)立的存儲(chǔ)器，多個(gè)處理器通過(guò)通信口相連構(gòu)成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關(guān)系，所以只要增加處理器的數(shù)目，分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構(gòu)成大規(guī)模并行系統(tǒng)。

　　目前，計(jì)算量過(guò)大仍然是制約許多有效的ATR算法實(shí)時(shí)實(shí)現(xiàn)的個(gè)主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實(shí)時(shí)實(shí)現(xiàn)是一個(gè)很有潛力的研究領(lǐng)域，特別在地基和天基雷達(dá)信號(hào)處理系統(tǒng)中有廣闊的應(yīng)用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹(shù)形、星形、網(wǎng)孔和超立方體結(jié)構(gòu)等。樹(shù)形和星形網(wǎng)絡(luò)的優(yōu)點(diǎn)是網(wǎng)絡(luò)管理容易、數(shù)據(jù)通信進(jìn)尋徑簡(jiǎn)單；缺點(diǎn)是樹(shù)形網(wǎng)絡(luò)的根節(jié)點(diǎn)處理器和星形網(wǎng)絡(luò)的中央節(jié)點(diǎn)處理器的輸入/輸出吞吐量大，易造成通信瓶頸。所以樹(shù)形和星形網(wǎng)絡(luò)不適合ATR算法各個(gè)任務(wù)數(shù)據(jù)通信量較大的應(yīng)用場(chǎng)合。

　　在分布式多處理器并行系統(tǒng)中并行實(shí)現(xiàn)ATR算法目前還處于研究的初始階段，在編寫(xiě)并行算法程序應(yīng)當(dāng)重點(diǎn)考慮兩個(gè)方面：

　?。?）各處理器任務(wù)的均衡分配

　　在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多，只有合理地對(duì)眾多的處理器均衡地分配任務(wù)，才能最大地發(fā)揮并行系統(tǒng)的總體性能，提高并行系統(tǒng)的加速比。

　?。?）處理器節(jié)點(diǎn)間的高效通信

　　在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點(diǎn)對(duì)點(diǎn)通信。即兩個(gè)相鄰的處理器之間通過(guò)通信口通信。因此需要合理安排各個(gè)處理器節(jié)點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)中的位置，盡可能地縮短處理器節(jié)點(diǎn)間的通信路徑長(zhǎng)度，從而實(shí)現(xiàn)處理器節(jié)點(diǎn)間的高效數(shù)據(jù)通信。

　　3 在指令級(jí)并行DSP處理器上實(shí)現(xiàn)ATR算法

　　在單片DSP處理器內(nèi)通過(guò)多個(gè)功能單元的指令級(jí)并行（ILP）實(shí)現(xiàn)ATR算法的并行化處理，目前適合ATR算法實(shí)時(shí)處理的指令級(jí)并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個(gè)使用超長(zhǎng)指令字（VLIW）體系結(jié)構(gòu)的數(shù)字信號(hào)處理芯片。下面以TMS320C62x定點(diǎn)系列DSP為例說(shuō)明指令級(jí)并行的原理和ATR并行算法軟件開(kāi)發(fā)方法。

　　3.1 VLIW體系結(jié)構(gòu)

　　TMS320C62x的內(nèi)核結(jié)構(gòu)如圖1所示。內(nèi)核中的8個(gè)功能單元可以完全并行運(yùn)行，功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內(nèi)核采用VLIW體系結(jié)構(gòu)，單指令字長(zhǎng)32位，取指令、指令分配和指令譯碼單元每周期可以從程序存儲(chǔ)器傳遞8條指令到功能單元。這8條指令組成一個(gè)指令包，總字長(zhǎng)為256位。芯片內(nèi)部設(shè)置了專門(mén)的指令分配模塊，可以將每個(gè)256位的指令分配到8個(gè)功能單元中，并由8個(gè)功能單元并行運(yùn)行。TMS320C62x芯片的最高時(shí)鐘頻率可以達(dá)到200MHz。當(dāng)8個(gè)功能單元同時(shí)運(yùn)行時(shí)，該芯片的處理能力高達(dá)1600MIPS。

新聞中心

DSP在自動(dòng)目標(biāo)識(shí)別中的應(yīng)用

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)