3G系統(tǒng)中Turbo譯碼改進(jìn)及DSP實現(xiàn)

作者：時間：2011-01-24 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　2譯碼器實現(xiàn)的關(guān)鍵改進(jìn)與優(yōu)化

　　Turbo碼譯碼是一個復(fù)雜的過程，之所以這么說，除了算法本身復(fù)雜外，還有兩個主要的原因，一個是遞推計算過程中前、反向度量不斷增大給信號處理器帶來的麻煩，即經(jīng)常說的溢出；另一個是大存儲量需求。這里，就這兩個細(xì)節(jié)問題進(jìn)行討論和總結(jié)，并且給出詳細(xì)解決方案。

　　2.1狀態(tài)量度歸一化問題

　　由式(1)，式(2)可注意到，隨著計算的不斷深入，狀態(tài)量度值不斷增加，為防止計算溢出和減小硬件復(fù)雜度，必須對其進(jìn)行歸一化處理。一種方法是減去前一時刻狀態(tài)度量的最小值，這種方法在每個時刻都需要減法器和用于計算最小值的比較器，當(dāng)狀態(tài)數(shù)較多時，由此帶來的額外的時延和硬件消耗是不能忽略的。本算法采用一種十分有效的歸一化方法(以Ak(s)為例)，在每個計算時刻，判斷有沒有狀態(tài)度量值(A或B)大于某一門限值T，若有則所有節(jié)點的狀態(tài)度量值(A或B)都減去T，若沒有則保持原值不變。這樣便大大減少了減法器使用的次數(shù)，也無需計算最小值。由于所有的節(jié)點都減去了相同的值，因此式(5)的結(jié)果不會受到影響。T值不宜設(shè)置太大，但設(shè)置得太小，歸一化發(fā)生的很頻繁，會增加譯碼時延和硬件開銷。通過試驗仿真，若q代表狀態(tài)量度值的量化字長，則T設(shè)為2q-2為合適。

　　2.2 引入滑動窗減小存儲量由于Turbo碼譯碼算法的迭代特性，每一級Map譯碼器需要大量存儲器。在譯碼時引入滑動窗，能有效減少所需的存儲量。采用滑動窗的Map譯碼步驟為：每次譯碼過程被分為若干段以間隔L(假設(shè)滑動窗的長度為L，L《N)連續(xù)進(jìn)行，只需在對nL長的數(shù)據(jù)進(jìn)行前向處理后，每個反向子處理過程即可執(zhí)行，而未使用滑動窗時，需要對整個數(shù)據(jù)塊處理后才能進(jìn)行。實驗證明，滑動窗大小選擇7～8倍的約束長度時對誤碼率的性能影響幾乎可以忽略。本算法中約束長度為4，選擇窗口大小為32。下面給出采用滑動窗譯碼前后兩種算法存儲空間分配情況的比較。假設(shè)編碼幀長為L，B表示窗口長度，L為B的整數(shù)倍。

采用滑動窗譯碼前后兩種算法存儲空間分配情況的比較

　　按照表1，這個存儲空間為26L，當(dāng)L=1K時，為26K。如果我們采用分塊譯碼，按照表2，那么整個譯碼的存儲需求為20B+8L，B一般取編碼約束長度的5～10倍，對于8狀態(tài)編碼，取B=32，那么這個存儲空間為640+8L，與表1的26L相比要小的多。

采用滑動窗譯碼前后兩種算法存儲空間分配情況的比較

　　當(dāng)L=1K時，存儲空間只占原來的33.2％。當(dāng)編碼幀長L的取更大值時，存儲空間的節(jié)約更加可觀，比較得知采用滑動窗后，Turbo譯碼能夠大大節(jié)省硬件的存儲資源。

　　3 Turbo譯碼的DSP實現(xiàn)

　　3.1 TMS320C6416簡介

　　TM S320C6416是TI公司推出的功能強(qiáng)大的DSP產(chǎn)品，他采用先進(jìn)的VelociTI結(jié)構(gòu)，將超長指令字VLIW結(jié)構(gòu)和高并行性結(jié)合起來，通過增加指令級的并行性使其性能有了較大的飛躍。C6416的最高工作時鐘達(dá)到1 GHz，指令周期僅為1 ns，最大處理能力可以達(dá)到9 000 MIPS，比TMS320C62系列芯片性能高出15倍之多，是當(dāng)前市場上最先進(jìn)的定點數(shù)字信號處理器。

　　片內(nèi)有8個可完全并行運算的功能模塊(2個乘法器和6個算術(shù)邏輯單元)，他們分為相同的兩組，屬于兩個數(shù)據(jù)通道，每個數(shù)據(jù)通道與一組32個32位寄存器相連，不同組的兩個功能模塊之間的數(shù)據(jù)交換是通過兩個寄存器組之間的交叉總線實現(xiàn)。典型片內(nèi)資源還包括1 MB的片內(nèi)RAM和一個32位的外部存儲器接口，可以支持多類型RAM，包括同步隨機(jī)訪問存儲器(SDRAM)和同步突發(fā)靜態(tài)隨機(jī)存儲器SBSRAM等。 DMA控制器包括4個可編程通道和一個輔助通道，能夠在內(nèi)存、片內(nèi)輔助資源及外部器件之間以CPU的時鐘速率實現(xiàn)高速數(shù)據(jù)傳輸，這種傳輸發(fā)生在CPU運行后臺。CPU和DMA控制器對數(shù)據(jù)存儲器的操作可以按8位字節(jié)，16位半字或者32位字的長度進(jìn)行。

　　3.2 用DSP實現(xiàn)Turbo譯碼器的優(yōu)化措施和技術(shù)

　　TMS320C6416的特殊結(jié)構(gòu)對編譯器和軟件設(shè)計結(jié)構(gòu)提出了很高的要求，軟件的設(shè)計與優(yōu)化將成為整個系統(tǒng)性能的決定因素，代碼的高度并行性將是獲得超強(qiáng)性能的關(guān)鍵。采用流水線技術(shù)和功能模塊多重化技術(shù)是開發(fā)處理器的指令級并行性的兩個主要手段。C6416對指令獲取、指令分配、指令執(zhí)行、數(shù)據(jù)存儲等階段進(jìn)行了多級流水線的劃分，不同指令執(zhí)行的流水延遲也不相等，因此各種指令的安排要盡量不中斷指令流水執(zhí)行，同時，使盡可能多的功能模塊并行運行。

　　由于TMS320C6416芯片的結(jié)構(gòu)對于基于匯編語言的編程過于復(fù)雜，這里采用C語言編寫主程序。Turbo譯碼采用并行算法，為提高程序執(zhí)行效率，充分利用Max-Log-Map譯碼算法的結(jié)構(gòu)特點，對程序進(jìn)行寄存器級優(yōu)化：把Viusal C++實現(xiàn)的浮點算法改為定點算法，將前后向累積路徑度量計算的最內(nèi)層循環(huán)展開，合理分配寄存器，使指令中參與運算的寄存器盡量屬于同一個數(shù)據(jù)通道，以減少交叉數(shù)據(jù)通道沖突，對于訪問頻繁的變量，置成寄存器型。同時利用功能強(qiáng)大TMS320C6416的C語言編譯器和優(yōu)化器對程序進(jìn)行全程優(yōu)化，從而得到效率較高的代碼。

新聞中心

3G系統(tǒng)中Turbo譯碼改進(jìn)及DSP實現(xiàn)

評論

相關(guān)推薦

技術(shù)專區(qū)