用ＴＭＳ３２０Ｃ６２０１實現多路ＩＴＵ－ＴＧ．７２８語音編碼標準

作者：時間：2006-05-07 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

摘要：ＩＴＵ－ＴＧ．７２８標準是國際電信聯盟于１９９２年制定的比特率為１６ｋｂｉｔ／ｓ的低延時ＣＥＬＰ類語音編碼器。在扼要介紹Ｇ．７２８編解碼算法原理和ＴＭＳ３２０Ｃ６２０１定點ＤＳＰ芯片的基礎上，詳細討論了Ｇ．７２８算法在ＴＭＳ３２０Ｃ６２０１上實時實現的硬件設計和軟件開發(fā)及優(yōu)化的關鍵技術。實驗結果表明，單片Ｃ６２０１能實現至少４路Ｇ．７２８語音編解碼。

本文引用地址：http://www.butianyuan.cn/article/242348.htm

關鍵詞：語音編碼ＩＴＵ標準ＤＳＰ

隨著數字語音壓縮技術的應用領域越來越廣，將高質量語音編碼算法實用化的需求也越來越迫切。１６ｋｂｉｔ／ｓＬＤ－ＣＥＬＰＩＴＵ－ＴＧ．７２８語音編碼標準，采用后向自適應技術，單向編碼延遲小于２ｍｓ，主觀評價ＭＯＳ分４．０，達到進入公眾通信網的需求，因而廣泛適用于數字衛(wèi)星系統(tǒng)、數字線路倍增設備（ＤＣＭＥ）、綜合業(yè)務數字網（ＩＳＤＮ）、公共交換電話網（ＰＳＴＮ）、話音存儲轉發(fā)系統(tǒng)等。但其算法復雜度高，運算量龐大，定點實現時，一路全雙工約需３０～４０ＭＩＰＳ。一般通用的數字信號處理器（ＤＳＰ），只能做到一片ＤＳＰ實現一路Ｇ．７２８語音編解碼。

ＴＭＳ３２０Ｃ６２０１是ＴＩ公司最新推出的Ｃ６Ｘ數字信號處理芯片系列中具代表性的定點處理芯片。由于內部含有具備超長指令字（ＶＬＩＷ）處理能力的ＣＰＵ和８個功能單元，故它可在一個時鐘周期內執(zhí)行多達８條指令。此外，１Ｍ位的片內ＲＡＭ、可擴展的外部ＲＡＭ接口和靈活的外圍設備使其成為實現具有高速運算的復雜處理系統(tǒng)的首選芯片。

本文研究了在單片ＴＭＳ３２０Ｃ６２０１芯片上實時實現ＩＴＵ－ＴＧ．７２８語音編碼標準，實驗結果表明，單片ＴＭＳ３２０Ｃ６２０１能實現至少４路語音編解碼。這對于擴展基于Ｇ．７２８標準的單路處理系統(tǒng)的功能或降低基于Ｇ．７２８標準的多路處理系統(tǒng)的系統(tǒng)復雜度都具有現實的意義。

文中將扼要介紹Ｇ．７２８編解碼算法和ＴＭＳ３２０Ｃ６２０１芯片，并詳細討論Ｇ．７２８算法在ＴＭＳ３２０Ｃ６２０１上的實時實現，最后給出結論。

１Ｇ.７２８語音編解碼原理簡介

圖１給出了Ｇ．７２８語音編解碼器的原理框圖。

編碼器中五個連續(xù)語音樣點形成一個５維語音矢量。激勵碼本中共有１０２４個５維的碼矢量，對于每個輸入語音矢量，編碼器利用合成分析法從碼本中搜索出最佳碼矢，然后將其標號選出，ＬＰ系數和增益均由后向自適應提取和更新。

解碼操作也是逐個矢量地進行。根據接收到的碼本標號，從激勵碼本中找到相應的激勵矢量，經過增益調整后得到激勵信號，將其輸入綜合濾波器合成語音信號，再經自適應后濾波處理，以增強語音的主觀感覺質量。

由于編碼器只緩沖５個樣點（一個語音矢量），在８ｋＨｚ的采樣率下，算法延遲只有０．６２５ｍｓ，加上處理延遲和傳輸延遲，故總的單向編碼延遲小于２ｍｓ。采用后向自適應技術，預測器參數在解碼端通過ＬＰ分析恢復，不再作為傳輸內容，編解碼器間僅需傳送最佳碼矢的索引值，故碼率為１０ｂｉｔ／０．６２５ｍｓ＝１６ｋｂｉｔ／ｓ。

２ＴＭＳ３２０Ｃ６２０１定點數字信號處理芯片簡介

ＴＭＳ３２０Ｃ６２０１是美國德州儀器公司（ＴＩ）最新推出的含多處理單元的Ｃ６Ｘ數字信號處理芯片中具有代表性的定點芯片。ＶＬＩＷ結構提供的高輸出量、高效開發(fā)工具保證的易用性、以及可接受的價格，使得ＴＭＳ３２０Ｃ６２０１成為高速運算的理想選擇。以下從硬件結構和軟件資源兩方面，簡要介紹ＴＭＳ３２０Ｃ６２０１芯片。

２.１Ｃ６２０１的硬件結構

２.１.１ＣＰＵ

采用了ＶｅｌｏｃｉＴＩ的ＶＬＩＷ結構，因而在每個時鐘周期內最多可并行執(zhí)行八條３２位寬（一個字長）的指令，在２００ＭＨｚ的主頻下可以得到１６００ＭＩＰＳ的高處理速度。ＣＰＵ中包括了兩套對稱的運算單元（Ｌ，Ｓ，Ｍ，Ｄ）和相應的兩套寄存器組，每組有１６個３２位寬的寄存器。

２.１.２存儲空間

Ｃ６２０１的地址總線為３２位，尋址范圍達到４ＧＢ。存儲空間可分為四部分：片內程序空間、片內數據空間、外部存儲空間和內部外圍設備空間，可通過對五個ＢＯＯＴＭＯＤＥ引腳的靈活設置設定各空間的地址范圍。片內數據空間分成四個８Ｋ×１６的交織塊，使得ＣＰＵ可同時訪問數據ＲＡＭ的兩個塊而不會發(fā)生沖突。片內程序空間可設為Ｃａｃｈｅ，存儲經常使用的代碼，減少片外訪問次數，從而提高程序運行速度。

２.１.３外設

Ｃ６２０１的外圍設備包括ＤＭＡ控制器、主機接口（ＨＰＩ）、中斷選擇等。兩個多通道緩存串行口（ＭｃＢＳＰ，除多通道、雙緩存外，還支持多種數據格式、硬件Ａ／μ率壓擴、位時鐘和幀時鐘的靈活編程。

２．２Ｃ６２０１的軟件資源

２．２．１豐富的指令

Ｃ６２０１的指令集共有五十余條指令，大部分是單周期的，可完成數據傳輸、算術邏輯運算和程序控制等功能。指令支持８／１６／３２位數據存取，給不同結構的數據操作帶來方便。由于多處理單元的采用，在無資源沖突下，Ｃ６２０１最多可并行執(zhí)行８條基本指令。

２．２．２流水線操作

流水線操作和超長指令字是Ｃ６２０１的高性能特點。其指令執(zhí)行可分為四個步驟：取指（Ｆｅｔｃｈ）、指令拆裝（Ｄｉｓｐａｔｃｈ）、譯碼（Ｄｅｃｏｄｅ）、執(zhí)行（Ｅｘｅｃｕｔｅ）。流水線操作即指以上四個步驟的并行操作。由于引入了多單元結構和超長指令字，所以和常見的數字處理芯片相比，多了一個指令拆裝的過程。

２．２．３靈活的尋址方式

Ｃ６２０１支持多種尋址方式，如寄存器尋址、直接尋址、短立即數尋址、長立即數尋址和相對尋址。此外，它還提供循環(huán)尋址方式，適用于相關和卷積運算中的存儲器尋址。

３Ｇ.７２８在ＴＭＳ３２０Ｃ６２０１上的實時實現

３．１硬件結構

由上面介紹的ＴＭＳ３２０Ｃ６２０１的結構特點可見，以Ｃ６２０１為核心器件，輔以相應的輸入輸出電路，可完成對單路語音信號的實時編解碼工作，同時具備多路（如Ｔ１／Ｅ１一次群）語音信號的輸入輸出接口。

本文應用了ＴＩ公司的ＴＭＳ３２０Ｃ６２０１ＥＶＭ板。板上配有單片ＴＭＳ３２０Ｃ６２０１和與串口ＭｃＢＳＰ０連接的１６位Ａ／Ｄ芯片ＣＳ４２３１。ＥＶＭ板通過ＩＳＡ總線與ＰＣ機相連，啟動時由ＰＣ機將程序裝載入Ｃ６２０１的片內存儲空間，在Ｃ６２０１全速運行時，ＰＣ機可以查詢其運行狀態(tài)，讀取壓縮后的Ｇ．７２８碼流，或送入待解碼的Ｇ．７２８碼流。串口０接ＣＳ４２３１，用于接收和發(fā)送模擬信號；串口１用于接收和發(fā)送已壓縮的Ｇ．７２８碼流，因此系統(tǒng)可仿真實現單路Ｇ．７２８語音編解碼。通過進一步對算法復雜度的分析，可判斷多路Ｇ．７２８編解碼的實現能力。

３．２軟件開發(fā)

編解碼軟件采用定點算法，用標準ＡＮＳＩＣ語言和ＴＭＳ３２０Ｃ６２０１匯編語言混合編制完成。軟件包括主處理程序和中斷服務程序，流程圖如圖２所示。

在編程中，需注意以下幾點：

（１）雙緩沖區(qū)的運用

為實時處理輸入語音和合成語音，避免數據覆蓋，必須設置兩個雙緩沖區(qū)。對編碼過程而言，當串口將語音信號寫入輸入緩沖區(qū)Ａ時，編碼器處理輸入緩沖區(qū)Ｂ中已存儲的５個語音樣點；同理，對解碼過程，當串口送出輸出緩沖區(qū)Ａ’中合成語音時，解碼器的輸出結果寫入緩沖區(qū)Ｂ’。在中斷程序中，計數判斷何時切換相應緩沖區(qū)。

（２）數據精度的處理

Ｃ６２０１是定點ＤＳＰ芯片，為確保運算精度和防止數據溢出，在實現時主要采用了兩種方法：一是對某些精度要求較高的運算，將計算的中間變量采用３２位來表示；二是對于幅度范圍變化比較大的變量或數組，如激勵增益、５０階杜賓算法的自相關數組等，采用標量浮點或塊浮點表示，用一個字存儲使該數或數組歸一化所需的左移位數（ＮＬＳ），其余字存儲歸一化后的尾數。

（３）存儲空間的分配

Ｃ６２０１１Ｍ位的片內存儲區(qū)包括６４Ｋｂｙｔｅ程序空間和６４Ｋｂｙｔｅ數據空間，足夠單路Ｇ．７２８編解碼算法的使用。但若應用于多路語音處理，則需謹慎分配存儲空間。由于編解碼程序、常數表格等均可公用，多路應用主要考慮數據空間的使用。對臨時變量、數組等采用公共域（ＵＮＩＯＮ）分時存儲技術，能有效提高存儲空間的利用率，確保全部數據都在片內處理。

（４）計算量的均衡

Ｃ６２０１的高速運算能力，使實現Ｇ．７２８編解碼算法不再需要考慮運算量的均衡。但若考慮到與其它實時性要求高的控制處理模塊協調工作，則仍需按標準中介紹的方法均衡運算量。

３.３軟件優(yōu)化

ＴＭＳ３２０Ｃ６２０１的代碼開發(fā)流程與傳統(tǒng)ＤＳＰ截然不同，它是一個不斷調整Ｃ代碼與線性匯編代碼比例的過程，力求在性能與開發(fā)周期上尋得最佳平衡點。代碼開發(fā)有三步：

第一步，在通用的Ｃ平臺上開發(fā)ＡＮＳＩＣ代碼，調試通過后不做任何變化地移植到Ｃ６２０１開發(fā)平臺上，由Ｃ編譯器完成所有的優(yōu)化。利用測試工具判斷代碼性能是否達到要求，從而決定是否需要后續(xù)的優(yōu)化步驟。這一階段，開發(fā)者不需要對ＤＳＰ有所了解，開發(fā)容易，但Ｃ編譯器優(yōu)化后的代碼并行性差，未能充分利用Ｃ６２０１獨特的硬件結構和軟件資源，運行效率低。

第二步，優(yōu)化Ｃ代碼。在此階段，開發(fā)者應該根據Ｃ６２０１的特點，如充分利用數據寬度、使用內在函數等，對Ｃ代碼加以改進。這一階段要求開發(fā)者了解Ｃ６２０１ＤＳＰ并掌握常用的技巧。經過此步優(yōu)化后，代碼的效率將大幅度提高。

第三步，編寫線性匯編代碼。當上一步的優(yōu)化仍不能滿足要求時，就必須把那些對效率影響重大的模塊抽取出來，改由線性匯編語言實現。在這一階段，編程者一定要對Ｃ６２０１ＤＳＰ有深入的了解并具備一定的編程經驗，才能較好地解決諸如資源分配、消除數據的關聯性等關鍵問題。此步優(yōu)化難度較大，但運用于核心模塊，能顯著提高代碼的并行性。

在ＴＭＳ３２０Ｃ６２０１優(yōu)化Ｇ．７２８代碼過程中，主要應用了以下技巧：

（１）資源分配的技巧

Ｃ６２０１的８個功能單元能并行處理，因此在一個算法中用得最多的那個運算單元會構成瓶頸。最常發(fā)生的是內存訪問瓶頸，循環(huán)展開是有效的解決方法。充分利用數據寬度，將半字（１６ｂｉｔ）訪問改用字（３２ｂｉｔ）訪問就是簡單而又有效的循環(huán)展開技術。

循環(huán)展開是提高資源利用率的主要方法，但它所引起的代碼空間膨脹也是驚人的。在編程時，必須在程序空間和程序速度這一對矛盾中作出合適的折衷。

（２）數據關聯性簡化的技巧

數據關聯性是并行編程中的最大障礙，有兩種典型情況：

① 存在循環(huán)反饋路徑

此種路徑常見于遞歸算法中。當下一次的循環(huán)中必須讀取上一次循環(huán)中產生的數據，就形成了一條循環(huán)反饋路徑。由于反饋路徑不可能消除，唯一的方法是盡量縮短它，減少不可并行的操作。

② 生存期過長

當變量生存期過長時，軟件流水化會導致誤操作。有兩種解決方法：一是循環(huán)展開，因為循環(huán)展開會增加循環(huán)核心周期數；二是用ＭＶ指令增加一個中間變量，使原變量的生存期由兩個變量共同承擔。

（３）解決存儲空間沖突的技巧

此沖突是引起Ｃ６２０１執(zhí)行速度急劇下降的主要原因，但在編程時卻很容易被忽略。前面介紹的Ｃ６２０１的存儲區(qū)結構，６４Ｋｂｙｔｅ的片內數據空間分成四塊，每一塊在每個周期只能被訪問一次，否則就會產生存儲空間沖突。執(zhí)行時，流水線會自動暫停一個周期。

在調試、優(yōu)化程序的過程中，隨時觀察有無流水線沖突，通過調整存儲空間分配，可基本解決這一問題。

３.４實驗結果

表１給出了Ｇ．７２８編解碼算法實時實現時所需的計算量和內存占用狀況。在２００ＭＨｚ主頻下，ＴＭＳ３２０Ｃ６２０１芯片處理能力為２００ＭＣＰＳ（ＭｉｌｌｉｏｎＣｙｃｌｅｐｅｒＳｅｃｏｎｄ，在最充分發(fā)揮并行潛力時，可達到１６００ＭＣＰＳ（２００×８＝１６００）。由表中可見，Ｇ．７２８算法實現編碼需２４．４ＭＣＰＳ，解碼需１４．３ＭＣＰＳ，程序空間和數據空間分別占用５５．８Ｋｂｙｔｅ和１１．４Ｋｂｙｔｅ，故單片Ｃ６２０１可實現四路Ｇ．７２８語音編解碼。

表1 G.728編解碼復雜度分析

編碼復雜度	解碼復雜度	程序空間	數據空間
24.4MCPS	14.3MCPS	55.8Kbyte	11.4Kbyte

對編解碼器還進行了實時處理語音性能的實驗。以男生、女生、音樂等多種音源輸入的實驗表明，系統(tǒng)具有良好的適應性。非正式試聽測試，恢復語音保留了較好的講話人特征，具有較高的自然度和可懂度。

ＩＴＵ－ＴＧ．７２８標準在較低碼率下實現了低延時、高質量的語音編解碼，在公眾通信網中有著廣泛的應用。本文在新型ＴＭＳ３２０Ｃ６２０１定點ＤＳＰ芯片上設計了基于Ｇ．７２８的實時語音編解碼系統(tǒng)。由于充分發(fā)揮了Ｃ６２０１強大的運算能力和系統(tǒng)接口能力，系統(tǒng)構造簡單，運行效率高，單片Ｃ６２０１至少能實現四路Ｇ．７２８語音編解碼。

新聞中心

用ＴＭＳ３２０Ｃ６２０１實現多路ＩＴＵ－ＴＧ．７２８語音編碼標準

評論

相關推薦

技術專區(qū)