FPGA/CPLD 的設(shè)計(jì)思想與技巧
乒乓操作
“ 乒乓操作 ” 是一個(gè)常常應(yīng)用于數(shù)據(jù)流控制的處理技巧,典型的乒乓操作方法如圖 1 所示。
乒乓操作的處理流程為:輸入數(shù)據(jù)流通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 將數(shù)據(jù)流等時(shí)分配到兩個(gè)數(shù)據(jù)緩沖區(qū),數(shù)據(jù)緩沖模塊可以為任何存儲(chǔ)模塊,比較常用的存儲(chǔ)單元為雙口 RAM(DPRAM) 、單口 RAM(SPRAM) 、 FIFO 等。在第一個(gè)緩沖周期,將輸入的數(shù)據(jù)流緩存到 “ 數(shù)據(jù)緩沖模塊 1” ;在第 2 個(gè)緩沖周期,通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 的切換,將輸入的數(shù)據(jù)流緩存到 “ 數(shù)據(jù)緩沖模塊 2” ,同時(shí)將 “ 數(shù)據(jù)緩沖模塊 1” 緩存的第 1 個(gè)周期數(shù)據(jù)通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 的選擇,送到 “ 數(shù)據(jù)流運(yùn)算處理模塊 ” 進(jìn)行運(yùn)算處理;在第 3 個(gè)緩沖周期通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 的再次切換,將輸入的數(shù)據(jù)流緩存到 “ 數(shù)據(jù)緩沖模塊 1” ,同時(shí)將 “ 數(shù)據(jù)緩沖模塊 2” 緩存的第 2 個(gè)周期的數(shù)據(jù)通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 切換,送到 “ 數(shù)據(jù)流運(yùn)算處理模塊 ” 進(jìn)行運(yùn)算處理。如此循環(huán)。
乒乓操作的最大特點(diǎn)是通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” 和 “ 輸出數(shù)據(jù)選擇單元 ” 按節(jié)拍、相互配合的切換,將經(jīng)過(guò)緩沖的數(shù)據(jù)流沒(méi)有停頓地送到 “ 數(shù)據(jù)流運(yùn)算處理模塊 ” 進(jìn)行運(yùn)算與處理。把乒乓操作模塊當(dāng)做一個(gè)整體,站在這個(gè)模塊的兩端看數(shù)據(jù),輸入數(shù)據(jù)流和輸出數(shù)據(jù)流都是連續(xù)不斷的,沒(méi)有任何停頓,因此非常適合對(duì)數(shù)據(jù)流進(jìn)行流水線式處理。所以乒乓操作常常應(yīng)用于流水線式算法,完成數(shù)據(jù)的無(wú)縫緩沖與處理。
乒乓操作的第二個(gè)優(yōu)點(diǎn)是可以節(jié)約緩沖區(qū)空間。比如在 WCDMA 基帶應(yīng)用中, 1 個(gè)幀是由 15 個(gè)時(shí)隙組成的,有時(shí)需要將 1 整幀的數(shù)據(jù)延時(shí)一個(gè)時(shí)隙后處理,比較直接的辦法是將這幀數(shù)據(jù)緩存起來(lái),然后延時(shí) 1 個(gè)時(shí)隙進(jìn)行處理。這時(shí)緩沖區(qū)的長(zhǎng)度是 1 整幀數(shù)據(jù)長(zhǎng),假設(shè)數(shù)據(jù)速率是 3.84Mbps , 1 幀長(zhǎng) 10ms ,則此時(shí)需要緩沖區(qū)長(zhǎng)度是 38400 位。如果采用乒乓操作,只需定義兩個(gè)能緩沖 1 個(gè)時(shí)隙數(shù)據(jù)的 RAM( 單口 RAM 即可 ) 。當(dāng)向一塊 RAM 寫(xiě)數(shù)據(jù)的時(shí)候,從另一塊 RAM 讀數(shù)據(jù),然后送到處理單元處理,此時(shí)每塊 RAM 的容量?jī)H需 2560 位即可, 2 塊 RAM 加起來(lái)也只有 5120 位的容量。
另外,巧妙運(yùn)用乒乓操作還可以達(dá)到用低速模塊處理高速數(shù)據(jù)流的效果。如圖 2 所示,數(shù)據(jù)緩沖模塊采用了雙口 RAM ,并在 DPRAM 后引入了一級(jí)數(shù)據(jù)預(yù)處理模塊,這個(gè)數(shù)據(jù)預(yù)處理可以根據(jù)需要的各種數(shù)據(jù)運(yùn)算,比如在 WCDMA 設(shè)計(jì)中,對(duì)輸入數(shù)據(jù)流的解擴(kuò)、解擾、去旋轉(zhuǎn)等。假設(shè)端口 A 的輸入數(shù)據(jù)流的速率為 100Mbps ,乒乓操作的緩沖周期是 10ms 。以下分析各個(gè)節(jié)點(diǎn)端口的數(shù)據(jù)速率。
A 端口處輸入數(shù)據(jù)流速率為 100Mbps ,在第 1 個(gè)緩沖周期 10ms 內(nèi),通過(guò) “ 輸入數(shù)據(jù)選擇單元 ” ,從 B1 到達(dá) DPRAM1 。 B1 的數(shù)據(jù)速率也是 100Mbps , DPRAM1 要在 10ms 內(nèi)寫(xiě)入 1Mb 數(shù)據(jù)。同理,在第 2 個(gè) 10ms ,數(shù)據(jù)流被切換到 DPRAM2 ,端口 B2 的數(shù)據(jù)速率也是 100Mbps , DPRAM2 在第 2 個(gè) 10ms 被寫(xiě)入 1Mb 數(shù)據(jù)。在第 3 個(gè) 10ms ,數(shù)據(jù)流又切換到 DPRAM1 , DPRAM1 被寫(xiě)入 1Mb 數(shù)據(jù)。
仔細(xì)分析就會(huì)發(fā)現(xiàn)到第 3 個(gè)緩沖周期時(shí),留給 DPRAM1 讀取數(shù)據(jù)并送到 “ 數(shù)據(jù)預(yù)處理模塊 1” 的時(shí)間一共是 20ms 。有的工程師困惑于 DPRAM1 的讀數(shù)時(shí)間為什么是 20ms ,這個(gè)時(shí)間是這樣得來(lái)的:首先,在在第 2 個(gè)緩沖周期向 DPRAM2 寫(xiě)數(shù)據(jù)的 10ms 內(nèi), DPRAM1 可以進(jìn)行讀操作;另外,在第 1 個(gè)緩沖周期的第 5ms 起 ( 絕對(duì)時(shí)間為 5ms 時(shí)刻 ) , DPRAM1 就可以一邊向 500K 以后的地址寫(xiě)數(shù)據(jù),一邊從地址 0 讀數(shù),到達(dá) 10ms 時(shí), DPRAM1 剛好寫(xiě)完了 1Mb 數(shù)據(jù),并且讀了 500K 數(shù)據(jù),這個(gè)緩沖時(shí)間內(nèi) DPRAM1 讀了 5ms ;在第 3 個(gè)緩沖周期的第 5ms 起 ( 絕對(duì)時(shí)間為 35ms 時(shí)刻 ) ,同理可以一邊向 500K 以后的地址寫(xiě)數(shù)據(jù)一邊從地址 0 讀數(shù),又讀取了 5 個(gè) ms ,所以截止 DPRAM1 第一個(gè)周期存入的數(shù)據(jù)被完全覆蓋以前, DPRAM1 最多可以讀取 20ms 時(shí)間,而所需讀取的數(shù)據(jù)為 1Mb ,所以端口 C1 的數(shù)據(jù)速率為: 1Mb/20ms=50Mbps 。因此, “ 數(shù)據(jù)預(yù)處理模塊 1” 的最低數(shù)據(jù)吞吐能力也僅僅要求為 50Mbps 。同理, “ 數(shù)據(jù)預(yù)處理模塊 2” 的最低數(shù)據(jù)吞吐能力也僅僅要求為 50Mbps 。換言之,通過(guò)乒乓操作, “ 數(shù)據(jù)預(yù)處理模塊 ” 的時(shí)序壓力減輕了,所要求的數(shù)據(jù)處理速率僅僅為輸入數(shù)據(jù)速率的 1/2 。
通過(guò)乒乓操作實(shí)現(xiàn)低速模塊處理高速數(shù)據(jù)的實(shí)質(zhì)是:通過(guò) DPRAM 這種緩存單元實(shí)現(xiàn)了數(shù)據(jù)流的串并轉(zhuǎn)換,并行用 “ 數(shù)據(jù)預(yù)處理模塊 1” 和 “ 數(shù)據(jù)預(yù)處理模塊 2” 處理分流的數(shù)據(jù),是面積與速度互換原則的體現(xiàn)!
評(píng)論