解析數(shù)字門禁可視對講中的音視頻同步原理

作者：時間：2010-07-16 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　Linux操作系統(tǒng)下音頻接口有/dev/dsp,/dev/audio,/dev/Mixer三種。前兩種的屬性基本相同，DSP是數(shù)字信號處理器（DigitalSignalProcessor）的簡稱，是用于數(shù)字采樣（sampling）和數(shù)字錄音（recording）的設(shè)備文件，它對于Linux下的音頻編程來講非常重要。向該設(shè)備寫數(shù)據(jù)即意味著激活聲卡上的D/A轉(zhuǎn)換器進(jìn)行放音，而向該設(shè)備讀數(shù)據(jù)則意味著激活聲卡上的A/D轉(zhuǎn)換器進(jìn)行錄音。目前許多聲卡都提供有多個數(shù)字采樣設(shè)備。/dev/audio屬性與dsp類似，但更多的用于sun的工作站中，為兼容性考慮，應(yīng)用中一般使用/dev/dsp作為音頻接口。mixer為混音器，也是聲卡設(shè)備中相當(dāng)重要的一部分，它的作用是將多個信號組合或者疊加到一起，但對應(yīng)用程序來說，這些都無需考慮，但可以通過這個接口調(diào)節(jié)聲卡播放時聲音的大小等參數(shù)。

　　無論是Linux下還是Windows下，聲卡的編程接口都是由聲卡驅(qū)動提供的，而驅(qū)動都是會考慮到時間機(jī)制的，其表現(xiàn)形式就是當(dāng)聲卡驅(qū)動沒有裝好時，使用播放器播放多媒體文件時聲音以極快的速度過去了，但是聲卡驅(qū)動裝好之后就很正常了，本文的音視頻同步解決方案即以此為基礎(chǔ)。

五、基于音頻時間機(jī)制的音視頻同步解決方案

　　與文件形式的多媒體不同的是，可視對講中音視頻流的源端是永遠(yuǎn)同步的。所以一種簡單的解決方案是發(fā)送端啟用獨立的音頻和視頻線程，進(jìn)行音視頻采集，采集后只管往外發(fā)送數(shù)據(jù)，接收端接到數(shù)據(jù)就分別解碼播放，從表面看，這種采用無同步機(jī)制多線程解決方案是可行的，但是忽略了一個問題，即音頻數(shù)據(jù)包和視頻數(shù)據(jù)包的大小。包的大小會影響網(wǎng)絡(luò)傳輸?shù)乃俣?。這種差別在網(wǎng)絡(luò)條件好的情況下顯示不出來，一旦遇到網(wǎng)絡(luò)擁塞或者其他情況就會變得很明顯。

　　根據(jù)對音頻采集和處理的敘述，我們知道，音頻的采集是有時間機(jī)制的。比如采樣率是8000，采樣位數(shù)是8，我們就可以算出采8K字節(jié)的數(shù)據(jù)所用的時間是1s，這樣音頻就可以按照自己的速度播放；而攝像頭每秒采集的幀數(shù)是相對固定的，如OV9650采集速度為平均每秒30幀，這樣即可以算出1/30秒（約為0.03333，具體精度可以根據(jù)要求決定）刷新一幀圖片，這種方式中只要保證源端音頻視頻的采集是同步的就可以，而門禁對講過程中，這種同步是原生的。

　　接收端接收到音頻數(shù)據(jù)，直接交給聲卡播放，當(dāng)前播放的音頻包的時間戳?xí)r間傳送給視頻線程；接收到視頻幀，則將其時間戳?xí)r間與當(dāng)前播放的音頻時間戳進(jìn)行比較，若未達(dá)到參考時間，則解碼播放；若達(dá)到參考時間，則說明該視頻幀滯后，丟棄該視頻幀，接收下一個視頻幀，循環(huán)往復(fù)，直到線程接收到結(jié)束命令停止；以上述音頻采樣率和采樣位數(shù)為例，視頻參考時間的計算方法為（以C語言格式的？號表達(dá)式表示）：

　　音頻時間戳?xí)r間+1/30>視頻時間戳?xí)r間?丟棄：播放；

　　在編程實現(xiàn)時，采集端和播放端的音頻和視頻可采用獨立的線程，并利用Qt的信號槽機(jī)制實現(xiàn)音視頻線程時間戳的傳遞，此處不再贅述。

六、方案測試

　　本同步方案在科技部中小型企業(yè)產(chǎn)業(yè)化創(chuàng)新基金項目“智能家居系統(tǒng)與控制器”中得到應(yīng)用，應(yīng)用結(jié)果表明，這種音視頻同步解決方案可以實現(xiàn)數(shù)字門禁可視對講的音視頻同步。

新聞中心

解析數(shù)字門禁可視對講中的音視頻同步原理

評論

相關(guān)推薦

技術(shù)專區(qū)