關(guān) 閉

新聞中心

EEPW首頁 > 工控自動化 > 設(shè)計應(yīng)用 > 淺析MPEG-4技術(shù)及應(yīng)用綜述

淺析MPEG-4技術(shù)及應(yīng)用綜述

作者: 時間:2012-10-10 來源:網(wǎng)絡(luò) 收藏

一. 概述

本文引用地址:http://butianyuan.cn/article/202171.htm

關(guān)于圖象視頻壓縮已有n×384kbps電視會議H.120建議、p×64kbps視頻編碼標(biāo)準(zhǔn)H.261、 連續(xù)色調(diào)靜止圖 象壓縮標(biāo)準(zhǔn)JPEG、PSTN等低比特率活動圖象壓縮標(biāo)準(zhǔn)H.263。1988年ISO與CCITT成立活動圖象專家組(MovingPictureExpertsGroup),研究數(shù)字存儲媒體上的活動圖象及其伴音的編碼表示,1992年通過1.5Mbps編碼標(biāo)準(zhǔn)-1,1994年通過2Mbps、30Mbps高質(zhì)量視頻音頻編碼標(biāo)準(zhǔn)-2。以上標(biāo)準(zhǔn)均偏重于某(幾)個應(yīng)用領(lǐng)域,交互性較差,至多允許視頻序列可變速度的雙向播放,可重用性只限于矩形視頻區(qū)域及其相關(guān)音頻的線性片段,無法在同一場景集成自然信息與合成信息,不能提供對各種網(wǎng)絡(luò)的一致性訪問,容錯性、靈活性和可擴(kuò)展性比較差。

MPEG于1991年5月提出關(guān)于視頻音頻編碼的MPEG-4項目,設(shè)系統(tǒng)、音頻、視頻、需求、實現(xiàn)研究、測試及自然合成混合編碼(SNHC)子組,1998年11月成為國際標(biāo)準(zhǔn)。MPEG-4提供更強(qiáng)的交互能力。場景中的每個對象獨立編碼,用戶可以選擇性地與其中某(幾)個對象交互,具有良好的重用性。重新組合音視對象AVO(AudioVisualObject)構(gòu)造新場景,可以集成各種對象,無縫地集成自然信息與合成信息,實時信息與存儲信息,AVO可以是單/雙/多聲道音頻信息、單/雙/多鏡頭2D/3D視頻信息。可以透明地訪問信息,通過各種網(wǎng)絡(luò)傳輸?shù)男畔⒆罱K映射為本地信息,整個過程給用戶的感覺就如同訪問本地信息。而且允許基于內(nèi)容(比特率、分辨率、幀率、防錯保護(hù)和解碼優(yōu)先級)的可伸縮性和服務(wù)質(zhì)量(QoS)參數(shù),更加靈活,可擴(kuò)展,充分考慮未來技術(shù)的發(fā)展及應(yīng)用需求,將解碼器可編程能力分為:不可編程的標(biāo)準(zhǔn)工具集合(Flex-0);由標(biāo)準(zhǔn)化工具及其接口靈活配置的算法(Flex-1);多種工具構(gòu)成可能算法的標(biāo)準(zhǔn)化可擴(kuò)展機(jī)制(Flex-2)。

二. 技術(shù)部分

2.1 MPEG-4標(biāo)準(zhǔn)概要

MPEG-4引入了對象基表達(dá)(object-based representation)的概念,用來表達(dá)視聽對象A VO(audio/visual objects);MPEG-4擴(kuò)充了編碼的數(shù)據(jù)類型,由自然數(shù)據(jù)對象擴(kuò)展到計算機(jī)生成的合成數(shù)據(jù)對象,采用合成對象/自然對象混合編碼SNHC(Synthetic/Natural Hybrid Coding)算法;在實現(xiàn)交互功能和重用對象中引入了組合、合成和編排等重要概念。MPEG-4中制定了一個稱為傳輸多媒體集成框架DMIF(Delivery Multimedia Integration Framework)的會話協(xié)議,它用來管理多媒體數(shù)據(jù)流。該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol)類似,其差別是:FTP返回的是數(shù)據(jù),而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。DMIF覆蓋了三種主要技術(shù):廣播技術(shù),交互網(wǎng)絡(luò)技術(shù)和光盤技術(shù)。

MPEG-4將應(yīng)用在移動通信和公用電話交換網(wǎng)PSTN(public switched telephone network )上,并支持可視電話(videophone)、電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場合下的應(yīng)用。

MPEG-4的標(biāo)準(zhǔn)名是Very-low bitrate audio-visual coding (甚低速率視聽編碼)。截止到1998年9月,已作為國際標(biāo)準(zhǔn)草案DIS (Draft International Standard)的MPEG-4文件有5個部分,它們是:

① MPEG-4系統(tǒng)標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding - Part1:  Systems。

② MPEG-4電視圖象標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding -Part 2: Video。

③ MPEG-4聲音標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding - Part3: Audio。

④ MPEG-4一致性測試標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding -Part 4: Conformance Testing。

⑤ MPEG-4參考軟件,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding - Part5: Reference software

⑥ MPEG-4傳輸多媒體集成框架,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding - Part 6: Delivery Multimedia Integration Framework (DMIF)。

2.2 MPEG-4 標(biāo)準(zhǔn)的范圍和特點

MPEG-4標(biāo)準(zhǔn)提供了一整套技術(shù)來滿足作者的需要、服務(wù)提供商和最終用戶的偏好。

*對于作者來講,MPEG-4使得基于內(nèi)容的產(chǎn)品成為現(xiàn)實,這種產(chǎn)品具有大得多的可用性,具有比現(xiàn)在的獨立技術(shù)例如數(shù)字電視、動態(tài)圖象、WWW網(wǎng)頁及其擴(kuò)展技術(shù)所能提供的更大的靈活性。而且,現(xiàn)在有可能進(jìn)行更好的管理和著作權(quán)的保護(hù)。

*對于網(wǎng)絡(luò)服務(wù)提供商來說,MPEG-4提供了透明的信息,它能夠在相對標(biāo)準(zhǔn)的實體的幫助下解釋并翻譯成每個網(wǎng)絡(luò)相應(yīng)的本地信號訊息。不僅預(yù)先考慮到服務(wù)質(zhì)量(QoS),MPEG-4還為不同的媒介提供一個通用的QoS描述符。為每種媒質(zhì)從QoS的參數(shù)設(shè)置到網(wǎng)絡(luò)服務(wù)質(zhì)量的精確翻譯超出了MPEG-4的范圍,留給了網(wǎng)絡(luò)提供商。端到端的發(fā)送MPEG-4媒質(zhì) QoS描述符就能夠在異種網(wǎng)絡(luò)間進(jìn)行傳輸優(yōu)化。

* 對于最終用戶來說,MPEG-4在作者所置的限制內(nèi)提供更高水平的內(nèi)容交互。它也為新興網(wǎng)絡(luò),包括那些應(yīng)用相對低速率的網(wǎng)絡(luò)以及移動網(wǎng)絡(luò)提供多媒體服務(wù)。MPEG主頁上的一份MPEG-4應(yīng)用文檔描述了很多最終用戶應(yīng)用,包括交互式多媒體廣播和移動通信。

對所有相關(guān)方面,MPEG力求避免大量的所有權(quán)、非交錯格式和播放器的使用。為實現(xiàn)以上目標(biāo),MPEG-4提供標(biāo)準(zhǔn)化方式來:

1. 代表語音、視覺或語音視覺內(nèi)容的單元,稱為媒體對象。這些媒體對象可能來自自然或合成源;這就是說他們能夠被相機(jī)或話筒所記錄,或者由計算機(jī)產(chǎn)生;

2. 描述這些對象的組合以創(chuàng)建構(gòu)成語音視頻屏幕的組合媒體對象;

3. 復(fù)用和同步與媒體對象相關(guān)的數(shù)據(jù),這樣他們能在提供了適于特殊媒體對象特性的QoS的網(wǎng)絡(luò)通道上傳輸;而且

4. 與接收端產(chǎn)生的語音視頻景象交互。

2.2.1 媒體對象的編碼表示

MPEG-4 語音視頻場景由一些媒體對象組成,以分層方式組織起來。在這層次結(jié)構(gòu)中,我們找到了基本的媒體對象,例如:

* 靜態(tài)圖象(例如固定背景)

* 視頻對象(例如正在說話的人-沒有背景)

* 語音對象(例如和這個人相關(guān)的聲音)

MPEG-4把這樣大量的能夠表現(xiàn)2-D或3-D自然和合成內(nèi)容類型的基本媒體對象標(biāo)準(zhǔn)化。附加在上面提到的、除媒體對象之外,MPEG-4定義了如下對象的編碼表示法,

* 文本和圖形;

* 文本和圖形;

* 用來合成語言和運動頭部的正在講話的合成的頭部和相關(guān)的文本;

* 合成的聲音

編碼形式的媒體對象是由在語音視頻景象中處理該對象的描述元素和相關(guān)流數(shù)據(jù)組成。重要的是在編碼形式下每個媒體對象都能獨立與它的環(huán)境或背景獨立表現(xiàn)??紤]到要求的功能,這種媒體對象的編碼表示法是盡可能的高效的。這些功能包括差錯魯棒性、易釋性和可編輯性。

2.2.2 媒體對象的組合

基本媒體對象相應(yīng)于描述樹中的葉子,而組合媒體對象包含了整個子樹。例如:相應(yīng)于正在說話的人的視頻對象和相應(yīng)的聲音捆綁在一起形成一個新的組合媒體對象,包含了那個人的語音和視頻部分。

* 這樣的組成允許作者構(gòu)建復(fù)雜的景象,使客戶能處理有意義的對象。

* 更普遍地,MPEG-4提供了一種描述景象的標(biāo)準(zhǔn)化方式,例如允許:

* 在給定坐標(biāo)系內(nèi)隨處放置媒體對象;

* 應(yīng)用變換來改變媒體對象的幾何和聲學(xué)表現(xiàn);

* 整合基本媒體對象以形成組合媒體對象;

* 應(yīng)用流數(shù)據(jù)于媒體對象以更改屬性(例如聲音,屬于某對象的移動中的文本,驅(qū)動合成面孔的動態(tài)參數(shù)成面孔的動態(tài)參數(shù);

* 交互式地改變用戶在景象中的任何視聽點。

景象描述是建立在來自于對象合成結(jié)點的結(jié)構(gòu)和功能意義上的虛擬現(xiàn)實(VRML)的一些基本概念而且擴(kuò)展為完全實現(xiàn)上述特點。

2.2.3 媒體對象流數(shù)據(jù)的描述和同步

一個MPEG-4影音場景的例子媒體對象可能需要在一個或多個基本流中傳輸?shù)牧鲾?shù)據(jù)。對象描述符把與媒體對象相關(guān)的所有流中區(qū)分開來。這就允許處理分層編碼數(shù)據(jù)、內(nèi)容變化信息的聯(lián)系(稱?quot;對象內(nèi)容信息)和相關(guān)的知識產(chǎn)權(quán)。每個流自身由一套配置信息的描述符所區(qū)別,例如用來決定需要編碼源和編碼的時間信息精度。而且描述符可以攜帶傳輸需要的QoS的線索(例如最大位速率、位差錯速率、優(yōu)先級等)?;玖鞯耐绞峭ㄟ^基本流內(nèi)單個訪問單元的時標(biāo)實現(xiàn)的。同步層管碚庋的訪問單元和時標(biāo)的識別。獨立于媒體類型之外,該層允許識別出訪問單元的類型恢復(fù)媒體對象或景象描述的時基,而且能在其間實現(xiàn)同步。該層的語法可以多種方式配置,允許在許多系統(tǒng)中使用?

2.2.4 流數(shù)據(jù)的傳輸

在不同QoS的網(wǎng)絡(luò)中從源到目的的流信息的同步傳輸,是由上述的同步層和包含兩子層的復(fù)合傳輸層確定的。第一個復(fù)用層根據(jù)MPEG-4標(biāo)準(zhǔn)的Part6中的DMIF規(guī)范進(jìn)行管理。這種復(fù)用可在MPEG定義的FlexMux工具中體現(xiàn),該工具允許以低復(fù)用費用組合基本流(ESS)。例如該層的復(fù)用可用來組合相似QoS需求的基本流,減少網(wǎng)絡(luò)連接數(shù)或者端-端延遲,TransMux(傳輸復(fù)用)層搭建了提供匹配需求QoS的傳輸服務(wù)的層。MPEG-4僅確定了該層的接口而具體的數(shù)據(jù)包和控制信號的規(guī)劃必須與各傳輸協(xié)議上有權(quán)的實體進(jìn)行協(xié)商。任何現(xiàn)存的合適的傳輸協(xié)議棧,例如(RTP)/UDP/IP、(AAL5)/ATM或者M(jìn)PEG-2在適合鏈路層上的傳輸流都可能成為TransMux的實例。選擇權(quán)留給了最終用戶和服務(wù)提供商,而允許MPEG-4用于廣泛的運行環(huán)境中。

FlexMux復(fù)用工具的使用是可選的,如果下層的TransMux實例提供了所有要求的功能,該層必須為空。而同步層總是存在的。以下是可行的:

1. 識別訪問單元,傳輸時標(biāo)和時鐘參考信息以及檢測數(shù)據(jù)丟失;

2. 傳輸控制信息以實現(xiàn):

* 為每個基本流和FlexMux流指示需要的QoS;

* 翻譯這樣的QoS需求為實際網(wǎng)絡(luò)資源;

* 連接基本流到媒體對象;

* 轉(zhuǎn)換基本流的映射為FlexMux和TransMux通道。

部分控制功能在和DMIF框架這樣的傳輸控制實體聯(lián)結(jié)后才可實現(xiàn)。

2.2.5 與媒體對象交互

總體來說用戶看到的是依據(jù)作者設(shè)計組合而成的影象。然而,用戶和影象交互的可能性依賴于作者所允許的自由度。用戶可能被允許進(jìn)行的操作包括:

* 改變景象的視/聽點,例如在景象中漫游;

* 把景象中的對象拖到不同的位置上;

* 點擊特定對象以觸發(fā)一系列事件,例如開始或終止視頻流;

* 多語言音軌時選擇想要的語言。

更復(fù)雜的動作也能被觸發(fā),例如一個虛擬的電話鈴響,用戶接聽并建立通信鏈路。

2.2.6 知識產(chǎn)權(quán)的管理和識別

能夠在MPEG-4媒體對象中識別出知識產(chǎn)權(quán)是重要的。為支持這一點,MPEG與不同制造商的代表就語法定義和工具進(jìn)行合作。MPEG-4通過存儲唯一標(biāo)識來實現(xiàn)識別,該標(biāo)識由國際編號系統(tǒng)公布。該數(shù)字可用于識別媒體對象的當(dāng)前所有者。因為并非所有的內(nèi)容都由此數(shù)字識別,MPEG-4 Version1提供用關(guān)鍵值對來識別知識產(chǎn)權(quán)的可能。而且MPEG-4為想使用控制訪問知識產(chǎn)權(quán)的系統(tǒng)的人提供一個緊密結(jié)合進(jìn)系統(tǒng)層的標(biāo)準(zhǔn)化系統(tǒng)的人提供一個緊密結(jié)合進(jìn)系統(tǒng)層的標(biāo)準(zhǔn)化接口。通過該接口,所有權(quán)控制系統(tǒng)可輕易地與解碼器的標(biāo)準(zhǔn)化部分組合。

2.3 MPEG-4 標(biāo)準(zhǔn)的技術(shù)細(xì)節(jié)

顯示了從網(wǎng)絡(luò)(或存儲設(shè)備)來的流作為TransMux流,復(fù)用為FlexMux流并傳給適當(dāng)?shù)墨@取基本流的FlexMux解復(fù)器的?;玖鳎‥S)被解析并傳遞給適當(dāng)?shù)慕獯a器。解碼是從編碼形式中恢復(fù)出AV對象中的數(shù)據(jù)并進(jìn)行必要的操作以重建初始的AV對象以備在適當(dāng)設(shè)備上演示。重建的AV對象可為影象演示中的潛在需要組合成層。解碼的AV對象和影象描述信息都被用來組合作者所描述的影象。用戶可在作者允許的程度上與最終演示展現(xiàn)的影象交互。

2.3.1 傳輸多媒體集成框架DMIF

傳輸多媒體集成框架DMIF(Delivery Multimedia Integration Framework)是在通用傳輸技術(shù)上的管理多媒體流的會話協(xié)議。原理上與FTP相似,唯一也是基本的差別是FTP返回數(shù)據(jù),DMIF返回獲?。鳎?shù)據(jù)的指針。類似地,當(dāng)DMIF運行時,第一個動作是和遠(yuǎn)端建立會話。然后,選擇流并發(fā)要求(request)流注,DMIF對端將返回連接流注點的指針,并建立連接。

MPEG-4終端(接收側(cè))的主要部分與FTP相比,DMIF既是框架又是協(xié)議。DMIF提供的功能是由稱為DMIF應(yīng)用接口(DAI)的接口來表達(dá),并翻譯為協(xié)議消息。這些協(xié)議消息可能基于運行的網(wǎng)絡(luò)而不同。服務(wù)質(zhì)量同樣為DMIF設(shè)計所考慮,DAI允許DMIF用戶為所需的流指定要求。這樣就要求DMIF執(zhí)行時保證要求得以實現(xiàn)。DMIF規(guī)格提供了在幾個新網(wǎng)絡(luò)類型,例如Internet上實現(xiàn)該任務(wù)的線索。

DAI也用來訪問廣播介質(zhì)和本地文件,這意味著在多傳輸技術(shù)上定義訪問多媒體內(nèi)容的單一、統(tǒng)一的接口 。

因此,我們適合這樣說,DMIF的集成框架涵蓋了三種主要技術(shù),交互網(wǎng)絡(luò)技術(shù)、廣播技術(shù)和磁盤技術(shù)。DMIF如此以至依賴于DMIF通信的應(yīng)用不必關(guān)心底層的通信方法。DMIF執(zhí)行以處理關(guān)于簡單應(yīng)用接口的傳輸技術(shù)細(xì)節(jié)。應(yīng)用通過DMIF應(yīng)用接口訪問數(shù)據(jù),無論該數(shù)據(jù)來自廣播源、本地存儲器或遠(yuǎn)端服務(wù)器。在所有的情況下本地應(yīng)用只通過統(tǒng)一接口(DAI)交互。不同的DMIF實例考慮到采用傳輸技術(shù)的特性把本地應(yīng)用翻譯為送至遠(yuǎn)端應(yīng)用的特定消息。類似地,(從遠(yuǎn)端服務(wù)器、廣播網(wǎng)絡(luò)或消息。類似地,(從遠(yuǎn)端服務(wù)器、廣播網(wǎng)絡(luò)或本地文件)進(jìn)入終端的數(shù)據(jù)通過DAI統(tǒng)一地傳給本地應(yīng)用。不同的、特定的DMIF實例被管理各種特定傳輸技術(shù)的應(yīng)用喚醒,雖然這對于應(yīng)用是通明的,它只是和單一的DMIF過濾器交互。該過濾器負(fù)責(zé)為特定DAI向正確的實例粗定向。DMIF不規(guī)定該機(jī)制,只假設(shè)它是運行的。這在該圖的陰影框內(nèi)有所強(qiáng)調(diào),目的是澄清DMIF應(yīng)用的邊界,此時DMIF通信構(gòu)架定義了若干模塊,實際的DMIF應(yīng)用只需要在邊界上保持他們的表現(xiàn)。這樣,通過例如基于IP的或ATM的網(wǎng)絡(luò)訪問的真實的遠(yuǎn)程應(yīng)用,和從廣播源或磁盤獲取內(nèi)容的模擬遠(yuǎn)端制造者應(yīng)用。然而在前一種情況中,兩實體間交換的信息必須規(guī)范定義以確?;ゲ僮餍?。在后一種情況中,兩個DMIF實體間的接口和模擬遠(yuǎn)端應(yīng)用在單一實現(xiàn)中不需考慮該規(guī)范。對于廣播和本地存儲,該圖展示了一條本地DMIF、遠(yuǎn)端DMIF(模擬)、遠(yuǎn)端應(yīng)用(模擬)的鏈條。該鏈條只表達(dá)概念化模型而不需對應(yīng)為實際實現(xiàn)(全部在陰影區(qū)內(nèi))。

DMIF構(gòu)架考慮廣播和本地存儲時,假設(shè)模擬遠(yuǎn)端應(yīng)用了解數(shù)據(jù)如何發(fā)送和存儲。如何可以得到處理中的應(yīng)用種類的信息。對于MPEG-4,這實際就是如基本流ID、首對象描述符、服務(wù)名之類的概念。雖然DMIF層理論上不了解正提供支持的應(yīng)用,由于(模擬)遠(yuǎn)端應(yīng)用的存在,對廣播和本地存儲等特殊情況該概念并不完全正確 。因為(模擬)遠(yuǎn)端應(yīng)用不了解數(shù)據(jù)是如何傳送/存儲的,對于這樣的DMIF應(yīng)用數(shù)據(jù)傳送/存儲的細(xì)致描述是無意義的。

而當(dāng)考慮遠(yuǎn)端交互時,DMIF層是完全不了解應(yīng)用的。引入附加接口-DMIF網(wǎng)絡(luò)接口(DNI )以確定DMIF對需要交換何種信息。該附加模塊負(fù)責(zé)把DNI原語映射為特定網(wǎng)絡(luò)使用的消息。應(yīng)當(dāng)注意DNI原語只是為信息目的所指定,并不需要在實際應(yīng)用中表現(xiàn)DNI接口。為了支持相同的終端多傳輸技術(shù)甚至多場景(廣播、本地存儲器、遠(yuǎn)端交互),DMIF支持允許一個或多個DMIF實例同時出現(xiàn),每個面對特定的傳輸技術(shù)。多傳輸技術(shù)可被相同應(yīng)用激活,這樣就能夠管理被廣播網(wǎng)絡(luò)、本地文件系統(tǒng)和遠(yuǎn)端交互點傳送的數(shù)據(jù)。

2.3.2 流數(shù)據(jù)的多路復(fù)用,同步和描述

必須要在傳輸層從網(wǎng)絡(luò)連接或存儲設(shè)備來的數(shù)據(jù)中獲得各基本流。在MPEG-4系統(tǒng)模型中每個網(wǎng)絡(luò)連接或文件被單獨看成一個TransMux通道。依應(yīng)用而異復(fù)用部分或完全地作用于MPEG-4范圍之外的層。MPEG-4唯一定義的復(fù)用工具是FlexMux工具,它對于低延遲、低負(fù)載復(fù)用及為節(jié)省網(wǎng)絡(luò)連接資源來說是可選的。

為了在系統(tǒng)環(huán)境中集成MPEG-4的目的,DMIF應(yīng)用接口成為可作為同步層--打包流訪問的基本流的參考點。DMIF網(wǎng)絡(luò)接口確定了同步層-打包流-無FlexMux或FlexMux流如何從TransMux層得到的。這就是不被MPEG定義的傳輸功能的接口。這里考慮接口的數(shù)據(jù)部分,控制部分由DMIF處理。

與MPEG-1和MPEG-2以位流語法和語意描述理想解碼設(shè)備的方式相同,MPEG-4定義了系統(tǒng)解碼模型。這就允許不做非必要假設(shè)和精確細(xì)節(jié)準(zhǔn)確定義終端操作。這對于以不同方式自由地實現(xiàn)設(shè)計真實MPEG-4終端和解碼設(shè)備是必要的。這些設(shè)備包括從不能與發(fā)端通信的電視接收機(jī)到能完全雙向交互的計算機(jī)。一些設(shè)備通過同步網(wǎng)絡(luò)MPEG-4流,另一些通過非同步方式(例如Internet)交換MPEG-4信息。系統(tǒng)編碼模塊提供所有MPEG-4終端應(yīng)用基于的通用模塊。確定緩沖和延遲模型對不知道如何接收編碼流的編碼設(shè)備是必要的。雖然MPEG-4使編碼設(shè)備可通知資源需求的解碼設(shè)備,如前所述,該設(shè)備也可能不響應(yīng)發(fā)端。同樣有可能一個MPEG-4會話同時接受不同設(shè)備的信息。但這將根據(jù)設(shè)備的容量來進(jìn)行。

2.3.3 語法描述

MPEG-4定義了一種語法描述語言來描述位流傳送媒體對象和景象描述信息位流的精確位語法。該語言從C語言出發(fā),是C++語言的擴(kuò)展,用來以綜合方式描述對象的句法表達(dá)、所有媒體對象的類定義和景象描述信息。這提供了精確地恒定統(tǒng)一描述語法的方式,同時簡化位流依從測試。軟件工具可用來進(jìn)行語法描述,產(chǎn)生進(jìn)行判定的程序的必要代碼。

2.3.4音頻對象編碼

MPEG-4音頻對象編碼為表達(dá)自然聲音(例如話音和音樂)和基于機(jī)構(gòu)化描述的合成聲音都提供工具。合成聲音的表達(dá)可從文本數(shù)據(jù)或所謂的結(jié)構(gòu)描述,以編碼參數(shù)提供反射、空間定向等效果的方式實現(xiàn)。該方式提供壓縮和其他例如可伸縮性和效果處理等其他功能。覆蓋6kbit/s到24kbit/s速率的MPEG-4語音編碼工具已和NADIB合作通過AM數(shù)字語音廣播 應(yīng)用檢驗性測試。為辯識合適的數(shù)字語音廣播格式以改進(jìn)現(xiàn)有的AM模式服務(wù),包括MPEG-4 CELP、TwinVQ、和AAC工具一些編碼設(shè)置與一個參考AM系統(tǒng)進(jìn)行了比較。發(fā)現(xiàn)數(shù)字技術(shù)可在同樣帶寬上實現(xiàn)更高質(zhì)量,而且編碼設(shè)置提供了優(yōu)于聯(lián)播的效果。MPEG還進(jìn)行了附加檢驗測試,把話音和普通語音編碼的工具與現(xiàn)存標(biāo)準(zhǔn)進(jìn)行比較。

2.3.5 視頻對象(VO)編碼

為了支持基于內(nèi)容的交互性,即支持對內(nèi)容(場景中的物理對象)獨立地進(jìn)行編解碼,MPE G-4視頻檢驗?zāi)P?即發(fā)展完善中的視頻編碼算法和工具集)引入了視頻對象面(VOP)的概念。假設(shè)輸入的視頻序列的每一幀都被分割成多個任意形狀的圖像區(qū)域(視頻對象面),每個區(qū)域可能覆蓋場景中特定的感興趣的圖像或視頻內(nèi)容。輸入進(jìn)行編碼的VOP可以是任意形狀的,且形狀和位置可隨幀而變。屬于場景中同一物理對象的連續(xù)VOP序列稱為視頻對象(VO)。同一視頻對象的VOP序列的形狀、運動和紋理信息被編碼傳輸,或者編碼為一個隔離的視頻對象層(VOL)。除此之外,辨別各個視頻對象層,以及接收端合成不同的視頻對象層以重建完整的原序列所需的相關(guān)信息也包含在比特流中。這使得可以對每個VOP獨立地進(jìn)行編解碼,且可以對視頻序列進(jìn)行靈活操作。輸入進(jìn)行編碼的源視頻對象序列可以是獨立實體,也可以由在線或脫線的分割算法產(chǎn)生。

有些多媒體業(yè)務(wù)需要提供面向?qū)ο蟮牟僮骱途庉嫻δ?如遠(yuǎn)程數(shù)據(jù)庫訪問、視頻編輯等。 有些情況下,人們只對場景中的某個對象感興趣,如多媒體會議,人們感興趣的只是與會者的頭肩像,而不關(guān)心背景。因此,為了節(jié)省帶寬,可以只傳送頭肩像的視頻信息,接收端再把收到的頭肩像信息解碼重建,并置于一間虛擬會議室中?;趦?nèi)容的視頻編碼系統(tǒng)可以在比特流層支持這種基于對象的訪問和操作功能。

有兩種類型的視頻編碼系統(tǒng)支持基于內(nèi)容的交互性,一種是模型基編碼;另一種是在傳統(tǒng) 的基于塊的視頻編碼系統(tǒng)的基礎(chǔ)上擴(kuò)充而成的。對于前者,在此不做討論。而后者則是傳統(tǒng)的,基于塊的混合運動預(yù)測/補(bǔ)嘗編碼系統(tǒng)擴(kuò)展到任意形狀的視頻序列而成的。傳統(tǒng)的、基于塊的編碼方法已被MPEG-1/2和H.261/3等標(biāo)準(zhǔn)所采用。這種系統(tǒng)主要由場景分析和對象分割、形狀編碼、運動編碼、紋理編碼等模塊構(gòu)成,具體的編碼算法則做為實現(xiàn)系統(tǒng)中各個功能模塊的工具,可根據(jù)實際需要選取組合。首先對輸入的原圖像序列進(jìn)行場景分析和對象分割,以劃分不同的VOP,得到各個VOP的形狀和位置信息。VOP的形狀和位置信息可以用上文提到的alpha平面來表示。發(fā)送端只需傳送alpha平面,接收端就可以確定VOP的形狀和位置。alpha平面所需的比特數(shù)是比較多的,需要進(jìn)行壓縮編碼。顯然,只要對VOP的輪廓進(jìn)行編碼和傳送,接收端就可以恢復(fù)alpha平面,輪廓信息在輪廓編碼器中進(jìn)行編碼。提取出的形狀和位置信息又用來控制VOP的運動和紋理編碼。對運動和紋理信息編碼仍然采用經(jīng)典的類似 停校牛嗆H.261/3標(biāo)準(zhǔn)的運動預(yù)測/補(bǔ)償法。輸入的第N幀的VOP與幀存儲器中存儲的N-1幀的VOP進(jìn)行比較,找到運動矢量,然后對兩幀VOP的差值進(jìn)行量化、編碼 。對不同對象的運動和紋理信息的編碼可因地制宜地采用不同的方法,以提高編碼效率。編碼后得到的紋理信息,與運動編碼器和形狀編碼器輸出的運動信息和形狀信息復(fù)接形成該VOP的比特流層。不同視頻對象的VOP序列分別進(jìn)行編碼,形成各自的比特流層,經(jīng)復(fù)接后在信道上傳送。傳送的順序依次為形狀信息、運動信息和紋理信息。接收端的解碼過程是編碼過程的逆操作。當(dāng)VOP的形狀為矩形時,不需要進(jìn)行形狀編碼,該系統(tǒng)退化為傳統(tǒng)的規(guī)則形狀的視頻編碼系統(tǒng),保持了后向兼容性基于內(nèi)容的視頻編碼技術(shù),可以對任意形狀的視頻對象序列進(jìn)行編碼,編碼后的視頻對象的比特流以對象層的形式而存在。同一場景中的不同視頻對象可分別獨立地進(jìn)行編碼和傳輸,因此,接收端可獨立地有選擇地解碼和重建視頻對象,也可靈活地在比特流層對視頻對象進(jìn)行操作而改變原場景?;趦?nèi)容的視頻編碼技術(shù)在遠(yuǎn)程監(jiān)控、移動多媒體、信息娛樂(infotainment)、多媒體會議、交互購物、電影和電視的后期制作、虛擬現(xiàn)實、計算機(jī)支持的協(xié)同工作(CSCW)等領(lǐng)域具有十分廣闊的應(yīng)用前景,它必然對多媒體事業(yè)產(chǎn)生巨大的沖擊

三.應(yīng)用部分

3.1 MPEG-4技術(shù)動態(tài)

ACTS是歐洲的一個研究與技術(shù)開發(fā)組織,其MCM子組的工作與MPEG-4系統(tǒng)、算法和工具、 臉部特征跟蹤及動畫等密切相關(guān)。目前項目研究和開發(fā)一族PSTN等低比特率可視電話視頻編碼算法,允許異質(zhì)網(wǎng)間視頻會議的比特流可伸縮性。

VIDAS項目為時間相關(guān)表現(xiàn)、編碼和AV流操縱設(shè)計一個合適算法,在可視電話場景(編碼器)分析、(解碼器)合成時充分利用語音和臉動的相關(guān)性,在真實幀之間插入合成幀提高幀率,平滑顯示與語音同步的唇部運動,面向分布式創(chuàng)作和分布式虛擬現(xiàn)實。藍(lán)室(BlueRoom)、計算機(jī)、合成三者可分布在不同地點,藍(lán)室視頻信號、控制信號和跟蹤信號由遠(yuǎn)地傳來,而背景和動畫則在本地實時繪制,它們與藍(lán)室視頻信號合成后生成最終信號。分布式虛擬現(xiàn)實系統(tǒng)中一次性傳送基本3D模型,然后只傳輸動態(tài)交互引起的模型變化量,人們通過高速網(wǎng)絡(luò)可以在虛擬世界里交互。最近東芝公司推出首款基于MPEG-4視頻流系統(tǒng)MobileMotion套件,包括Motion套件,包括MPEG-4產(chǎn)品、服務(wù)器和播放器軟件,用于Internet/Intranet上構(gòu)建視頻和多媒體應(yīng)用,支持CIF和亞1/4CIF,6kbps-384kbps時每秒可處理30幀視頻數(shù)據(jù)。

3.2 MPEG-4及其在VOD業(yè)務(wù)中的應(yīng)用

視頻點播是近年發(fā)展起來的基于多媒體技術(shù)的交互式服務(wù)方式,VOD是以數(shù)字壓縮技術(shù)為基礎(chǔ)、網(wǎng)絡(luò)與多媒體技術(shù)相結(jié)合的交互電視系統(tǒng)。VOD業(yè)務(wù)是指用戶可以從自己的終端(機(jī)頂盒、普通模擬電視機(jī))上申請所需信息,提供服務(wù)的部門按用戶需要提供有關(guān)信息。VOD業(yè)務(wù)主要有影視選播、電視購物、遠(yuǎn)程教學(xué)、遠(yuǎn)程醫(yī)療、電子圖書館和交互式電子游戲等。目前流行的VOD系統(tǒng)主要采用MPEG-2編碼標(biāo)準(zhǔn)。這種標(biāo)準(zhǔn)的畫面質(zhì)量好,壓縮比高。然而MPEG-2標(biāo)準(zhǔn)在VOD業(yè)務(wù)的應(yīng)用中也暴露出其不足方面:基于宏塊和幀的編碼方式限制了對內(nèi)容的交互操作、壓縮效率仍不理想、窄帶網(wǎng)上的傳輸質(zhì)量受到限制和對媒體的兼容能力有待提高等。因此VOD業(yè)務(wù)的發(fā)展急需一種以多媒體應(yīng)用為目標(biāo)的新一代編碼標(biāo)準(zhǔn)。

MPEG-4基于對象編碼的技術(shù)特點和它可實現(xiàn)的功能,在VOD業(yè)務(wù)中有很大的應(yīng)用潛力。同采用MPEG-2標(biāo)準(zhǔn)的VOD業(yè)務(wù)相比,基于MPEG-4的VOD業(yè)務(wù)具有以下特點:

(1)圖像主觀質(zhì)量更好由于采用基于視頻對象的編碼方式,編碼時可以根據(jù)人眼的視覺特性,區(qū)分不同視頻對象的主次關(guān)系,合理安排壓縮比。與現(xiàn)存的標(biāo)準(zhǔn)相比,這種編碼方式容易獲得更好的圖像主觀質(zhì)量。

(2)交互性更完善

MPEG-4VOD用戶突破了傳統(tǒng)上基于幀進(jìn)行操作的限制,可以根據(jù)各自的需求,針對幀中的某一個視頻對象,進(jìn)行平移、旋轉(zhuǎn)、縮放、剪帖和檢索等交互式操作,使交互性能有了質(zhì)的飛躍。這種基于對象的交互操作,使用戶能根據(jù)某一具體畫面(如某種植物)查詢相關(guān)內(nèi)容,或是查詢畫面中某一物質(zhì)對象的其它資料(即VOD電子圖書館業(yè)務(wù))。用戶還可放大自己存放在醫(yī)院的X光照片,取出自己關(guān)心的那部分畫面仔細(xì)觀察(即VOD遠(yuǎn)程醫(yī)療業(yè)務(wù))等等。

(3)靈活性更大

VOD業(yè)務(wù)部門可以根據(jù)不同地域的具體條件、使用不同的傳輸網(wǎng)絡(luò)(如HDSL、ADSL、HFC和FTTH/FTTC等),開展VOD業(yè)務(wù)。VOD用戶也可以對音/視頻的質(zhì)量、實時性和接入網(wǎng)方式等作自由選擇。

(4)多媒體兼容能力更強(qiáng)

MPEG-4不但支持自然音頻、視頻,而且支持自然和合成的混合音頻、視頻。在VOD電子游戲中,用戶可以利用自然的音頻和視頻創(chuàng)作動畫和合成聲音。在VOD影視節(jié)目點播中,用戶可以在畫面上選擇疊加自己母語的字幕,或者疊加其它文字信息(如股票行情等)。

對于采用MPEG-4標(biāo)準(zhǔn)的VOD系統(tǒng),還可以利用MPEG-4多個并行數(shù)據(jù)流編碼技術(shù)提供的多視點編碼功能,開展虛擬現(xiàn)實游戲、三維電影和多視角演示等其它新業(yè)務(wù)。也可以利用音頻編碼的TTS功能,提高遠(yuǎn)程教學(xué)的質(zhì)量。

此外,尚待解決的主要技術(shù)問題有:

(1)為了適應(yīng)MPEG-規(guī)定的5kbps~4Mbps視頻速率范圍,為用戶提供高質(zhì)量乃至DVD質(zhì)量的圖像,目前的圖像壓縮技術(shù)仍需進(jìn)一步提高。

(2)為了實現(xiàn)基于視頻對象的交互操作,需要解決如何定義、描述、劃分和分離視頻對象

的問題。

MPEG-4標(biāo)準(zhǔn)具有比現(xiàn)存標(biāo)準(zhǔn)更好的主觀畫面質(zhì)量、更完善的交互性能、更強(qiáng)的媒體兼容能力和更大的靈活性。將MPEG-4用于VOD業(yè)務(wù),一方面可以發(fā)揮它在多媒體應(yīng)用方面的優(yōu)勢,另一方面也可以提高VOD業(yè)務(wù)的質(zhì)量,拓寬VOD業(yè)務(wù)的范圍。隨著數(shù)據(jù)壓縮技術(shù)的不斷發(fā)展,MPEG-4必將成為VOD系統(tǒng)編解碼技術(shù)的核心標(biāo)準(zhǔn)

3.3 MPEG-4在無線/移動多媒體通信中的應(yīng)用

ISO/IEC正在進(jìn)行標(biāo)準(zhǔn)化的MPEG-4是一種可用于通信、廣播和計算機(jī)等諸多領(lǐng)域的通用多媒體編碼方式 ,1997年10月已公布了草案,正式標(biāo)準(zhǔn)(第1版)于1998年12月頒布。MPEG-1和MPEG-2是以CD-ROM和DVD等存儲媒體以及廣播系統(tǒng)的高質(zhì)量、高比特率(2Mbps以上)為對象的音頻和視頻編碼方式,已完成標(biāo)準(zhǔn)化。

MPEG-4則尤為重視壓縮效率,是一種能用于低比特率(64kbps以下)的編碼方式,對傳輸誤差有較強(qiáng)的耐受性。

另一方面,ITU-T還推進(jìn)模擬電話線路所用多媒體通信終端的標(biāo)準(zhǔn)方式(H-324)與無線/移動通信相對應(yīng), 準(zhǔn)備將之作為H 324AnnexC,加以標(biāo)準(zhǔn)化。具體說來,就是對H- 324中所用H 223(在一個分組內(nèi)對聲音和圖像進(jìn)行多路復(fù)用方式)的抗誤差性進(jìn)行分級強(qiáng)化,分別作為H 223AnnexA、AnnexB和AnnexC進(jìn)行標(biāo)準(zhǔn)化(下文中AnnexA、B、C統(tǒng)稱Annex)。目前,就多媒體通信所必需的多路復(fù)用方式而言,除了MPEG-4外,ISO還能夠采用H 223和MPEG 2TS(傳輸流)等已有的多路復(fù)用方式。因此,為了在無線/移動環(huán)境中實現(xiàn)多媒體通信,有必要將具有抗誤差性的ISO標(biāo)準(zhǔn)MPEG 4編碼方式與ITU-T標(biāo)準(zhǔn)H 223Annex多路復(fù)用方式 結(jié)合起來。

圖1多媒體通信網(wǎng)絡(luò)范例

圖1給出了包含無線/移動通信系統(tǒng)的多媒體通信網(wǎng)絡(luò)范例。本例中,便攜式終端通過各種網(wǎng)絡(luò)實現(xiàn)電視電話、圖像監(jiān)視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務(wù)話、圖像監(jiān)視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務(wù)器中,并建立數(shù)據(jù)庫,利用因特網(wǎng)進(jìn)行信息分配,從而使其他便攜式終端用戶也能夠看到這些圖像。圖像傳輸是多媒體通信的核心,采用何種圖像編碼方式是構(gòu)筑多媒體網(wǎng)絡(luò)的關(guān)鍵。特別是在用于要求實時性的電視電話和廣播業(yè)場合,不能在收發(fā)方之間進(jìn)行信息重發(fā)和到達(dá)確認(rèn)等特殊控制,因此MPEG-4圖像編碼方式是比較理想的,它無需這種控制,且抗誤差性較強(qiáng)。對應(yīng)于不同的網(wǎng)絡(luò),多媒體信息傳輸時所需的多路復(fù)用方式有很多種。例如,因特網(wǎng)等分組網(wǎng)通常用不同的分組分別傳送聲音和圖像,并通過內(nèi)藏于各媒體的時間標(biāo)記,各自取得同步的H 225多路復(fù)用方式或MPEG2TS多路復(fù)用方式。在使用模擬電話線路電視電話的場合,在同一分組內(nèi)對聲音和圖像進(jìn)行多路復(fù)用的H.223方式已經(jīng)成為ITU-T標(biāo)準(zhǔn)。另外,在無線/移動環(huán)境中,具有抗誤差性的H 223Annex多路復(fù)用方式也是行之有效的。

因此,在構(gòu)筑多媒體網(wǎng)絡(luò)時,可以采用抗傳輸誤差性能較強(qiáng)的MPEG-4作為圖像編碼方式,而多路復(fù)用則采用與各網(wǎng)絡(luò)相適應(yīng)的方式。這樣,當(dāng)通過不同的網(wǎng)絡(luò)進(jìn)行圖像傳輸時,只需調(diào)換多路復(fù)用方式就可以了。

參考文獻(xiàn)

* 劉占平,董士海 MPEG-4標(biāo)準(zhǔn)及相關(guān)進(jìn)展 中國圖象圖形學(xué)報1999.06>

* 岳云 MPEG-4在無線/移動多媒體通信中的應(yīng)用 電信快報1999.09>

* 唐冬,鄭善賢 MPEG-4及其在VOD業(yè)務(wù)中的應(yīng)用 電信快報1999.09>

* 翁南釤,蔡德鈞,容太平 基于內(nèi)容的視頻編碼技術(shù) 通信技術(shù)1999.03>

* 夏天,陳磊,余兆明 MPEG-4的基于內(nèi)容的視頻編碼技術(shù) 電子工程師1999.10>

* Rob Koenen Overview of the MPEG-4 Standard Stockholm - July 1997

* MPEG -4 FAQs ISO/IEC JTC1/SC29/WG11 N MPEG 97/ July 1997

* Rob Koenen MPEG-4 Overview - (Melbourne Version) October 1999/Melbourne

c語言相關(guān)文章:c語言教程


c++相關(guān)文章:c++教程




關(guān)鍵詞: MPEG

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉