新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > MPEG-7標(biāo)準(zhǔn)及其應(yīng)用簡介

MPEG-7標(biāo)準(zhǔn)及其應(yīng)用簡介

作者: 時(shí)間:2009-02-06 來源:網(wǎng)絡(luò) 收藏

摘 要:人們?nèi)绾卧诤A康拿襟w信息中迅速找到自己所需的內(nèi)容,并對(duì)其進(jìn)行個(gè)性化的訪問?媒體內(nèi)容描述規(guī)范使無法通過現(xiàn)有的搜索引擎查詢視頻、音頻等內(nèi)容的難題迎刃而解。本文分析了的描述方案,并重點(diǎn)分析了它的集中應(yīng)用。

一、引言

國際化組織(ISO)在制定MPEG-1、MPEG-2及MPEG-4的基礎(chǔ)上,推出了新的,該標(biāo)準(zhǔn)的正式名稱為“多媒體內(nèi)容描述接口”(Multimedia Content Description Interface), 其目標(biāo)就是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn),滿足實(shí)時(shí)、非實(shí)時(shí)以及推-拉應(yīng)用的需求,它既不同于基于波形和基于壓縮的表示方式如MPEG-1和MPEG-2,又不同于基于對(duì)象的表示方式如MPEG-4,而是將對(duì)各種不同類型的多媒體信息進(jìn)行標(biāo)準(zhǔn)化描述,并將該描述與所描述的內(nèi)容相聯(lián)系,以實(shí)現(xiàn)快速有效的搜索。

二、MPEG-7的目標(biāo)

1.支持多種音頻和視覺的描述

描述包括自由文本、n維時(shí)空結(jié)構(gòu)、統(tǒng)計(jì)信息、客觀屬性、主觀屬性、生產(chǎn)屬性和組合信息。對(duì)于視覺信息,描述可能包括顏色、視覺對(duì)象、紋理、草圖、形狀、體積、空間關(guān)系、運(yùn)動(dòng)及變形等。對(duì)于音頻信息,描述可能包括音調(diào)、調(diào)式、音速、音速變化等。

2.根據(jù)信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次的用戶對(duì)信息的需求。

3.支持?jǐn)?shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性。

三、MPEG-7構(gòu)成要素

MPEG-7的主要元素包括以下幾種。

1.描述工具,包括一組描述符D(Descriptor )和描述方案DS (Description Schemes )。描述符是指用來定義和表達(dá)實(shí)體某一方面特征的句法或語法。表達(dá)實(shí)體是由特征標(biāo)識(shí)符(如顏色)和數(shù)據(jù)類型 (如字符串)等構(gòu)成的。數(shù)據(jù)類型可以是“復(fù)合”的,既可以由幾個(gè)數(shù)據(jù)類型的組合來構(gòu)成,也可以由數(shù)個(gè)D來“描述”一個(gè)特征。描述方案是由一個(gè)或多個(gè)D和DS構(gòu)成,DS規(guī)定了它們相互關(guān)系的結(jié)構(gòu)和語法。

2.描述定義語言DDL(Description Definition Language),用來指定描述方案的一種語言。它是一種模式化語言,是對(duì)音視頻數(shù)據(jù)建模結(jié)果的一種表征。DDL規(guī)定了MPEG的描述工具,包括描述符和描述方案,并提供了把描述符構(gòu)建為描述方案的規(guī)則。DDL同時(shí)也允許定義特殊應(yīng)用中的擴(kuò)展DS. 描述工具通過DDL被實(shí)例化,并以文本格式(XML)被描述。

3.用來支持多路描述、同步問題、傳輸機(jī)理、文件格式等的系統(tǒng)工具。

四、MPEG-7屬性描述工具

MPEG-7標(biāo)準(zhǔn)提供了一系列的屬性描述工具對(duì)屬性進(jìn)行統(tǒng)一的管理,屬性描述工具多用在多于一個(gè)媒體被描述時(shí)(如音頻和視頻)。這些描述工具根據(jù)功能分為內(nèi)容描述、內(nèi)容管理、內(nèi)容組織、導(dǎo)航和訪問以及使用者交互5類。

1.基本元素(Basic Elements)

基本的數(shù)據(jù)類型提供了一組對(duì)描述AV(Audio-Visual)內(nèi)容有幫助的擴(kuò)展的數(shù)據(jù)類型和數(shù)學(xué)類型,如矩陣和向量等。基本數(shù)據(jù)類型同時(shí)也能構(gòu)建連接媒體文件、定位內(nèi)容、描述時(shí)間、地點(diǎn)、人物等。正是這些基本元素通過DS規(guī)范構(gòu)成了定義MPEG-7描述方案的基礎(chǔ)。

2.內(nèi)容描述(Content Description)

內(nèi)容描述的目的是描述可察覺信息內(nèi)容,用以表征可知覺的內(nèi)容信息。內(nèi)容描述包括結(jié)構(gòu)和語義兩個(gè)方面的內(nèi)容。結(jié)構(gòu)工具通過劃分片斷、幀、靜態(tài)和動(dòng)態(tài)區(qū)域來描述AV內(nèi)容的時(shí)間及空間方面的結(jié)構(gòu)信息。語義工具通過對(duì)象、事件、抽象觀念和關(guān)系等描述了和AV內(nèi)容所反映的現(xiàn)實(shí)世界。結(jié)構(gòu)工具和語義工具通過鏈接共同作用,共同完成了對(duì)內(nèi)容的描述。

3.內(nèi)容管理(Content Management) 內(nèi)容管理用于處理那些與多媒體文檔創(chuàng)建、媒體所有權(quán)和編碼等相關(guān)的信息,即那些不能被抽象出來的信息。4.內(nèi)容組織(Content Organization)內(nèi)容組織提供一種來描述多媒體數(shù)據(jù)的分析和分類的方法,它可以用來描述一群對(duì)象的屬性。

5.導(dǎo)航和訪問(Navigation and Access)

導(dǎo)航和訪問工具被用來定義音頻、視頻內(nèi)容的一系列摘要,分解和變換信息,使瀏覽和獲取AV內(nèi)容更加便利。它包含概述、分解和變換三部分的內(nèi)容。

6.使用者交互(User Interaction)

它描述了用戶喜好以及使用信息等,使對(duì)媒體的訪問變得更加個(gè)性化,為用戶使用提供了方便。例如,可以根據(jù)用戶的愛好來定義媒體的優(yōu)先級(jí),使用戶盡快找到最適合的信息。

五、MPEG-7的應(yīng)用領(lǐng)域

人們對(duì)日常生活中的多媒體信息,要求能高效率地進(jìn)行訪問、交互操作和顯示。這就是MPEG-7 “Pull”(拉)和“Push”(推)的兩類應(yīng)用。這兩類應(yīng)用與社會(huì)的政治和經(jīng)濟(jì)有著密切的聯(lián)系,在教育、影視等專業(yè)領(lǐng)域和消費(fèi)應(yīng)用的不同場合都是必不可少的。

1.Pull類型

MPEG-7標(biāo)準(zhǔn)產(chǎn)生的目的是要定義一種規(guī)范,使對(duì)AV資料的查詢變得和現(xiàn)在的文本查詢一樣方便。盡管其公認(rèn)的多媒體內(nèi)容描述的應(yīng)用遠(yuǎn)不止“獲取”這一種,但它還是作為許多原始的MPEG-7應(yīng)用而保留下來。這些“獲取”,即“Pull”類型的應(yīng)用涉及到數(shù)據(jù)庫、多媒體信息檔案以及基于網(wǎng)絡(luò)的Intenet模型(用戶向服務(wù)器索取資料)。

以下是“Pull”類型的一些應(yīng)用。

(1)商業(yè)音樂類應(yīng)用(卡拉OK和音樂銷售)

當(dāng)用戶從電視臺(tái)看到一首歌,只要唱幾段,就可不費(fèi)力地從數(shù)據(jù)庫中“搜索”出完整的歌曲來;在收取了適當(dāng)?shù)馁M(fèi)用后,即可把整首樂曲下載到用戶的計(jì)算機(jī)上。

(2)聲音效果庫

藝術(shù)家、聲響設(shè)計(jì)師可以指定一個(gè)聲效類型,然后從這個(gè)聲源的眾多變化中選擇適合的需要。例如提供一個(gè)原型聲響,指定細(xì)節(jié)特征,或者使用擬聲,通過哼曲進(jìn)行“搜索”的一種變形方式,來發(fā)出他想要找的那種類型的抽象聲音。

(3)歷史數(shù)據(jù)庫

人們可以通過一些特定的關(guān)鍵詞( “中華人民共和國成立啦!”)、關(guān)鍵事件(WTO)、演講人(比爾?蓋茨)、地點(diǎn)(首都)、日期(2001年9月11日),或者是以上幾個(gè)方面的任意組合,來“搜索”一個(gè)音視頻記錄或其他相關(guān)事件。

(4)通過可回憶的聽覺事件進(jìn)行電影場景“搜索”

在人們的記憶世界里,許多的視覺事件是難以忘懷的。最明顯的例子就是用特定的“描述”來指代電影電視場景或?qū)Π住⒁繇懙?,用這樣的方式查找到一部電影。

2.Push類型

“Push”與“Pull”類型的應(yīng)用是相反的,“Push”類型應(yīng)用更像是廣播方式,以及剛出現(xiàn)的網(wǎng)絡(luò)廣播?!癙ull”模型是從索引到“搜索”,“Push”模型是從選擇到“過濾”。這兩類應(yīng)用有著完全不同的要求,通常“Pull”處理的是存儲(chǔ)在數(shù)據(jù)庫里的靜態(tài)信息“描述”,而“Push”處理的是變化的動(dòng)態(tài)信息“描述”?!癙ush”,即“過濾”的要求是提供用戶只想收看或收聽到的多媒體信息。

如在數(shù)字系統(tǒng)中(包括數(shù)據(jù)廣播),MPEG-7描述可以幫助用戶選擇節(jié)目和各類數(shù)據(jù)廣播信息,用于當(dāng)時(shí)或以后觀看,以及記錄、存貯。在個(gè)性化廣播系統(tǒng)的環(huán)境中,提供給用戶的數(shù)據(jù)可以按照各自的類型從數(shù)據(jù)廣播中“過濾”出來,而類型的生成可以是自動(dòng)的(如根據(jù)地點(diǎn)、年齡、性別、或以前的選擇行為等),也可以是半自動(dòng)的(如根據(jù)預(yù)設(shè)的興趣等)。

六、結(jié)束語

MPEG-7的出現(xiàn)是文本信息時(shí)代向多媒體信息時(shí)代過渡的必然產(chǎn)物,在未來的多媒體信息檢索服務(wù)中,MPEG-7必將發(fā)揮主導(dǎo)作用。目前,許多研究機(jī)構(gòu)都已開始對(duì)其中的關(guān)鍵技術(shù)進(jìn)行研究,并已取得一定成果,但離實(shí)際應(yīng)用還有相當(dāng)差距。隨著MPEG標(biāo)準(zhǔn)和網(wǎng)絡(luò)系統(tǒng)的快速發(fā)展,MPEG-7的應(yīng)用也將蓬勃發(fā)展,為我們的學(xué)習(xí)和生活提供更多的方便。



關(guān)鍵詞: MPEG-7 標(biāo)準(zhǔn)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉