存儲(chǔ)感知世界的視頻編碼 分析與評(píng)測(cè)
視頻編碼與分析的技術(shù)挑戰(zhàn)
在編碼效率方面,大家可能知道,到現(xiàn)在為止,所有視頻系統(tǒng)里面用的都是非常常規(guī)的,通用的視頻編碼的算法和芯片。這個(gè)用法對(duì)不對(duì)呢?實(shí)際上這是不對(duì)的,但是現(xiàn)在已經(jīng)形成這種習(xí)慣了,都是這么用的,你不這么用,人家反倒會(huì)質(zhì)疑你。當(dāng)然從市場(chǎng)化、從減小成本這個(gè)角度來說它是對(duì)的。但是從視頻監(jiān)控的目的來看,實(shí)際上是不對(duì)的。因?yàn)槟莻€(gè)通用的編碼技術(shù),它是為電視服務(wù)的,本身它這個(gè)出發(fā)點(diǎn)就是錯(cuò)的。
目前視頻的自動(dòng)分析做得不好。因?yàn)樗谙到y(tǒng)設(shè)計(jì)的時(shí)候,不是為了視頻自動(dòng)分析這個(gè)目的,而是為了視頻存儲(chǔ)和以人為核心的視頻跟蹤,就是一定要有一個(gè)人坐在那里看那個(gè)大的顯示屏。靠這樣的一套指導(dǎo)思想來設(shè)計(jì)現(xiàn)有的智慧城市里面的視頻系統(tǒng),用這樣的一個(gè)架構(gòu)去做自動(dòng)分析,是根本無法實(shí)現(xiàn)的。
隨著時(shí)間的推移,監(jiān)控視頻的數(shù)據(jù)占整個(gè)大數(shù)據(jù)的比重基本上都在一半或者一半以上這樣一個(gè)數(shù)量級(jí)。所以數(shù)據(jù)的存儲(chǔ)和處理做好了,大數(shù)據(jù)的問題就解決了大部分?,F(xiàn)在這些大數(shù)據(jù)之所以沒有有效的利用起來,里面很多知識(shí)還沒有歸納總結(jié)出來,也是和現(xiàn)有的數(shù)據(jù)積累過程,以及這個(gè)系統(tǒng)設(shè)計(jì)的出發(fā)點(diǎn)是有關(guān)聯(lián)的。
針對(duì)這些問題,我們要找到一個(gè)技術(shù)上的切入點(diǎn)來處理。這個(gè)切入點(diǎn),要更多的看目前智慧城市里急需的到底是什么。實(shí)際上就是急需事件的追蹤。例如說,有一個(gè)人報(bào)案,說某家銀行被搶了,劫匪坐了一輛白色的車跑掉了,你有沒有辦法在比較短的時(shí)間內(nèi)查到這輛車的位置。
智慧城市中視頻技術(shù)面臨的挑戰(zhàn),就是我們現(xiàn)在面臨的三大問題,一個(gè)是監(jiān)控視頻的數(shù)據(jù)存不下,一個(gè)是查不準(zhǔn),一個(gè)是擋不住。如果我們把這三個(gè)問題梳理一下,從技術(shù)上來說就是,一個(gè)是編碼的問題,一個(gè)是視頻分析與跟蹤的問題,融合起來還有跟GPS、音視頻結(jié)合起來使用的問題。
如果我們把它歸納為技術(shù)挑戰(zhàn),那就是兩個(gè)挑戰(zhàn),一個(gè)是高效視頻編碼的挑戰(zhàn),當(dāng)然是面向監(jiān)控視頻的。第二個(gè)就是如何對(duì)分析和檢索進(jìn)行支持。如果大家對(duì)視頻編碼和視頻分析稍微熟悉一點(diǎn)的話,你會(huì)發(fā)現(xiàn)一個(gè)很奇特的現(xiàn)象,就是做視頻編碼的人對(duì)視頻分析不感興趣,或者說不太做。反過來,做視頻分析的人對(duì)編碼怎么編,基本上做的也不多。為什么會(huì)出現(xiàn)這樣的情況?做編碼的人處理的對(duì)象是像素和塊,而做分析的人面對(duì)的是特征。這兩個(gè)一個(gè)是踩在地面上,一個(gè)是在山頭上,所以這兩伙人很難交匯。我們現(xiàn)在是希望解決這個(gè)問題,因?yàn)楸仨毎堰@兩個(gè)事一起來做,你才可能做成一個(gè)面向智慧城市的技術(shù)。
高效視頻編碼標(biāo)準(zhǔn)
從標(biāo)準(zhǔn)的歷史上來看,實(shí)際上前30年中,基本上所有的貢獻(xiàn)、所有的技術(shù)都是圍繞著通信領(lǐng)域的視頻編碼和廣播里面的視頻編碼做的,前期主要是面向廣播的視頻編碼。當(dāng)然也有面向通信的視頻編碼,后來也出現(xiàn)了兼顧通信和廣播的視頻編碼,但是所有這些編碼都不是面向監(jiān)控的。你可能會(huì)說,視頻通信不就是監(jiān)控的一種嗎?有的專家就說,如果你要看現(xiàn)在的視頻監(jiān)控,實(shí)際上它是發(fā)展了三代,第一代是模擬,第二代是數(shù)字,第三代是IP監(jiān)控。這個(gè)IP監(jiān)控是在網(wǎng)絡(luò)上,但是不是和編碼有針對(duì)性的,所以面向監(jiān)控的編碼,目前國(guó)際上沒有人做這樣的標(biāo)準(zhǔn),只有中國(guó)人在做。
目前的編碼框架一個(gè)是變換編碼,一個(gè)是預(yù)測(cè)編碼,還有一個(gè)是商務(wù)編碼,把這三塊組合起來,稱為混合編碼框架結(jié)構(gòu)。這種編碼技術(shù)已經(jīng)使用了30多年。中國(guó)從2002年開始,也組織了一個(gè)自己的標(biāo)準(zhǔn),2006年第一版出來之后被ITUT接受為IPTV的一個(gè)格式。再后來被廣電和工信部聯(lián)合接受為我們國(guó)家地面數(shù)字電視機(jī)頂盒和地面數(shù)字電視一體機(jī)的標(biāo)準(zhǔn),去年AVS的增強(qiáng)檔成了我們國(guó)家廣電的行業(yè)標(biāo)準(zhǔn)。去年我們?yōu)榱税堰@個(gè)標(biāo)準(zhǔn)國(guó)際化,也專門在IEEE的標(biāo)準(zhǔn)化協(xié)會(huì)下面成立了一個(gè)AVS的工作組,目前這個(gè)工作組已經(jīng)把第一版編碼所有的流程走完了。
到現(xiàn)在為止,監(jiān)控檔次實(shí)際上是AVS若干個(gè)檔次當(dāng)中的一個(gè)。AVS的監(jiān)控檔次引入了一個(gè)背景建模技術(shù),這是目前其它的標(biāo)準(zhǔn)里面還沒有非常明確的事情。我們做了一些數(shù)據(jù)分析發(fā)現(xiàn),對(duì)于監(jiān)控而言,它看的場(chǎng)景是比較固定的,不管攝像頭是固定不動(dòng)的還是旋轉(zhuǎn)的,這都不要緊,實(shí)際上它的場(chǎng)景是固定的,一旦這個(gè)攝像頭安在這個(gè)地方,它就在這個(gè)場(chǎng)景下,如果你有辦法把這個(gè)場(chǎng)景學(xué)習(xí)下來,用它參與編碼,可以提高編碼效率。如果你用場(chǎng)景建模,它就可以降低以前的碼率,這樣就可以提高它的編碼效率。場(chǎng)景模型這方面就沒有太大的難度,就是我給你一個(gè)視頻,把視頻分為前景和后景,前景是場(chǎng)景沒有的東西,背景是原來的場(chǎng)景,如果能這樣有效的分開,任何一個(gè)視頻就可以分為前景和背景的組合,就可以分開進(jìn)行編碼,對(duì)前景可以多用一點(diǎn)比特,使它幾乎沒有損失,對(duì)于背景,可以用相當(dāng)?shù)膮?shù)代替它的場(chǎng)景,減少它的比特。
整個(gè)系統(tǒng)工作起來,需要對(duì)整個(gè)碼流進(jìn)行定義,這些定義會(huì)告訴你現(xiàn)在參考的是背景模型,還是實(shí)際碼流。通常我們編碼的時(shí)候,它的參考幀都是固定給你的。我們現(xiàn)在就變成需要換參考幀的時(shí)候,你可以用模型,也可以用實(shí)際的幀,哪個(gè)效果更好,就用哪個(gè)。這樣我們就從語法上把這個(gè)機(jī)制建立起來了,而且這個(gè)機(jī)制可以允許你在原來的框架中增加背景建模。有了這樣一個(gè)機(jī)制,我們利用背景建模技術(shù),不單在AVS上可以提高一倍的編碼效率,還可以把它嵌到H.264和HEVC里面,結(jié)果是一樣的,都可以提高原來一倍以上的編碼的效率。這是面向視頻監(jiān)控,面向背景建模的編碼技術(shù)。
關(guān)于視頻分析
現(xiàn)在的分析技術(shù)都是基于把原來的編碼圖象解開了以后來做?,F(xiàn)在的問題是有沒有辦法不用解碼就進(jìn)行分析。這個(gè)也是我們需要做實(shí)時(shí)響應(yīng)的要點(diǎn)?,F(xiàn)在的系統(tǒng)設(shè)計(jì),完全不是面向視頻分析的,因?yàn)樗谴嬖谀抢?,要用的時(shí)候把它解開,然后再進(jìn)行分析的。我們現(xiàn)在試圖找一種方法,就是不用解開,或者不用全解,就來進(jìn)行分析。
AVS有一個(gè)監(jiān)控檔次,就可以支持這件事。為了說明這件事可以支持,它可以從幀、區(qū)域、對(duì)象、事件等不同層面對(duì)這個(gè)東西進(jìn)行描述。這里最關(guān)鍵的一個(gè)就是ROI區(qū)域,你要對(duì)它進(jìn)行描述和表達(dá),將來編碼進(jìn)行闡述的時(shí)候,是對(duì)這一塊單獨(dú)來做的,當(dāng)進(jìn)行視頻的時(shí)候,你只需要對(duì)前景,或者說對(duì)ROI來分析。
這種思路其實(shí)不僅僅是可以用在AVS上,我有幾個(gè)學(xué)生專門把這種思路嵌到HEVC、H.264里面,不但編碼可以提高1倍以上,還可以把感興趣的區(qū)域定位出來。從處理速度上來講,不同的算法可能有的時(shí)間長(zhǎng)一點(diǎn),有的時(shí)間短一點(diǎn)。HEVC的塊的結(jié)構(gòu)組合更靈活,利用它的塊的組合的特點(diǎn),也可以做很多ROI的描述,也可以根據(jù)這種可變塊結(jié)構(gòu)描述,做很高的編碼和識(shí)別的工作。
人臉識(shí)別是非常重要的,我們也有一個(gè)專門的課題做人臉識(shí)別的工作。人臉識(shí)別最理想的分辨率是100×100,最低的也要50×50,如果再小的話,識(shí)別效率就會(huì)差。編碼壓縮的力度越大,識(shí)別率就會(huì)降低得越快。
我們現(xiàn)在追求的目標(biāo)不是光用人臉,實(shí)際是人臉和身體組合在一起去做跟蹤,這樣才會(huì)比較有效。因?yàn)楣饪慈四樀脑?,如果分辨率不夠,你很難完成跟蹤的任務(wù),特別是有時(shí)候他是背過身來的。我們要把這個(gè)對(duì)象從頭到腳跟蹤下來,然后找到他正面的圖象,看看是不是你要找的人,如果是的話,你就可以全部回溯,如果不是的話,你就把它丟掉。
現(xiàn)在智慧城市當(dāng)中的視頻系統(tǒng)的設(shè)計(jì),并不是面向智能分析和識(shí)別的,所以我們有必要去對(duì)這個(gè)系統(tǒng)設(shè)計(jì)進(jìn)行一些影響,在高效的視頻編碼,我們應(yīng)該可以有一些改進(jìn)。另外基于感興趣區(qū)域的表達(dá),我們也可以有所作為。如果把這兩者聯(lián)合起來,將會(huì)是一個(gè)很好的創(chuàng)新。
評(píng)論