新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 高性能DSP核心搶攻嵌入式視覺市場

高性能DSP核心搶攻嵌入式視覺市場

作者: 時間:2013-06-07 來源:網(wǎng)絡 收藏

為了滿足行動手機、汽車和視訊產品的和高功效成像需求,嵌入式視覺演算法正持續(xù)快速發(fā)展,并在數(shù)位訊號處理()核心IP公司之間開啟了全新的戰(zhàn)場。

繼Ceva公司在一年前發(fā)布可程式的低功耗成像與視覺平臺MM3101之后,今年2月,Tensilica公司也推出了名為IVP的成像與視訊資料層處理器單元(DPU)。

Tensilica公司的IVP DPU是一種可授權的半導體IP核心,專門設計用于從主處理器卸載復雜的成像功能。據(jù)Tensilica公司創(chuàng)辦人兼CTO Chris Rowen透露,雖然目前IVP IP核心主要用于大眾市場,但已有兩家客戶將它運用于其系統(tǒng)晶片中。

IVP DPU具有每秒每瓦執(zhí)行5,000億畫素作業(yè)的能力,采用臺積電(TSMC)的28nm制程技術制造。據(jù)Tensilica公司介紹,IVP DPU中每顆核心占用面積不到0.5平方毫米,因此非常適合低成本應用。

推動對于成像/視訊處理器核心的需求來自于各種新功能,例如行動手機和數(shù)位相機中使用的高動態(tài)范圍影像擷取、臉部辨識與追蹤;數(shù)位電視(DTV)中使用的手勢控制與視訊后處理;先進駕駛輔助系統(tǒng)(ADAS)中的正面碰撞警示、車道偏離警告等。

這些復雜的成像/視覺演算法發(fā)展非常迅速,以致于行動手機和汽車公司希望「在數(shù)周內而不是幾個月內」,就能將這些新功能整合于其產品系統(tǒng)中,Tensilica公司成像/視訊總監(jiān)Gary Brown表示。

多種方案選擇

對于系統(tǒng)供應商來說,成像/視訊處理解決方案有多種方案備選,從在CPU中完成所有功能到卸載成像功能至GPU,或是增加專用于成像功能的硬線邏輯等各種選擇。

「舉例來說,光是在1.5GHz頻率的A8 四核心上進行視訊處理,而不包括其它功能,也很容易就達到3瓦功耗?!筊owen表示。

對于行動手機或數(shù)位相機而言,想要單獨在CPU上做到這一點尤其困難,特別是當這種消費系統(tǒng)需要在拍照的同時連續(xù)執(zhí)行高動態(tài)范圍等演算法時。

IVP處理器核心架構

透過使用硬線邏輯,可實現(xiàn)一些專用功能,如臉部檢測、視訊穩(wěn)定或物件追蹤等。但是,隨著越來越多的高階人機界面功能向下轉移到消費設備上,從現(xiàn)在開始的兩個月內就必須提供更多新的硬線模組。

Tensilica的IVP DPU平臺架構

將成像功能卸載到GPU是另外一種選擇。值得注意的是,GPU的側重點在于浮點運算和3D繪圖處理,Rowen認為,這種修改可能會降低成像效率,并增加晶片占用面積。此外,GPU較難以進行編程處理,他補充道。

Berkeley Design Technology公司總裁Jeff Bier解釋,處理即時影像或視訊資料一般需要「每秒數(shù)百億次作業(yè),」這是因為「我們將復雜的演算法運用于即時資料,并從畫素中擷取含義——這是嵌入式視覺的本質——也是個困難的問題?!?/P>

另外,這個難題「從一般意義來看,事實上還未能解決,」Bier補充道。這意味著「演算法開發(fā)方法可能極具試驗性和反覆性?!挂虼?,從另一方面來看,所需要的成像/嵌入式視覺解決方案是可加以編程的,也較易于開發(fā),他指出。

基于高效處理器的架構

Linley Group公司資深分析師J.Scott Gardner贊同Jeff Bier的看法?!赶噍^于視訊編解碼具有詳細定義的演算法,讓設計者可燒錄于硬體中;而嵌入式視覺所用的演算法實際上是無限制的,而且還一直在發(fā)展中。」他表示。

Gardner把嵌入式視覺稱為「完美的應用」,因為它能「充分利用演算法中固有的資料層平行機制」。然而,僅擁有大量畫素運算單元是不夠的,他補充道,「記憶體系統(tǒng)和匯流排架構必須設計成能夠以接近每秒10億畫素的速率高效率地提供畫素資料?!?/P>

那么在針對嵌入式視覺應用實現(xiàn)最佳化處理器時,設計者必須具備哪些特殊能力?Jeff Bier列舉:必須能應用多種架構化平行機制,充分利用畫素處理平行特色;支援更短與更長的資料類型(如8位元、16位元和32位元),這樣當需要較低精度時,就能平行執(zhí)行更多作業(yè)以及節(jié)省記憶體頻寬,而在需要較高精度時也能立即得到滿足;提供非常高的記憶體頻寬,以便能使所需的大量資料有效率地進出處理器;提供專門的指令,以便有效率地建置這些演算法中所使用的關鍵作業(yè)。

事實上,Tensilica公司的IVP架構就能滿足許多這種要求。IVP基于四路可變長度指令擴展(FLIX)架構。FLIX是Tensilica版本的VLIW架構,提供混合了緊密編碼指令的高度平行機制。IVP采用一套32路向量單指令多資料(SIMD)的資料集和一條平衡的9級管線。

這種架構包含一個直接記憶體存取(DMA)傳送引擎,支援高達每秒10GB的吞吐量和每周期1,024位元(64x16位元畫素/周期)的局域記憶體吞吐量,可充分滿足解析度和畫面播放速率要求。IVP還采用了許多特殊成像作業(yè)指令,可加速8位元、16位元和32位元畫素資料類型和視訊作業(yè)模式,據(jù)Tensilica公司介紹。

Tensilica IVP vs CEVA架構

當然,Tensilica并不是第一家致力于開發(fā)成像和嵌入式視覺用處理器核心的公司。CEVA公司于2012年1月發(fā)布的MM3101與Tensilica的IVP有許多相似之處,也混合使用了VLIW和SIMD。

CEVA-MM3101平臺專用于滿足最先進的成像增強和電腦視覺 應用等極端計算需求

Gardner認為,「隨著Tensilica進入嵌入式,CEVA將必須重新改善其MM3000平臺?!?/P>

相較于Tensilica的IVP,CEVA公司的MM3101提供較低的原生運算性能和較小的記憶體頻寬。Tensilica支援32路SIMD(512位元向量),可能平行處理32個16位元畫素,相形之下,MM3101在使用兩個128位元的向量處理單元時僅支援每周期16個16位元畫素,Gardner解釋道。

此外,雖然CEVA的MM3101有一個獨立的256位元向量載入/儲存單元,但Tensilica的IVP支援每周期高達2個512位元的參考記憶體,可實現(xiàn)高達4倍的記憶體頻寬。



關鍵詞: 高性能 DSP 視覺市場

評論


相關推薦

技術專區(qū)

關閉