結合傳感器的并行處理器實現(xiàn)高速成像

作者：Tom R.Halfhill 時間：2008-04-16 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　如果一幅圖像的數(shù)據(jù)量相當于一千個字符，那么100,000幅圖像的數(shù)據(jù)量有多大？能否設計一個數(shù)字成像系統(tǒng)來處理如此高幀速的圖像。這樣一個成像系統(tǒng)可以應用于機器視覺，智能視頻系統(tǒng)，瞬間事件的科學分析，工業(yè)過程監(jiān)控，互動游戲以及無人運輸器和導彈的制導系統(tǒng)等眾多領域。

本文引用地址：http://butianyuan.cn/article/81599.htm

　　2000年，來自匈牙利、西班牙和美國的科學家在布達佩斯成立了AnaLogic計算機公司。該公司的目標就是設計每秒能存儲、分析和增強幾千幀圖像的數(shù)字成像系統(tǒng)。3年后，他們又在美國加利福尼亞州，伯克利城成立了AnaLogic的后繼公司，Eutecus。在美國導彈防御局以及海軍研究辦公室的許可下，他們開發(fā)了Cellular Visual Technology(CVT).

　　CVT由大規(guī)模并行處理器和優(yōu)化成像處理軟件構成。有些實現(xiàn)方法使用一種創(chuàng)新的半導體制造工藝把圖像傳感器和并行處理陣列直接結合在一起，創(chuàng)造出一個多層芯片。圖1是C-TON的照片。C-TON是第一款為商業(yè)市場設計的此類芯片。

　　公司首席技術官Dr Akos Zarandy和Dr Csaba Rekeczky 奔波于布達佩斯和伯克利之間。CVT技術的發(fā)明人，公司技術副主席，Zarandy10月份在秋季微處理器論壇上發(fā)表了關于CVT的技術介紹。這篇文章也吸取了該技術的另一名發(fā)明人，公司研發(fā)副主席Rekeczky的意見。

　　并非傳統(tǒng)數(shù)字相機

　　Eutecus的設計與傳統(tǒng)數(shù)字相機以及家庭攝像機大相徑庭。經(jīng)典的數(shù)字相機有CCD或CMOS成像傳感器，這些傳感器由微小感應單元組成的陣列覆蓋而成。幾乎每個感應單元都對應一個像素。在曝光過程中，照射到感應單元的光被轉化為電。也就是說，感應單元將光子轉化為電子。照射到感應單元上的光子越多，產(chǎn)生的電子越多，從而形成的像素越亮。經(jīng)過模數(shù)轉換，嵌在RISC核中的傳統(tǒng)微處理器讀取每個感應單元的值把像素聚合成圖像。然后經(jīng)過增強的圖像被存儲到照相機的閃存或其它存儲媒介上之前。

　　傳統(tǒng)數(shù)字相機的幀速很低，經(jīng)常是幾秒一幀而不是一秒幾幀。處理器讀取感應單元數(shù)據(jù)和聚合圖像很費時間。為了解決這一問題，幾乎所有的數(shù)字相機都有緩存。前一次曝光的數(shù)據(jù)就存在這些緩存中供處理器進行處理，以便相機進行下一次曝光。

　　家庭數(shù)字攝像機有更大的緩存。通過降低像素分辨率，它每秒可以處理25到30幀圖像，滿足PAL，SECAM或NTSC視頻的要求。通過使用更大的成像傳感器，高清晰度家庭數(shù)字攝像機可以錄制更高幀速和畫質更好的圖像。當然，由于使用了更大的傳感器，這種攝像機的價錢更高。但是，傳統(tǒng)攝像機無法在超高幀速下錄制和處理圖像。

　　圖像處理是實現(xiàn)高速成像的主要障礙：所有的光子幾乎在同一瞬間到達各感應單元并被計入同一“時間窗”，但是聚合圖像的處理器卻是順序處理這些數(shù)據(jù)。圖像感應幾乎是并行的，圖像處理卻不是。因此，從邏輯上解決該問題的方案是應用大規(guī)模并行處理。所以，每一個或每一組感應單元應該有專屬的處理器。除此之外為了實現(xiàn)高速成像，Eutecus還應用了人眼視覺特性仿真的技術。

　　大規(guī)模圖像并行處理

　　首先，我們要注意的是Eutecus為了達到夢幻般的幀速這一目標使用了大規(guī)模并行處理，但同時還是犧牲了像素的分辨率和色彩。這是在目前半導體技術水平下無法避免的。Eutecus最新的CVT感應處理器僅能處理64×64像素，8或16位灰度級或者完全黑白的圖像。Eutecus相信在同樣工藝結構下可以制造出處理能力達到256×256像素圖像的芯片，大概是0.06兆像素。

　　與現(xiàn)今流行的10.2兆像素數(shù)字SLR (Single-lens Teflex)相比，CVT的分辨率看起來有些低。但是這種分辨率已經(jīng)可以滿足很多應用領域。例如，機器視覺，低分辨率的圖像足以讓機器人繞開小的物體和避免撞墻。在另一些應用領域中，與記錄更多的細節(jié)相比，瞬間檢測高速進程中變化的能力更重要。比如就有客戶使用CVT成像系統(tǒng)研究玻璃摔碎瞬間碎片產(chǎn)生的過程。此外，和人類的眼睛關注視野中的細節(jié)一樣，CVT可以通過對大的區(qū)域里所感興趣的點進行快速計算來充分利用它有限的分辨率。

　　盡管在分辨率和色彩上做出了一些犧牲，CVT通過使用大規(guī)模圖像并行處理獲得的成就仍然令人印象深刻。芯片設計者可以用兩種基本的方法實現(xiàn)這一技術。第一種方法可以傳送最高幀速的圖像。它是由單一芯片組成的，這種芯片使用一種3D bump bonding的技術在處理單元頂上加上圖像感應單元。

　　如圖2所示，在數(shù)以千計的微小銦凸點上，感應單元結合在處理單元頂部，構成了緊密連接在一起的多層芯片。傳感器可以是傳統(tǒng)的CMOS或CCD設備。但是，為了最大化性能，Eutecus使用了一種少見的材料—砷化銦(InGaAs)。砷化銦(InGaAs)感應器對光的敏感度比硅感應器高大約十倍，因此它們可以在更短的曝光時間中記錄圖像，從而滿足高幀速的要求。處理器可以用傳統(tǒng)CMOS工藝制造。

　　第2種實現(xiàn)CVT的基本方法是分別使用成像芯片和處理器陣列。邏輯上與第1種方法一樣，但物理結構不盡相同。雖然有一個高速并行接口將成像傳感器與處理陣列連接起來，但是與直接將傳感器和處理器結合在一起的方法相比，這種方法還是慢了許多。受實現(xiàn)方式的限制，這種方法的最高幀速比第1種方法低了一到兩個數(shù)量級(大約1000到10000幀每秒)。但是，兩個芯片組合在一起的方式也有些好處：它可以使用更高分辨率的成像傳感器，造價更低廉。而且，芯片設計者可以通過對ASIC掩膜或對FPGA編程等方式來實現(xiàn)并行處理器陣列。雖然FPGA只能生成少量的處理器陣列，但是可以大大減少投放市場的時間。

　　第3種實現(xiàn)CVT的方法是將成像感應單元陣列和并行處理器陣列合成在同一晶圓上，和多層芯片方式比起來，這種方式的兩個陣列結合的更緊密。但是，目前的半導體技術無法實現(xiàn)這一方法。因為即使都使用CMOS制造，成像傳感器和ASIC的設計與制造參數(shù)也不同。另外，將感應單元和處理器單元結合在一起將會降低陣列的密度，從而降低芯片的分辨率。而且，陣列單元的光通道將更小，降低了它們的敏感度。盡管如此，該方法仍是未來研究和發(fā)展的主要方向。

　　克服制造的缺點

　　傳感器陣列沒有什么新奇，因此我們把注意力集中到處理器陣列上。Eutecus將幾十個處理單元緊密的結合在一起，各單元之間可以相互聯(lián)系。圖3是C-TON的圖片。這一設計共有8×8，64個處理單元。其他的設計的處理器陣列大小不盡相同。(早期的有4×4陣列)。

　　每個C-TON芯片的單元從64個感應點接受圖像數(shù)據(jù)，所以圖像的分辨率是64×64。全局控制處理器是一個8位微控制器。全局控制器負責處理片外I/O以及向陣列傳輸程序指令。C-TON有2K的全局程序存儲空間，由傳統(tǒng)的0.18微米CMOS制造，工作頻率為100MHz。它的有32位I/O總線，工作頻率也是100MHz，帶寬400MB/s。

　　每個單元內部有一個基于單指令多數(shù)據(jù)的24位處理器，其結構專門為圖像處理進行過優(yōu)化。一個多路復用器接收所有連接到這一單元的感應點的輸出，然后將信號輸送到一個通用8位模數(shù)轉換器。這些模數(shù)轉換器依次連接到處理器上。此外，每個單元和另一個單元共享1k局部內存，每個單元與和它相鄰的單元之間有通信接口。單元之間可以通過共享內存來進行通信，每個時鐘周期傳輸8bits數(shù)據(jù)。不相鄰的單元之間沒有直接聯(lián)系。

　　需要注意的是，像C-TON那樣將成像傳感器和處理器結合在一起的芯片，未經(jīng)處理的數(shù)據(jù)通過數(shù)以千計的銦凸點而不是由傳統(tǒng)的I/O總線從感應器傳輸?shù)教幚砥麝嚵械?。每個單元和在它頂部的感應點之間有專屬的I/O接口，這一巧妙的設計解決了大規(guī)模處理陣列常有的問題：如何通過大規(guī)模陣列傳輸數(shù)據(jù)。

　　另一些大規(guī)模并行設計通過陣列的邊緣接收數(shù)據(jù)，通過網(wǎng)絡傳輸數(shù)據(jù)。但是在“凸點鍵合”多層芯片中，圖像數(shù)據(jù)可以瞬間到達陣列的任何一點，不用繞道沒有延遲。當然，圖像數(shù)據(jù)I/O輸出是仍需穿過整個陣列。但是，通過在本地處理圖像數(shù)據(jù)，處理單元可以減少從芯片輸出的未經(jīng)處理的圖像數(shù)據(jù)。

　　陣列各層的資源分配

　　像C-TON這樣將傳感器和處理器結合在一起的芯片從抽象的角度說有多層硬件資源：成像傳感器，多路復用器，ADC,處理器以及存儲器。成像感應器由獨立的凸點鍵合的晶圓組成的。多路復用器和ADC是混合信號部件，一層獨立的晶圓。處理器和SRAMS占用同一層晶圓的一部分，同樣使用數(shù)字CMOS技術制造。圖4是各層的示意圖視。

　　單元內部的處理器有ALU,形態(tài)單元和比較單元。24位ALU進行8或16位算術操作(加，減，乘)，形態(tài)單元負責對黑白圖像進行簡單的1位操作并輔助ALU處理灰度圖像。處理器每個時鐘周期處理器執(zhí)行一條指令，可以從單元存儲器，和相鄰單元公用的存儲器以及成像傳感器這3處讀取數(shù)據(jù)。表1給出了C-TON進行簡單圖像處理時的性能數(shù)據(jù)。

　　雖然陣列中的所有單元必須運行同樣的程序，但是通過使用數(shù)據(jù)驅動處理(data-driven)和bit-mashing技術可以讓每個單元處理像素時有微小的差異。這也是將感應點和處理器在陣列中直接鍵合的優(yōu)點。圖5展示了對獨立像素進行特殊操作的好處。通過獨立調節(jié)每個像素，處理器可以有效的擴展圖像的動態(tài)范圍重新捕獲丟失的色彩和細節(jié)。

　　為了降低能耗，Eutecus在處理器陣列中使用了擴展時鐘門，不工作的處理器可以關閉。Eutecus表示，工作頻率為100MHz的C-TON全部處理器工作的最大耗電量為300mW，最低可以低于50mW。這使得C-TON適用于電池供電的系統(tǒng)。然而，由于傳感器發(fā)熱產(chǎn)生“熱“像素,散熱就成為了這一設計潛在的問題。當成像傳感器發(fā)熱時生成的圖像噪點較多，特別是在圖像較暗的部分。不過開發(fā)人員可以用圖像處理器增大信噪比來減少這種影響。

　　眾多應用

　　Eutecus的技術可以應用于眾多領域，C-TON這個Eutecus技術的早期應用例子，只是其中之一。陣列的大小以及每個單元對應的感應點數(shù)都不是一成不變的。根據(jù)設計的需要，一個單元既可以像C-TON一樣處理8×8像素塊的數(shù)據(jù)，也可以只處理單個像素。早期0.18微米CMOS制造的模型芯片只能處理32×32個像素。

　　下一代設計可以像ASIC一樣，用90nmCMOS實現(xiàn)處理器陣列，而不用把成像傳感器鍵合到晶圓上。芯片將使用傳統(tǒng)的32位I/O總線和傳感器通訊。Eutecus表示，雙芯片運行方式可以擁有180×180的處理器陣列，運行時鐘120MHz，支持最大720×720的分辨率。該設計將通過犧牲幀速來提高分辨率，降低制造成本。盡管如此，該設計仍可每秒捕獲1000幀圖像并對圖像進行一些形態(tài)操作。

　　然而，Eutecus的目標并不是成為一個無晶圓半導體公司。其主要商業(yè)模式是發(fā)放類似于軟IP的CVT技術許可。為了實現(xiàn)這一目標，Eutecus為客戶提供處理器陣列及相應部件，它們就像合成的VHDL模型，顧客可將其嵌入到自己的ASIC或FPGA中。Eutecus提供的開發(fā)工具可以讓客戶設計所需的任何大小的陣列。公司還提供為圖像處理優(yōu)化過的“Instant Vision”功能庫，供客戶進行軟件開發(fā)。該庫的初等函數(shù)用組合語言編寫，客戶可以使用高級語言如C，C++編寫應用軟件。

　　由于在可編程邏輯芯片中無法整合成像傳感器，如果對FPGA編程來生成處理器而不是對ASIC進行掩膜生成處理器，那么就需要片外傳感器。而且，由于FPGA的性能局限，處理器陣列的大小有所減少。然而，與制造一個ASIC相比，對FPGA編程更快更便宜。

　　有一個這樣的設計，它在Xilinx Virtex-4LX中生成一個20×20的處理器陣列。全局控制處理器是RSIC或在同一FPGA中生成的DSP核。在150MHz的工作頻率下，這一設計每秒可執(zhí)行600億條指令，最大圖像分辨率為160×160像素(每個處理器64個像素)。Ectecus公布的最大幀速為每秒3000幀。

　　視覺仿真

　　如果客戶對幀速的要求比較低，雙芯片實現(xiàn)方式除了降低費用，縮短投放市場的時間外還有一個優(yōu)勢：一個獨立的感應器可以比多層芯片有更高的圖像分辨率。通過模仿人類視覺的某些特性，開發(fā)人員實現(xiàn)更高的分辨率。

　　傳統(tǒng)的數(shù)字圖像處理器往往掃描整個圖像，而很少或根本不關注圖像的細節(jié)。但是我們用另一種方式觀察圖像：眼睛迅速的掃過整個圖像，找出一些關鍵點，快速的形成一副要素圖?？茖W家稱之為“快速跳躍”。這是必須的，因為雖然我們的眼睛可以觀察一個大約210度的廣闊的視野，但是在每一刻我們只能聚焦于其中的一小部分。這個點叫做視網(wǎng)膜凹點，是我們大腦分析能力最集中的一點。而周邊的視覺主要是用來檢測運動或照度的突然變化，這些變化能傳達潛在的威脅。圖7說明了快速視覺和傳統(tǒng)視覺的不同之處。

　　當CVT陣列無法實時處理成像傳感器的像素時，開發(fā)人員可以通過處理小區(qū)域的像素的方法來模仿人類視覺的快速跳躍。事實上，處理陣列就相當于視網(wǎng)膜凹點，從傳感器的一部分跳到另一部分。智能算法可以通過用不同的方法處理像素來計算每個視網(wǎng)膜凹點的內容。第一步是在低分辨率下掃描全圖找到可能感興趣的點，或者用軟件比較相鄰的幀，找出變化的部分，然后放大該區(qū)域。圖8顯示了這一過程。

　　智能視頻監(jiān)控，是Eutecus一直在尋求的CVT技術的商業(yè)應用。通過程序控制，攝像機可以檢測廣闊視野中的運動，然后放大任何運動的物體，進一步的分析它。如果攝像機發(fā)現(xiàn)了感興趣的東西，它可以向保安發(fā)出警報。用合適的軟件監(jiān)控運動，攝像機可以自己做出判斷而不用像現(xiàn)在那樣依靠中央計算機進行監(jiān)控或把圖像傳電視墻由安保人員來監(jiān)控。

　　這可不是科幻小說里的情節(jié)，某些傳統(tǒng)的數(shù)字攝像機已經(jīng)可以進行簡單的實時圖像分析。例如Canon和Fuji研制出了供普通消費者使用攝像機，這種攝像機在其視野內最多可以監(jiān)控10個面孔。這種攝像機還可以鎖定監(jiān)控對象，調節(jié)曝光。Eutecus的超高幀速和單一像素處理技術大大提高了智能視頻監(jiān)控的可行性。

　　然而，編程人員必須做出一個選擇：軟件進行的分析越多，處理每幅圖像所用時間越多，從而降低了幀速。如果一個程序控制工作頻率為100MHz的C-TON芯片達到每秒處理100000幀圖像的峰值陣列中的每一個處理器只有10微秒來分析和修改像素。如表1所示，C-TON可以在如此短的時間內完成這些簡單的操作，但是要完成更復雜的任務就需要降低幀速或使用更快的芯片。

　　為超高幀速編寫程序的人員將使用組合語言而不是調用C++中預先寫好的函數(shù)。目前，Eutecus和其早期客戶密切合作開發(fā)軟件。Eutecus承認，將來低級開發(fā)工具是必需的。

　　Eutecus正在進入市場

　　Eutecus生產(chǎn)了一個有4×4處理器陣列的早期模板芯片。這一概念芯片包含一個可以捕獲32×32像素的凸點鍵合成像傳感器。更先進的C-TON工程樣品芯片正在進行測試，這種芯片擁有8×8處理器陣列，64×64像素成像傳感器。這些芯片都證明了Eutecus的技術是可行的，當用戶掩膜ASIC或對FPGA編程時，Eutecus將幫助用戶設計產(chǎn)品和編寫軟件。

　　公司的主要目標是發(fā)放IP許可。Eutecus正在打造其IP塊的第一個版本：一個用于ASIC實現(xiàn)方式，一個用于FPGA實現(xiàn)方式。而其改進版將在本季度完成。于此同時，Eutecus還在開發(fā)其第一個瞬間可視圖像軟件開發(fā)庫。共有信號處理，圖像處理，多目標跟蹤以及特征識別4個庫。此外，Eutecus還提供了一個開發(fā)系統(tǒng)，該系統(tǒng)為用戶提供了一個供用戶參考的智能監(jiān)控攝像機設計范例。

　　超高幀速傳輸技術非常專業(yè)化，但是這并不意味著該技術的市場范圍非常小。相反，鑒于以前的先例，MPR認為超高幀速傳輸技術將為開發(fā)人員帶來靈感，引發(fā)從未出現(xiàn)過甚至從未有人想像過的應用。

　　當1839年Louis Daguerre發(fā)表基本攝影技術時，世界對其用銀版照相法捕捉逼真影像的能力大加稱贊。但是由于技術局限，早期還無法捕捉瞬間景象。18世紀末，寬孔徑鏡頭和更敏感的感光乳劑的出現(xiàn)使得瞬間曝光得以實現(xiàn)。瞬間攝像從技術上來說僅僅只是改進，但從應用角度來說，這和攝影技術的發(fā)明一樣是一次革命。這項技術使人類擺脫了時間的限制，可以觀察到飛行的生物以及從未見過的景象。最著名的例子就是Eadweard Muybridge用暫停動作圖像證明了馬在奔跑的時候四蹄同時離地，這一結果畫家們幾個世紀以來從來沒有觀察到。

　　20世紀，使用模擬技術的高速攝影進一步擴展了人類的視野。Harold Edgerton用電子閃光捕捉到子彈穿過蘋果的圖像。專用高速膠片攝像機為我們展示了水滴的形態(tài)以及核彈爆炸時可怕的景像。但是，在過去這些攝制這些圖像不但需要昂貴的設備，還受到機械影像傳輸?shù)南拗?。攝像機無法反映出其所攝的景象。

　　超高速自適應攝像是21世紀攝像技術的一次革命。很快，普通消費者負擔的起的攝像機將被研制出來。這種攝像機可以攝取生物無法察覺到的事物。過不了多久，這種攝像機將被用作被動監(jiān)視器。將傳感器陣列和處理其陣列結合在一起是一個令人印象深刻的技術創(chuàng)新，因為它可以在感應成像的同時處理圖像。

　　和其它新技術一樣，高速數(shù)字成像技術的應用既令人興奮又令人恐懼。但是它是人類感知的一次擴展，為智能化機器的設計提供了一條新路。