3D視覺(jué)的市場(chǎng)技術(shù)概覽
1 視覺(jué)正從2D向3D升級(jí)
機(jī)器視覺(jué)起源于上世紀(jì)50年代。隨著傳感和計(jì)算等技術(shù)的發(fā)展,機(jī)器視覺(jué)憑借其分辨率高、速度快、范圍寬、適應(yīng)性強(qiáng)、精度高、可量化及可持續(xù)工作等優(yōu)勢(shì),將圖像處理應(yīng)用于工業(yè)、商業(yè)和人們的日常生活中,成為這些行業(yè)發(fā)展的助推力。
隨著智能制造的不斷深入,面對(duì)復(fù)雜的物件辨識(shí)和尺寸量度任務(wù),以及人機(jī)互動(dòng)所需要的復(fù)雜互動(dòng),2D視覺(jué)在精度和距離測(cè)量方面均出現(xiàn)部分技術(shù)局限,市場(chǎng)對(duì)3D視覺(jué)的需求開(kāi)始與日俱增。
3D空間計(jì)算概念大概15~20年前就已經(jīng)有了,近年來(lái)隨著3D傳感器、AI、大數(shù)據(jù)和機(jī)器人過(guò)程自動(dòng)化等領(lǐng)域的蓬勃發(fā)展,帶來(lái)了實(shí)時(shí)、準(zhǔn)確的3D目標(biāo)檢測(cè),為機(jī)器人的物體識(shí)別、物體檢測(cè)、物體分揀、視覺(jué)定位/導(dǎo)航、有效避障等各項(xiàng)任務(wù)提供保障。以正在興起的人形機(jī)器人應(yīng)用領(lǐng)域?yàn)槔?D視覺(jué)傳感器可以幫助機(jī)器人高效完成人臉識(shí)別、距離感知、避障、導(dǎo)航等功能,使其更加智能化。
圖1 2024-2029年全球機(jī)器視覺(jué)市場(chǎng)規(guī)模預(yù)測(cè)(單位:億美元)
2 機(jī)器視覺(jué)市場(chǎng)
據(jù)前瞻產(chǎn)業(yè)研究院預(yù)測(cè),全球機(jī)器視覺(jué)市場(chǎng)2024—2029年的復(fù)合年增長(zhǎng)率將在20%左右,至2029 年,全球機(jī)器視覺(jué)市場(chǎng)規(guī)模將有望接近400億美元。
據(jù)GGII(高工產(chǎn)業(yè)研究院)數(shù)據(jù)顯示,2021年全球機(jī)器視覺(jué)市場(chǎng)規(guī)模約為804億元,同比增長(zhǎng)12%,預(yù)計(jì)至2025年該市場(chǎng)規(guī)模將超過(guò)1200億元。2022-2025年的年均增長(zhǎng)率約為12%。在這期間,中國(guó)的增長(zhǎng)速度尤其快。2021年,中國(guó)機(jī)器視覺(jué)市場(chǎng)規(guī)模138億元(注:該數(shù)據(jù)未包含自動(dòng)化集成設(shè)備規(guī)模),同比增長(zhǎng)47%,其中2D 視覺(jué)市場(chǎng)規(guī)模約為127 億元,3D 視覺(jué)市場(chǎng)約為12億元。預(yù)計(jì)2025年,我國(guó)機(jī)器視覺(jué)市場(chǎng)規(guī)模將達(dá)到469億元,其中2D視覺(jué)市場(chǎng)規(guī)模將超過(guò)360億元,3D視覺(jué)市場(chǎng)規(guī)模將超過(guò)100億元。
圖2 2D與3D圖比對(duì)(圖源:奧比中光官網(wǎng))
可見(jiàn),我國(guó)不僅機(jī)器視覺(jué)市場(chǎng)高速發(fā)展,而且3D視覺(jué)市場(chǎng)異軍突起,市占率從2021年的9%,增加到2025年的21%,是一個(gè)妥妥的朝陽(yáng)行業(yè)。
3D傳感器是3D視覺(jué)的重要組成部分,據(jù)Allied Market Research(AMR,聯(lián)合市場(chǎng)研究)預(yù)計(jì),到2031年,全球3D傳感器市場(chǎng)預(yù)計(jì)將達(dá)到570億美元,自2022年起復(fù)合年增長(zhǎng)率為13%。該技術(shù)的首次商業(yè)用途是在游戲領(lǐng)域的3D成像和檢測(cè),在過(guò)去10年中,受智能手機(jī)需求以及3D面部識(shí)別解鎖手機(jī)功能的推動(dòng),消費(fèi)設(shè)備中的3D傳感技術(shù)不斷增加。
3D傳感器及信號(hào)調(diào)理廠商眾多,本文涉及了英飛凌、Teledyne e2v、安森美、羅姆、ADI、奧比中光等公司的采訪與網(wǎng)上信息摘錄。
圖3 部分3D測(cè)量方案
3 3D視覺(jué)的特點(diǎn)
過(guò)去數(shù)十年中,2D成像技術(shù)有了長(zhǎng)足的發(fā)展,分辨率從幾十萬(wàn)像素發(fā)展到現(xiàn)在的上億像素,色彩還原更真實(shí),逆光環(huán)境下也能通過(guò)HDR 技術(shù)提升圖像質(zhì)量。
然而,2D圖像僅能夠提供紋理(色彩)信息,無(wú)法提供實(shí)現(xiàn)更精準(zhǔn)識(shí)別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。
3D視覺(jué)技術(shù)相對(duì)于2D技術(shù)提供了更豐富的被攝目標(biāo)信息,可以在六個(gè)自由度(x、y、z、旋轉(zhuǎn)、俯仰、橫擺)上定位被攝目標(biāo),還原人眼視角的三維立體世界(如圖2)?;?D視覺(jué)傳感器采集的信息,不但有紋理(色彩)信息,還增加深度信息,也就是視場(chǎng)內(nèi)的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈,就能得到點(diǎn)云圖和精準(zhǔn)的1∶1 還原的3D 模型。而有了這些信息作為輸入,應(yīng)用場(chǎng)景會(huì)大為增多,性能也會(huì)大幅提升。
● 結(jié)構(gòu)光方案;
● 深度傳感器。種類有:iToF(間接飛行時(shí)間)/dToF(直接飛行時(shí)間)、FMCW(調(diào)頻連續(xù)波)、超聲波及雷達(dá)/ 激光雷達(dá)(Lidar)。
這些方法適用于不同的應(yīng)用場(chǎng)景。以人形機(jī)器人為例,視覺(jué)傳感技術(shù)主要使用多目立體視覺(jué)和iToF 法。多目立體視覺(jué)是立體視覺(jué)方法中的一種,最少使用3 個(gè)攝像頭,用單個(gè)或多個(gè)攝像頭從多個(gè)視點(diǎn)獲取同一個(gè)目標(biāo)場(chǎng)景的多幅圖像,重構(gòu)目標(biāo)場(chǎng)景的三維信息,特斯拉和UCLA(加州大學(xué)洛杉磯分校)Artemis、優(yōu)必選使用3個(gè)攝像頭實(shí)現(xiàn)多目立體視覺(jué)。ToF(Time of Flight,飛行時(shí)間測(cè)距)相機(jī)通過(guò)測(cè)量光源發(fā)送到場(chǎng)景中,并經(jīng)由物體反射到感測(cè)組件來(lái)獲取深度信息,若是通過(guò)發(fā)射波形和反射接收的時(shí)間差是dToF,而測(cè)量的是發(fā)射波形和反射接收波形之間的相位移則是iToF。小米和波士頓動(dòng)力使用iToF。
4 3D視覺(jué)傳感器
3D視覺(jué)傳感器的分類如表1所示。
表1 3D視覺(jué)感知技術(shù)差異(來(lái)源:奧比中光)
● 結(jié)構(gòu)光
通過(guò)光學(xué)投射模塊將具有編碼信息的結(jié)構(gòu)光投射到物體表面,在被測(cè)物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后,通過(guò)算法處理得出被測(cè)物表面的三維輪廓數(shù)據(jù),以還原目標(biāo)物體三維空間信息(如圖4)。結(jié)構(gòu)光技術(shù)是一種主動(dòng)的三維測(cè)量技術(shù)。
圖4 各種結(jié)構(gòu)光原理
其特點(diǎn)是:由于結(jié)構(gòu)光是主動(dòng)光,優(yōu)勢(shì)是在昏暗環(huán)境和夜間可用,不需要根據(jù)場(chǎng)景的變化而有變化,降低了匹配的難度。但劣勢(shì)是在強(qiáng)光環(huán)境中會(huì)受到干擾,室外基本不可用。另外,由于主動(dòng)結(jié)構(gòu)光是帶編碼的,所以多個(gè)結(jié)構(gòu)光相機(jī)同時(shí)使用也是有問(wèn)題的。在實(shí)測(cè)中,結(jié)構(gòu)光在角度比較小的側(cè)面上反射比較嚴(yán)重,經(jīng)常出現(xiàn)較大的黑洞,當(dāng)然黑色物體和玻璃是結(jié)構(gòu)光的大BUG,一個(gè)吸光一個(gè)透光。
● 立體視覺(jué)法
指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息。目前立體視覺(jué) 3D 可以通過(guò)單目、雙目、多目實(shí)現(xiàn)。雙目機(jī)器視覺(jué)是指使用兩個(gè) RGB 彩色相機(jī)采集圖像,并通過(guò)后端的雙目匹配和三角測(cè)量等算法,計(jì)算得到深度圖的技術(shù)方法。雙目技術(shù)使用的是物體本身的特征點(diǎn),由于每一次雙目匹配都面對(duì)不同的圖像,都需要重新提取特征點(diǎn),計(jì)算量非常大。雙目是一種被動(dòng)的三維測(cè)量技術(shù)。
特點(diǎn)是:硬件復(fù)雜度較低,弱光或目標(biāo)特征不明顯時(shí)幾乎不可用。同時(shí),雙目相機(jī)的運(yùn)算復(fù)雜度也非常高,對(duì)硬件計(jì)算性能要求極高。因?yàn)橛?jì)算能力要求高,雙目相機(jī)極少在嵌入式系統(tǒng)設(shè)備中使用,雙目相機(jī)在通用場(chǎng)景中表現(xiàn)也并不太好,像諸如SLAM(同步定位與地圖構(gòu)建)導(dǎo)航等應(yīng)用。但在工業(yè)自動(dòng)化領(lǐng)域和x86 系統(tǒng)中,雙目相機(jī)應(yīng)用廣泛,因?yàn)楣I(yè)自動(dòng)化中,雙目相機(jī)可以解決特定場(chǎng)景中的特定問(wèn)題。
● 飛行時(shí)間(ToF)
由發(fā)射和反射光信號(hào)之間的時(shí)間延遲來(lái)測(cè)量,給定固定的光速。為了精確地測(cè)量時(shí)延,經(jīng)常使用短光脈沖。這種技術(shù)與3D 激光傳感器原理基本類似,只不過(guò)3D激光傳感器是逐點(diǎn)掃描,而ToF 相機(jī)則是同時(shí)得到整幅圖像的深度信息。
特點(diǎn)是:和結(jié)構(gòu)光方式相比,ToF 并不需要對(duì)光的圖案做復(fù)雜解析,只需要反射回來(lái)即可,這大大提高了魯棒性,深度信息還原度比結(jié)構(gòu)光好很多,點(diǎn)云的完整性更好。主要表現(xiàn)在:深度圖質(zhì)量要高于結(jié)構(gòu)光,抗強(qiáng)光的干擾能力也更強(qiáng)一些,精度也要更高一些。但對(duì)于玻璃,是光技術(shù)的死穴,只能靠其他技術(shù)來(lái)彌補(bǔ)了。ToF速度高,但精度只有毫米級(jí)。ToF技術(shù)的難度較高,成本也較高。
5 工程師該如何選型?
這取決于要以3D 形式可視化的目標(biāo)應(yīng)用/ 產(chǎn)品。
首先,選擇正確的技術(shù)可能有挑戰(zhàn)性。Teledyne e2v公司的發(fā)言人告訴EEPW記者,通過(guò)研究所考慮場(chǎng)景的要求來(lái)完成的,諸如分辨率、距離范圍(最小和最大)、視場(chǎng)、幀速率、環(huán)境和照明方案(室內(nèi)、室外或混合),當(dāng)然還有所需的準(zhǔn)確性和可重復(fù)性。
其次,評(píng)估全局系統(tǒng),包括光學(xué)系統(tǒng)、照明(如果使用主動(dòng)技術(shù))、處理等。并綜合考慮參數(shù)以做出正確的權(quán)衡,從而盡可能地優(yōu)化最終系統(tǒng)。
Teledyne e2v擁有廣泛的3D傳感器和模塊產(chǎn)品組合,有用于激光三角測(cè)量、立體視覺(jué)、結(jié)構(gòu)光的傳感器,還有用于飛行時(shí)間和角度敏感像素(即5D技術(shù))的傳感器的3D技術(shù),可滿足從低端到高端產(chǎn)品的多個(gè)市場(chǎng),諸如AGV/AMR、機(jī)械臂、工廠過(guò)程控制、物流和倉(cāng)庫(kù)自動(dòng)化等。
6 以ToF解鎖3D立體空間
ToF分為dToF 和iToF。dToF和iToF在傳感器原件上的區(qū)別是:iToF是使用CMOS工藝開(kāi)發(fā)的圖像傳感器,而dToF需要使用單光子雪崩二極管(SPAD)的傳感器。dToF有長(zhǎng)距離與抗干擾性的特點(diǎn),較適用于長(zhǎng)距離的量測(cè)。而iToF由于有成本與空間圖像分辨率的優(yōu)勢(shì),很適合AI應(yīng)用。
由于iToF除了對(duì)于距離與空間的重現(xiàn)具有高度的可靠度外,還有分辨率的優(yōu)勢(shì),近年發(fā)展很快。“iToF的應(yīng)用市場(chǎng)非常廣闊,從消費(fèi)類到工業(yè)類,再到汽車電子市場(chǎng)都有非常多的應(yīng)用場(chǎng)景?!?英飛凌科技大中華區(qū)消費(fèi)、計(jì)算與通訊業(yè)務(wù)高級(jí)市場(chǎng)經(jīng)理張訓(xùn)彬告訴EEPW記者,其iToF專注于智能手機(jī)、智能掃地機(jī)和智能汽車應(yīng)用。其3D ToF傳感器廣受市場(chǎng)好評(píng),目前每年的出貨量都在幾百萬(wàn)片以上。
iToF之所以流行,因?yàn)橄啾扔诮Y(jié)構(gòu)光、多目等3D感知方案,iToF是相對(duì)簡(jiǎn)單的。但是,工程師們?nèi)匀幻鎸?duì)著很多行業(yè)內(nèi)的技術(shù)挑戰(zhàn),比如多路徑干擾、飛點(diǎn)、HDR、運(yùn)動(dòng)模糊等。為此,英飛凌積極與合作伙伴合作,例如與pmd公司(湃安德)合作,其為英飛凌提供了先進(jìn)的深度算法,校準(zhǔn)、測(cè)試方案;歐菲光公司創(chuàng)新性地提出了雙光源(hToF)的解決方案,解決了很多行業(yè)內(nèi)的難點(diǎn)、痛點(diǎn)問(wèn)題,從而為3D ToF在機(jī)器人的智能化的發(fā)展提供應(yīng)用價(jià)值。
7 多種技術(shù)組合,使3D視覺(jué)還原“真像”
僅有3D傳感器還不夠,還需要相關(guān)的芯片等技術(shù)配合。
● LiDAR 激光二極管與GaN器件匹配
物流行業(yè)正進(jìn)入智慧物流時(shí)代,需要越來(lái)越多的AGV(無(wú)人搬運(yùn)車)和AMR(自主移動(dòng)機(jī)器人),能精準(zhǔn)地感測(cè)更遠(yuǎn)距離、不易受到陽(yáng)光干擾的LiDAR(3D感測(cè)和距離感測(cè))技術(shù)備受矚目。
為了使LiDAR支持更遠(yuǎn)的距離并實(shí)現(xiàn)更高的精度,羅姆開(kāi)發(fā)出了可實(shí)現(xiàn)更窄激光線寬的自有專利技術(shù)。并且與之配合,還有能驅(qū)動(dòng)LiDAR 激光二極管的高速開(kāi)關(guān)GaN HEMT。該GaN器件能夠以1 ns左右的超窄脈沖驅(qū)動(dòng)激光器,而這是以往的Si 器件無(wú)法實(shí)現(xiàn)的。1 ns的時(shí)間偏差相當(dāng)于30 cm的距離偏差,因此如果脈沖寬度過(guò)寬將無(wú)法進(jìn)行高精度的距離檢測(cè),而使用GaN 器件則可以攻克這一難題。另外,由于電流流動(dòng)時(shí)間變短,發(fā)熱量降低,因此可實(shí)現(xiàn)更大電流驅(qū)動(dòng),從而可以檢測(cè)更遠(yuǎn)的距離。
● 傳感器及連接解決方案組合
工業(yè)自動(dòng)化正經(jīng)歷一場(chǎng)重要變革,機(jī)器人和機(jī)械設(shè)備正從能夠執(zhí)行高精度重復(fù)任務(wù)的全自動(dòng)設(shè)備,逐步演變?yōu)槟軌蜃灾鞣磻?yīng)并適應(yīng)環(huán)境變化和新輸入的智能自主化機(jī)器。隨著工業(yè)自動(dòng)化技術(shù)向自主化不斷發(fā)展,機(jī)器能夠準(zhǔn)確、可靠、安全地感知其周圍環(huán)境以有效執(zhí)行任務(wù)變得至關(guān)重要。ADI機(jī)器人與工業(yè)視覺(jué)產(chǎn)品線總監(jiān)Maurizio Granato稱,這往往需要多項(xiàng)技術(shù)解決方案。
ADI能夠?qū)⑸疃雀袦y(cè)(飛行時(shí)間)技術(shù)與連接解決方案(如TSN以太網(wǎng)、GMSLTM 和Gigaspeed 隔離)相結(jié)合,應(yīng)用于機(jī)器人、智能機(jī)械設(shè)備和數(shù)字工廠等領(lǐng)域。ADI工業(yè)視覺(jué)技術(shù)部總監(jiān)Erik Barnes以ToF應(yīng)用舉例,ADI不僅提供高性能的傳感器,還提供帶有深度處理芯片和算法支持的子系統(tǒng)級(jí)解決方案,幫助客戶將ToF技術(shù)快速集成至其產(chǎn)品中。例如,ADI率先推出了一百萬(wàn)像素(1 MP)的ToF深度傳感模塊,ADI的深度圖像信號(hào)處理器(ISP)提供了一個(gè)專用的數(shù)字計(jì)算引擎。在視頻數(shù)據(jù)傳輸領(lǐng)域也擁有關(guān)鍵創(chuàng)新技術(shù),諸如ADI的千兆位多媒體串行鏈路(GMSL) 是一種性價(jià)比高、簡(jiǎn)單且可擴(kuò)展的SerDes 技術(shù)。
● SoC計(jì)算芯片與模組
2D升級(jí)到3D以后,一種比較傳統(tǒng)的做法是用一個(gè)性能較強(qiáng)的通用芯片或FPGA去運(yùn)行軟件化的3D算法,其優(yōu)點(diǎn)是靈活性高,但也存在一些缺板:①延時(shí)、功耗、系統(tǒng)成本較大。②對(duì)于一些較高的性能需求,諸如低延時(shí)、高分辨率/ 高幀率,用常規(guī)的軟件算法或FPGA 很難實(shí)現(xiàn)。③隨著很多應(yīng)用對(duì)真實(shí)世界的感知越來(lái)越復(fù)雜,這些設(shè)備加在一起的價(jià)格比較昂貴。
為了解決此矛盾,芯明智能把3D 算法做成了芯片。副總裁周凡指出,目前核心量產(chǎn)的芯片有:NU4100和NU4000,都是12 nm制程,它們作為系統(tǒng)的協(xié)處理器,有較強(qiáng)的邊緣計(jì)算能力,可以幫助大幅降低整個(gè)系統(tǒng)的成本和功耗。NU4500是最新款的芯片,今年會(huì)去做tape out。此外,由于很多機(jī)器人客戶很難直接使用芯片,為此,芯明智能推出了各種視覺(jué)模組,覆蓋不同的視覺(jué)范圍、接口要求、防水防塵等級(jí)等。
8 機(jī)器視覺(jué)的發(fā)展歷史
機(jī)器視覺(jué)起源于上世紀(jì)50年代,Gilson提出了“光流”概念,并在相關(guān)統(tǒng)計(jì)模型的基礎(chǔ)上發(fā)展了逐像素計(jì)算模型,標(biāo)志著二維圖像統(tǒng)計(jì)模型的發(fā)展(如圖5)。
圖5 機(jī)器視覺(jué)發(fā)展歷程
主要驅(qū)動(dòng)如圖6所示。
圖6
2 機(jī)器視覺(jué)的成長(zhǎng)因素
機(jī)器視覺(jué)的優(yōu)勢(shì)是顯而易見(jiàn)的,與人眼相比,機(jī)器不僅不會(huì)疲勞,具有人所不具有的一致性和重復(fù)性,而且機(jī)器可以看到和使用可見(jiàn)光以外的其它光源信息。檢測(cè)速度和精確性也是機(jī)器視覺(jué)檢測(cè)具備的一個(gè)明顯優(yōu)勢(shì)。
表2 機(jī)器視覺(jué)比人類視覺(jué)更有優(yōu)勢(shì)
由上表可見(jiàn),機(jī)器視覺(jué)性能優(yōu)勢(shì)顯著。隨著技術(shù)持續(xù)創(chuàng)新,未來(lái)機(jī)器視覺(jué)將朝向3D視覺(jué)方向不斷發(fā)展和精進(jìn)。
參考文獻(xiàn):
[1]智能制造的“眼睛”:機(jī)器視覺(jué)發(fā)展的“前世今生”-OFweek工控網(wǎng).(2021-6-4).
[2] 前瞻產(chǎn)業(yè)研究院.中國(guó)機(jī)器視覺(jué)產(chǎn)業(yè)發(fā)展前景與投資預(yù)測(cè)分析報(bào)告.
[3] 王兵.人形機(jī)器人產(chǎn)業(yè)鏈分析——3D視覺(jué).(2024-1-15).與非網(wǎng).
(本文來(lái)源于《EEPW》202411)
評(píng)論