博客專欄

EEPW首頁 > 博客 > 工業(yè)檢測:基于密集尺度特征融合&像素級不平衡學(xué)習(xí)框架

工業(yè)檢測:基于密集尺度特征融合&像素級不平衡學(xué)習(xí)框架

發(fā)布人:CV研究院 時間:2022-04-14 來源:工程師 發(fā)布文章

圖片

論文地址:https://arxiv.org/pdf/2203.09387v1.pdf

計算機視覺研究院專欄

作者:Edison_G

知識蒸餾已成功應(yīng)用于圖像分類。然而目標檢測要復(fù)雜得多,大多數(shù)知識蒸餾方法都失敗了。


01

圖片

前言

圖片


邊緣檢測是計算機視覺領(lǐng)域的一項基本任務(wù),是視覺場景識別和理解的重要預(yù)處理操作。在常規(guī)模型中,生成的邊緣圖像模糊不清,邊緣線也很粗,這通常需要使用非極大值抑制(NMS)和形態(tài)細化操作來生成清晰而細的邊緣圖像。

在今天分享中,研究者旨在提出一種無需后處理即可生成高質(zhì)量邊緣圖像的單階段神經(jīng)網(wǎng)絡(luò)模型。所提出的模型采用經(jīng)典的編碼器-****框架,其中使用預(yù)訓(xùn)練的神經(jīng)模型作為編碼器,并且將每個級別的特征相互融合的多特征融合機制作為可學(xué)習(xí)的****。

圖片

此外,研究者提出了一種新的損失函數(shù),通過抑制真陽性(TP)邊緣和假陰性(FN)非邊緣附近的假陽性(FP)邊緣信息來解決邊緣圖像中的像素級不平衡問題。在幾個基準數(shù)據(jù)集上進行的實驗結(jié)果表明,所提出的方法在不使用NMS和形態(tài)細化操作的情況下實現(xiàn)了最先進的結(jié)果。


02

圖片

背景

圖片

在機器視覺檢測設(shè)備中,缺陷檢測作用是機器視覺檢測設(shè)備使用最普遍的作用的一種,主要是檢驗產(chǎn)品表面的各類信息內(nèi)容。在當(dāng)代工業(yè)自動化制造中,連續(xù)性批量生產(chǎn)的每一個工藝都是有相應(yīng)的缺陷率,單獨看盡管比例不大,但相乘后卻成為了企業(yè)沒法提升良率的難題,而且在經(jīng)過了完整性制程后再剔除殘品成本費會高許多,所以,及時性檢驗和祛除不良品對質(zhì)量控制和成本控制十分主要,也是制造產(chǎn)業(yè)更進一步升級的主要根基。

我認為缺陷檢測沒有啥難的,基本上都可以做。那為啥槽點還那么多?我認為很大一部分是AI的槽點,因為目前使用AI來做是主流,或者說只傳統(tǒng)方法搞不定的,沒辦法,只有上AI的方法。AI的槽點有很多,例如:(摘自于知乎皮特潘)

  • 多少人工就有多少智能,太依賴于標注的數(shù)據(jù);

  • 過擬合嚴重,泛化能力差;

  • 容易被攻擊到,沒有提取到真正的特征;

  • 提取特征太多抽象,可解釋性差,大家都是“黑盒子”玩家;

  • 經(jīng)驗學(xué)、嘗試學(xué),沒有建立起方法論,trick太多,很多都是馬后炮強行解釋;

  • “內(nèi)卷”嚴重,nlp領(lǐng)域的sota 拿到CV,各種模改就work了?甚至都使用mlp進行返租現(xiàn)象,讓我們一時半會摸不到方向。

當(dāng)然,學(xué)術(shù)界和工業(yè)界也有一條巨大的鴻溝。學(xué)術(shù)界在于新,有創(chuàng)新點,在開源數(shù)據(jù)上各種嘗試。工業(yè)界強調(diào)的是精度、成本、落地。再者場景過于分散,沒辦法達成一致的共識,場景、數(shù)據(jù)、需求等均是如此。

單單從工業(yè)界來看,在“缺陷檢測”這一個細分的場景(其實也不是啥細分場景,所有找異常的都可以叫缺陷檢測)。

[Deep crisp boundaries:Fromboundariestohigher-level tasks]針對高級卷積的空間分辨率低和相鄰像素的相似響應(yīng)提出了CED方法。[Learning to predict crisp boundaries]認為邊緣像素和非邊緣像素之間的高度不平衡是導(dǎo)致較厚邊緣的原因之一,因此提出了LPCB模型。他們將ResNeXt模塊插入到編碼器-****模型中,并引入Dice系數(shù),使CNN無需后處理(NMS)即可產(chǎn)生清晰的邊界。[Deep Structural Contour Detection]提出了一種用于生成高質(zhì)量邊緣信息的DSCD方法。受SSIM的啟發(fā),他們提出了一種新的損失函數(shù),并在模型中添加了一個超模塊,以生成質(zhì)量更好的邊緣特征。[Unmixing Convolutional Features for CrispEdge Detection]為CNN中的混合現(xiàn)象提出了上下文感知跟蹤策略,分解邊界特征以解決定位模糊問題。受先前研究的啟發(fā),[Learning Crisp Boundaries Using Deep Refinement Networkand Adaptive Weighting Loss]提出了一種自適應(yīng)加權(quán)損失函數(shù)和一個新的網(wǎng)絡(luò)DRNet,以堆疊多個細化模塊并獲得更豐富的特征表示,從而實現(xiàn)清晰的邊界信息。


03

圖片

新框架

圖片

Model structure diagram

圖片

新提出的方法采用卷積編碼器-****框架,廣泛用于邊緣檢測。任何預(yù)訓(xùn)練的 CNN 模型都可以作為編碼器,****由多層特征融合器實現(xiàn),充分利用了低層邊緣圖中更多的位置和細節(jié)信息,以及高層特征中更魯棒的語義信息,使得模型 可以學(xué)習(xí)到更清晰的邊緣,如上圖(a)所示。

圖片

提出的多特征跳過連接不僅有利于編碼器和****之間的互連,而且在****內(nèi)部也有連接。該模型使用每個模塊的最后一層作為編碼器的輸出層,定義為[b1,b2,...,b5]。對于****部分,采用了多層特征融合機制。

不同的輸出層bi具有可以通過常規(guī)方法更新的各種大小的特征圖。在這里,研究者以o4為例來解釋****部分的構(gòu)造,如下圖(b)和上公式所示,其中函數(shù)C(.)表示卷積+批量歸一化+ReLU激活操作。D(.)和E(.)分別表示上采樣和下采樣操作,[.]表示連接。B4中的特征圖直接融合到O4中。

圖片

從編碼器的較低層開始,首先將最大池化操作應(yīng)用于B1、B2和B3中的特征圖,然后將它們?nèi)诤系絆4中。隨后,通過雙線性插值獲得來自****部分的O5。為了保持通道不變,研究者采用卷積運算來進一步統(tǒng)一通道數(shù)。為了更好地將低級細節(jié)和空間特征與高級語義特征融合,進一步在五個尺度特征圖上進行特征融合。

Pixel-level Imbalance Learning

權(quán)重交叉熵。邊緣圖像生成可以看作是一個像素級的分類任務(wù)(邊緣和非邊緣像素)。它在邊緣和非邊緣像素的數(shù)量方面非常不平衡。 

圖片

采用加權(quán)交叉熵(見上公式,其中Gi是標簽,Pi是邊緣預(yù)測值)來解決這樣的分類任務(wù)并糾正邊緣和非邊緣像素之間的不平衡,可以有效地監(jiān)督網(wǎng)絡(luò)區(qū)分邊緣和非邊緣信息。然而,“厚度”問題仍然存在。雖然加權(quán)交叉熵可以有效地計算像素級差異,但它不能充分區(qū)分與TP邊緣像素相鄰的FP和FN像素值。


04

圖片

實驗

圖片


圖片

圖片

圖片

圖片

圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉