基于圖結構的圖像注意力網(wǎng)絡
摘要:雖然現(xiàn)已有許多關于圖像注意力機制的研究,但是現(xiàn)有的方法往往忽視了特征圖的全局空間結構和空間注意力與通道注意力的聯(lián)系。所以本文提出了一種基于整個空間拓撲結構的注意機制,將特征圖映射成結點與特征的形式,再借助圖卷積網(wǎng)絡的特性,得以從整個空間學習特征權重圖。其次空間注意力與通道注意力一體化結構能夠更有效地學習特征權重。通過多個實驗測試表明,在圖像分類和人臉識別任務中,展現(xiàn)了優(yōu)異的性能和普遍適用性。
本文引用地址:http://butianyuan.cn/article/202207/436663.htm隨著計算機性能的提升,卷積神經(jīng)網(wǎng)絡 (convolu tional neural network, CNN) 廣泛地運用于圖像領域。經(jīng)過多年的研究,基于卷積神經(jīng)網(wǎng)絡的網(wǎng)絡架構取得了重大的成功。HE 等提出了殘差網(wǎng)絡,可以跳層連接的殘差單元有效地解決梯度消失與梯度爆炸問題,使得網(wǎng)絡的深度成倍增長,進而圖像注意力機制逐漸受到關 注。WANG 等使用編碼器 - 解碼器的結構對殘差網(wǎng)絡進行了注意力機制的改造得到殘差注意力網(wǎng)絡 (residual attention network, RAN)。HU 等使用通道注意和通道特征融合來抑制不重要通道的方式構建了縮聚激發(fā)網(wǎng)絡 (squeeze-and-excitation networks, SENet)。PARK 等構建了瓶頸注意模塊 (bottleneck attention module, BAM),該模塊依次使用通道注意力網(wǎng)絡和空間注意力網(wǎng)絡推理注意力圖。FUKUI 等構建了復雜的注意力分支結構網(wǎng)絡 (attention branch network, ABN), 引入具有注意力機制的分支結構來擴展基于響應的視覺解釋模型。MISRA 等考慮了通道 - 空間相互作用,基于三個維度兩兩相關性構建注意力網(wǎng)絡 TAM (triplet attention module)。
雖然現(xiàn)已提出的許多注意都從通道注意力和空間注意力兩方面來設計模型,但是其空間結構的尺度取決于卷積核的大小,而且沒有從圖像整體出發(fā)分析空間特性并忽視了通道與空間的關聯(lián)性。在研究中發(fā)現(xiàn),圖卷積網(wǎng)絡 (graph convolution network, GCN) 能夠充分地使用這些特性學習特征圖。因此本文基于圖卷積網(wǎng)絡提出了圖結構注意力網(wǎng)絡 (graph structure attention network, GSAN),該模型既考慮了通道與空間的關聯(lián)性也考慮了圖像整個拓撲結構。
1 圖結構注意力網(wǎng)絡
在已有的研究表明,圖卷積網(wǎng)絡本身充分考慮了通道的影響并且在解決非歐幾里得數(shù)據(jù)展現(xiàn)了強大的性能。我們利用這些特性設計了一個通道注意力與空間注意力一體化的注意力網(wǎng)絡模型,而不用像其他注意力網(wǎng)絡模型一樣分別設計通道注意力分支和空間注意力分支。在模型中我們設計了一套由圖像到圖的數(shù)據(jù)映射關系,使得輸入特征與圖卷積網(wǎng)絡的輸入相匹配,并以圖 卷積網(wǎng)絡為基礎構建了圖結構注意力網(wǎng)絡。在研究中表明,本文所設計注意力模型分類性能與卷積層數(shù)有關,所以本文設計的卷積層數(shù)可調(diào)的注意力網(wǎng)絡,以下內(nèi)容均以兩層卷積層的網(wǎng)絡為例說明。
2 圖與圖卷積網(wǎng)絡
卷積網(wǎng)絡的卷積,本質(zhì)上利用濾波器對矩陣空間的某個區(qū)域內(nèi)的像素點進行加權求和,進而求得新的特征表示的過程。許多沒有明確規(guī)律的非歐幾里得數(shù)據(jù)并不適用于卷積網(wǎng)絡,而圖卷積的誕生者很好的解決這一問題。在已往的研究中,圖卷積網(wǎng)絡在具有拓撲結構的數(shù)據(jù)上表現(xiàn)出了強大的分類性能,其依賴不變的鄰接矩陣對輸入的結點特征學習,如圖 3 所示。
圖3 圖卷積網(wǎng)絡
本文所搭建的圖結構注意力網(wǎng)絡使用的圖卷積網(wǎng)絡模型如式 (1) 和式 (2) 所示。
3 圖結構注意力網(wǎng)絡算法
圖4 圖結構注意力網(wǎng)絡模型
圖結構注意力網(wǎng)絡如圖 4 所示,該注意力網(wǎng)絡流程主要分成以下幾個。
步驟 1:對上一層網(wǎng)絡得到的輸出特征圖進行正則化 (Norm) 處理,并利用平均池化 (AvgPool) 操作將三個維度(C×H×W)的特征圖壓縮成兩個維度(C×H)。
步驟 2:對步驟 1 得到的向量組重新排列,得到特征矩陣。此外,對平均池化后得到的向量建立一維的歐式空間,計算兩點之間的歐氏距離,將其倒數(shù)作為結點之間連接的緊密程度,我們將其稱為弱連接,如等式 3 和等式 4 所示。經(jīng)過弱連接的映射后,將歐氏空間數(shù)據(jù)結構映射成了滿足圖卷積輸入的拓撲結構數(shù)據(jù)。最后經(jīng)過正則化后,得到概率描述的邊,進而得到鄰接矩陣。
步驟 3:將特征矩陣與正則化后的鄰接矩陣輸入多層的圖卷積網(wǎng)絡 (GCN),并設定一個減少系數(shù) r,該系數(shù)為在中間層中減少通道數(shù)的系數(shù)。最后經(jīng)過激活函數(shù)并恢復維度對原特征圖進行加權求解得到重新分配權重后的特征圖。
4 實驗結果與分析
4.1 實驗平臺
實驗環(huán)境為 Ubuntu18.04 操作系統(tǒng),AMD3600x 處 理器,RTX2070SUPER 顯卡,Pytorch 框架。本文所有實驗均使用上述平臺。
4.1.1 圖像分類實驗
在該實驗中我們在 CIFARr100 數(shù)據(jù)集對模型進行 Rank-1 準確度評估。我們在不同網(wǎng)絡模型上測試了 SENet、BAM、TAM 性能。分別設置了一項基準測試實驗和一項消融實驗。
CIFAR100 數(shù)據(jù)集:該數(shù)據(jù)集有 100 個類。每個類 有 600 張大小為 32×32 的彩色圖像,在模型訓練過程中將其中 500 張作為訓練集,100 張作為測試集。對于每一張圖像,它有兩個標簽分別代表圖像的細粒度和粗粒度標簽。
參數(shù)設置:使用 SGD 優(yōu)化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 Cross Entropy Loss 損失函數(shù)。學習率調(diào)整策略為迭代 200 次并在 60、120, 160 次迭代調(diào)整學習率為原來的 0.1 倍。為了確定圖卷積的層數(shù)對 GSAN 的影響,我們設計了一組不同層數(shù)的對比實驗。如表 1 所示,較低復雜度的 GSAN 更有利于避免過擬合。
為了測試本文的注意力網(wǎng)絡性能與普遍適用性,我們在 MobileNetV2、ResNet18 和 ResNet50 上均做了不同注意力模型的對比試驗。如表 2 所示,在 MobileNetV2 和 ResNet18 上相較于其它方法達到了最好的效果,在 ResNet50 上稍差于 BAM。
4.1.2 人臉分類實驗
在該實驗中我們使用余弦相似度計算準確率的策略。在 CASIA-WebFace 數(shù)據(jù)集上訓練模型,并在 LFW 數(shù)據(jù)集和 CFP-FP 數(shù)據(jù)集上進行人臉識別測試。
CASIA-WebFace 數(shù)據(jù)集:CASIA-WebFace 數(shù)據(jù)集是經(jīng)過數(shù)據(jù)清洗的數(shù)據(jù)集,所以含有噪聲的圖像較少,常作為訓練集使用。數(shù)據(jù)集有 10 575 個人的 494 414 張人臉圖像。
LFW 數(shù)據(jù)集:圖像源于生活中的自然場景,所以圖像受到表情、光照、多姿態(tài)、遮擋、年齡等因素影響而差異極大。數(shù)據(jù)集有 5 749 個人的 13 233 張人臉圖像。
CFP-FP 數(shù)據(jù)集:數(shù)據(jù)集對于每個人有 10 張正面圖像和 4 張側面圖像。CFP-FP 數(shù)據(jù)集有 500 個人的 7 000 張人臉圖像。
參數(shù)設置:使用 SGD 優(yōu)化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 ArcFace[16] 損失函數(shù)。
學習率調(diào)整策略為迭代 18 次并在 6、11、16 次迭代調(diào) 整學習率為原來的 0.1 倍。
由于 ArcFace 損失函數(shù)的不同縮放系數(shù) s 會極大的影響實驗結果的準確率,因此我們先通過 ResNet50-IR 模型來確定準確率最高 s,如表 3 所示。
經(jīng)過縮放系數(shù)的對比實驗可以看出 ResNet50-IR 模型在 s 為 33 的時候準確率達到最大值,因此在其他實驗中將縮放系數(shù) s 固定為 33 進行訓練和測試。實驗結果如表 4 和表 5 所示,在 ResNet50-IR 上,當圖卷積層 為 2 時達到最好的效果,并且性能優(yōu)于其他注意力模塊。
5 結語
本文提出一種圖結構注意力網(wǎng)絡,該方法壓縮寬度維度并有效地結合空間拓撲結構和通道注意力。通過映射成拓撲結構的方式學習空間注意力,有效地解決現(xiàn)有注意力感受野受限于卷積核大小的問題和卷積核過大導致性能下降的問題,并且更好地學習全局信息。實驗結果表明,本文注意力網(wǎng)絡在圖像分類和人臉識別任務中均展現(xiàn)了優(yōu)異的性能與普遍適用性。
參考文獻:
[1] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015: 3431–3440.
[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097–1105.
[4] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.
[5] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156–3164.
[6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132–7141.
[7] PARK J, WOO S, LEE J Y, et al. Bam: Bottleneck attention module[C]. arXiv preprint 2018.
[8] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705–10714.
[9] MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021: 3139–3148.
[10] SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510–4520.
[11] HAN, DONGYOON, KIM J, et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 6307-6315.
[12] KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.
[13] YI, DONG, LEI Z, et al. Learning face representation from scratch[C]. arXiv preprint 2014.
[14] HUANG G, MATTAR M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[C]. 2008.
[15] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.
[16] DENG, KANG J, GUO J et al. ArcFace: Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.
[17] N T, KIPF, MAX, et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.
[18] NIU Z Y, ZHONG G Q, and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452): 48-62.
(注:本文轉載自《電子產(chǎn)品世界》2022年7月期)
評論