基礎干貨：高效卷積，降內存提速度保精度（附論文下載）

發(fā)布人：CV研究院時間：2022-01-16 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

論文地址：https://arxiv.org/pdf/1901.01928v1.pdf

深度學習模型在目標檢測的性能上取得了重大突破。然而，在傳統(tǒng)模型中，例如Faster R-CNN和YOLO，由于計算資源有限和功率預算緊張，這些網絡的規(guī)模使其難以部署在嵌入式移動設備上。

一、背景

卷積神經網絡已被證明在計算機視覺中傳統(tǒng)的艱巨任務中是成功的，例如圖像分類和目標檢測。隨著AlexNet的突破，ILSVRC中創(chuàng)建了許多新的拓撲來實現(xiàn)高精度。此類網絡的成功不僅將注意力轉移到如何做到這一點上，而且還轉移到了它運行的速度和記憶效率上。這些模型以具有數(shù)百萬個參數(shù)而聞名，即使使用GPU，它也需要更多的計算時間和比許多應用程序所需的更多的存儲空間。

運行卷積神經網絡時所需的大部分內存和計算工作都花在了卷積層中，例ResNet50超過90%的時間/內存。這意味著，為了讓網絡運行得更快更高效，我們必須提高卷積層的計算負載。

二、前言

考慮到這一點，研究者提出了一種新型的卷積層，我們稱之為分布移位卷積（DSConv）。這種類型的層在設計時考慮了兩個主要目標：（i）它應該大大提高標準卷積層的內存效率和速度；（ii）它應該是標準卷積的即插即用替代品，因此它可以直接用于任何卷積神經網絡，包括推理和訓練。

研究者通過將傳統(tǒng)的卷積內核分解為兩個組件來實現(xiàn)這一點。其中之一是只有整數(shù)值的張量，不可訓練，并根據預訓練網絡中浮點 (FP) 權重的分布進行計算。另一個組件由兩個分布移位器張量組成，它們將量化張量的權重定位在模擬原始預訓練網絡分布的范圍內：其中一個移動每個內核的分布，另一個移動每個通道。這些權重可以重新訓練，使網絡能夠適應新的任務和數(shù)據集。

三、新框架（DSConv layer）

可變量化內核（VQK）：此張量僅保留可變位長整數(shù)值，并且與原始卷積張量具有相同大小的（ch0,chi,k,k），參數(shù)值被設置為從原始浮點模型量化，并且一旦設置不能改變，這是DSConv的量化組件。

分布移位：此組件的目的是移動VQK的分布以嘗試模仿原始卷積內核的分布。通過使用兩個張量轉換兩個域來實現(xiàn)。第一個張量是內核分布移位器（KDS），他改變每個（1，BLK,1,1）的分布。

例如，給定（128,128,3,3）的原始單精度張量大小，將位大小的超參數(shù)設置為2位且塊大小設置為64，將保存2位整數(shù)的VQK的大小為（128,128,3,3）（量化后的，由單精度變整型），保持FP32編號的內核移位器（KDS）的大小為2*（128,2,3,3），保存Fp32編號的通道移位器的大小為2*（128），在此示例中，卷積內核減少到其原始大小的7%

使用此設置，VQK充當先驗，它捕獲特定切片應提取的特征類型的本質。

四、 Quantization Procedure

量化函數(shù)將要量化的網絡的比特數(shù)作為輸入，并將帶符號的整數(shù)表示來存儲。