CNN網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展——看懂這一篇就夠了（1）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-08-04 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

CNN的全稱是"Convolutional Neural Network"(卷積神經(jīng)網(wǎng)絡(luò))。而神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)（動(dòng)物的中樞神經(jīng)系統(tǒng)，特別是大腦）結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。

作者丨zzq@知乎鏈接丨h(huán)ttps://zhuanlan.zhihu.com/p/68411179
一、CNN基本部件介紹

1. 局部感受野

在圖像中局部像素之間的聯(lián)系較為緊密，而距離較遠(yuǎn)的像素聯(lián)系相對(duì)較弱。因此，其實(shí)每個(gè)神經(jīng)元沒(méi)必要對(duì)圖像全局進(jìn)行感知，只需要感知局部信息，然后在更高層局部信息綜合起來(lái)即可得到全局信息。卷積操作即是局部感受野的實(shí)現(xiàn)，并且卷積操作因?yàn)槟軌驒?quán)值共享，所以也減少了參數(shù)量。

2. 池化

池化是將輸入圖像進(jìn)行縮小，減少像素信息，只保留重要信息，主要是為了減少計(jì)算量。主要包括最大池化和均值池化。

3. 激活函數(shù)

激活函數(shù)的用是用來(lái)加入非線性。常見(jiàn)的激活函數(shù)有sigmod, tanh, relu，前兩者常用在全連接層，relu常見(jiàn)于卷積層。

4.全連接層

全連接層在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起分類器的作用。在全連接層之前需要將之前的輸出展平。

二、經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)

1. LeNet5

由兩個(gè)卷積層，兩個(gè)池化層，兩個(gè)全連接層組成。卷積核都是5×5，stride=1，池化層使用maxpooling。

2. AlexNet

模型共八層（不算input層），包含五個(gè)卷積層、三個(gè)全連接層。最后一層使用softmax做分類輸出

AlexNet使用了ReLU做激活函數(shù)；防止過(guò)擬合使用dropout和數(shù)據(jù)增強(qiáng)；雙GPU實(shí)現(xiàn)；使用LRN。

3. VGG

全部使用3×3卷積核的堆疊，來(lái)模擬更大的感受野，并且網(wǎng)絡(luò)層數(shù)更深。VGG有五段卷積，每段卷積后接一層最大池化。卷積核數(shù)目逐漸增加。

總結(jié)：LRN作用不大；越深的網(wǎng)絡(luò)效果越好；1×1的卷積也很有效但是沒(méi)有3×3好。

4. GoogLeNet(inception v1)

從VGG中我們了解到，網(wǎng)絡(luò)層數(shù)越深效果越好。但是隨著模型越深參數(shù)越來(lái)越多，這就導(dǎo)致網(wǎng)絡(luò)比較容易過(guò)擬合，需要提供更多的訓(xùn)練數(shù)據(jù)；另外，復(fù)雜的網(wǎng)絡(luò)意味更多的計(jì)算量，更大的模型存儲(chǔ)，需要更多的資源，且速度不夠快。GoogLeNet就是從減少參數(shù)的角度來(lái)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的。

GoogLeNet通過(guò)增加網(wǎng)絡(luò)寬度的方式來(lái)增加網(wǎng)絡(luò)復(fù)雜度，讓網(wǎng)絡(luò)可以自己去應(yīng)該如何選擇卷積核。這種設(shè)計(jì)減少了參數(shù) ，同時(shí)提高了網(wǎng)絡(luò)對(duì)多種尺度的適應(yīng)性。使用了1×1卷積可以使網(wǎng)絡(luò)在不增加參數(shù)的情況下增加網(wǎng)絡(luò)復(fù)雜度。

Inception-v2

在v1的基礎(chǔ)上加入batch normalization技術(shù)，在tensorflow中，使用BN在激活函數(shù)之前效果更好；將5×5卷積替換成兩個(gè)連續(xù)的3×3卷積，使網(wǎng)絡(luò)更深，參數(shù)更少

Inception-v3

核心思想是將卷積核分解成更小的卷積，如將7×7分解成1×7和7×1兩個(gè)卷積核，使網(wǎng)絡(luò)參數(shù)減少，深度加深

Inception-v4結(jié)構(gòu)

引入了ResNet，使訓(xùn)練加速，性能提升。但是當(dāng)濾波器的數(shù)目過(guò)大（>1000）時(shí)，訓(xùn)練很不穩(wěn)定，可以加入activate scaling因子來(lái)緩解

5. Xception

在Inception-v3的基礎(chǔ)上提出，基本思想是通道分離式卷積，但是又有區(qū)別。模型參數(shù)稍微減少，但是精度更高。Xception先做1×1卷積再做3×3卷積，即先將通道合并，再進(jìn)行空間卷積。depthwise正好相反，先進(jìn)行空間3×3卷積，再進(jìn)行通道1×1卷積。核心思想是遵循一個(gè)假設(shè)：卷積的時(shí)候要將通道的卷積與空間的卷積進(jìn)行分離。而MobileNet-v1用的就是depthwise的順序，并且加了BN和ReLU。Xception的參數(shù)量與Inception-v3相差不大，其增加了網(wǎng)絡(luò)寬度，旨在提升網(wǎng)絡(luò)準(zhǔn)確率，而MobileNet-v1旨在減少網(wǎng)絡(luò)參數(shù)，提高效率。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

CNN網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展——看懂這一篇就夠了（1）

相關(guān)推薦

技術(shù)專區(qū)