深度學(xué)習(xí)模型大小與模型推理速度的探討(2)
3. 推理時(shí)間
這里涉及到一個(gè) gap,很多部署的同學(xué)們更喜歡談“計(jì)算效率”,而實(shí)際上算法同學(xué)真正關(guān)心的點(diǎn)是“推理時(shí)間”,導(dǎo)致兩者在對(duì)接的時(shí)候經(jīng)常會(huì)出現(xiàn)一些 misleading。因此我這里單獨(dú)開一節(jié)來探討一下“推理時(shí)間”的評(píng)估方法。
其實(shí)也很簡(jiǎn)單,按照 RoofLine 模型,我們很容易就能得到算子實(shí)際的執(zhí)行時(shí)間:
這是一個(gè)分段函數(shù),拆開來可得:
一句話總結(jié):對(duì)于訪存密集型算子,推理時(shí)間跟訪存量呈線性關(guān)系,而對(duì)于計(jì)算密集型算子,推理時(shí)間跟計(jì)算量呈線性關(guān)系。
講到這里,我們就能初步回答本章一開始的問題了:按照 RoofLine 模型,在計(jì)算密集區(qū),計(jì)算量越小,確實(shí)推理時(shí)間越小。但是在訪存密集區(qū),計(jì)算量與推理時(shí)間沒關(guān)系,真正起作用的是訪存量,訪存量越小,推理的時(shí)間才越快。在全局上,計(jì)算量和推理時(shí)間并非具有線性關(guān)系。
上一節(jié)中,OP4 雖然計(jì)算效率很低,但由于訪存量也很低,因此其實(shí)推理速度還是快于其他幾個(gè) OP 的。但是我們可以觀察到,其計(jì)算量雖然只有 OP1 的 1/130,但是推理時(shí)間僅降低到了 1/6,兩者并非是線性關(guān)系(也是當(dāng)年我把模型減到 1/10 計(jì)算量,但其實(shí)沒快多少的原因)。
再舉兩個(gè)例子強(qiáng)化一下,首先看這兩個(gè)卷積,他們的計(jì)算量差不多,但是因?yàn)槎荚谠L存密集區(qū),OP3 的訪存量遠(yuǎn)低于 OP5,其推理也更快:
下面這個(gè)栗子更明顯,OP5 和 OP6 的區(qū)別僅僅是一個(gè)是 DepthWise Conv,一個(gè)是普通 Conv,其他參數(shù)沒有變化。按照我們之前的直觀感受,Conv 換成 DepthWise Conv 應(yīng)該會(huì)更快,但實(shí)際上兩者的推理時(shí)間是差不多的(這組參數(shù)也是當(dāng)年我用過的【手動(dòng)捂臉):
4. 小結(jié)
從上面的討論中我們可以看出:計(jì)算量并不能單獨(dú)用來評(píng)估模型的推理時(shí)間,還必須結(jié)合硬件特性(算力&帶寬),以及訪存量來進(jìn)行綜合評(píng)估。并非是計(jì)算量越低模型推理越快。在評(píng)價(jià)模型大小時(shí),也建議加上訪存量作為重要的評(píng)價(jià)指標(biāo)。
需要強(qiáng)調(diào)的一點(diǎn)是,不同的硬件平臺(tái)峰值算力和內(nèi)存帶寬不同,導(dǎo)致同一個(gè)模型在平臺(tái) 1 上可能是計(jì)算密集的,在平臺(tái) 2 上可能就變成了訪存密集的。例如上文提到的 Intel X86 平臺(tái),“拐點(diǎn)”值為 48,而 NVIDIA V100“拐點(diǎn)”值為 173.6,上文舉的例子在 V100 平臺(tái)上僅有 OP2 落在了計(jì)算密集區(qū),剩下的全部是訪存密集的。因此,同樣的模型在不同平臺(tái)上性質(zhì)可能會(huì)發(fā)生改變,需要具體情況具體分析。
我們很難給出一個(gè)通用性的結(jié)論,究其原因是 RoofLine 模型本身是一個(gè)非線性模型。這里必須要強(qiáng)調(diào)一點(diǎn)的是,除了峰值算力和內(nèi)存帶寬之外,還有硬件限制、系統(tǒng)環(huán)境、軟件實(shí)現(xiàn)等諸多因素會(huì)影響程序的實(shí)際性能,使得其非線性特性更加嚴(yán)重。因此 RoofLine 模型僅僅只能提供一個(gè)性能上界的評(píng)估方式,并不代表能夠達(dá)到的實(shí)際性能。實(shí)際性能最準(zhǔn)確的測(cè)量方式只有真機(jī)實(shí)測(cè)。
RoofLine 模型更重要的是提供了一種分析性能的思想,即計(jì)算密集型程序更多的受限于硬件算力,而訪存密集型程序更多的受限于硬件內(nèi)存帶寬。在理解這一點(diǎn)的基礎(chǔ)上設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),并分析網(wǎng)絡(luò)的性能,將更有理論參考。不會(huì)再對(duì)”計(jì)算量減半,為啥推理時(shí)間沒變“這種問題抱有疑問了(說的就是我【流淚)
下文將對(duì) RoofLine 模型的一些限制進(jìn)行討論,分析哪些因素將以何種方式影響程序,使得其到達(dá)不了 RoofLine 模型估計(jì)的性能上界。
(下文要開始難度升級(jí)了,建議沒看懂 RoofLine 模型的同學(xué)們?cè)侔堰@一章看一遍,不然后面會(huì)看的有點(diǎn)懵)
三、影響模型推理性能的其他因素
RoofLine 模型可以用來評(píng)估程序的性能上界,但是實(shí)際能達(dá)到的性能還會(huì)受到硬件限制、系統(tǒng)環(huán)境、軟件實(shí)現(xiàn)等諸多因素的影響,距離性能上界有一定距離。本章將對(duì)這些影響因素進(jìn)行分析。
1. 硬件限制對(duì)性能上界的影響
前面 RoofLine 模型使用的峰值算力及內(nèi)存帶寬,是根據(jù)紙面數(shù)據(jù)計(jì)算得到的,是理論上的最大值。但在實(shí)際情況下,硬件會(huì)因?yàn)榉N種原因,無法達(dá)到這個(gè)理論值。因此建議大家對(duì)硬件進(jìn)行micro-benchmark,以獲取硬件的真實(shí)性能上限。
以上文的 Intel X86 CPU 為例,我們之前計(jì)算的 avx512 理論算力為 4.608 TFLOPs/s,但這個(gè)數(shù)值的前提是頻率能維持在 4.5 GHz。然而實(shí)際上在使用 16 核跑 avx512 指令時(shí),CPU 頻率會(huì)下降到約 2.9 GHz,此時(shí)理論算力僅剩下 2.96 TFLOPs/s,而實(shí)測(cè)值僅有 2.86 TFLOPs/s。
除了頻率之外,有些芯片可能會(huì)因?yàn)橐恍┰O(shè)計(jì)上或?qū)崿F(xiàn)上的原因,導(dǎo)致在實(shí)際使用時(shí)達(dá)不到理論峰值。比如一些低端芯片不支持多****、不支持亂序執(zhí)行、采用了阻塞式 Cache 等等,一些芯片甚至?xí)幸恍┬阅?bug,導(dǎo)致在實(shí)際使用時(shí)幾乎到達(dá)不了理論峰值(這里我個(gè)人傾向于把這些原因歸結(jié)為硬件限制帶來的損失)。
內(nèi)存同理,該平臺(tái)理論帶寬為 96GB/s,但實(shí)測(cè)下來最高讀帶寬僅有 74 GB/s,僅能到達(dá)理論帶寬的 77%。
我們可以得到修正后的 RoofLine 模型,圖中藍(lán)色填充部分反映了因?qū)嶋H算力和內(nèi)存帶寬達(dá)到不了理論值而造成的損失:
修正了實(shí)測(cè)峰值算力和內(nèi)存帶寬后的 RoofLine 模型,藍(lán)色填充部分為硬件限制帶來的損失
修正后的模型“拐點(diǎn)”發(fā)生了變化,因此算子的性質(zhì)也會(huì)發(fā)生變化。建議拿到硬件后對(duì)硬件進(jìn)行 micro-benchmark,這里推薦兩個(gè)測(cè)試工具:
一個(gè)是高叔叔寫的浮點(diǎn)峰值測(cè)試方法的文章,最后有 github 鏈接,大家可以 clone 下來測(cè)試硬件峰值:
還有一個(gè)是 stream 測(cè)試工具,可以用于測(cè)試內(nèi)存帶寬:
2. 系統(tǒng)環(huán)境對(duì)性能的影響
除非程序運(yùn)行在裸機(jī)中,否則操作系統(tǒng)一定會(huì)對(duì)性能上界產(chǎn)生一定影響,比如操作系統(tǒng)在多核間的調(diào)度損失、操作系統(tǒng)的內(nèi)存管理帶來的損失、操作系統(tǒng)本身占用的運(yùn)算資源等等。
對(duì)于一般的深度學(xué)習(xí)推理任務(wù)而言,現(xiàn)代操作系統(tǒng)對(duì)性能的影響并不是特別明顯。但是在一些特殊情況下,也會(huì)帶來嚴(yán)重的性能損失。我這里將會(huì)舉兩個(gè)例子:
一個(gè)是 Android 系統(tǒng)在大小核上的調(diào)度,一旦程序在 CPU 上的占用率不足(比如是周期工作的任務(wù)),則有可能被 Android 調(diào)度到小核上,帶來性能損失。
另一個(gè)例子是內(nèi)存缺頁。在 Linux 系統(tǒng)上,當(dāng)向系統(tǒng)申請(qǐng)內(nèi)存頁后,系統(tǒng)只是返回了虛擬頁,等到程序?qū)嶋H使用虛擬頁時(shí),才會(huì)通過觸發(fā)缺頁異常的方式,進(jìn)入操作系統(tǒng)內(nèi)核分配物理頁,這一過程會(huì)嚴(yán)重降低性能。
好在這些問題可以通過軟件進(jìn)行一部分彌補(bǔ),例如調(diào)度問題可以使用綁核來解決,缺頁問題可以通過綁定物理頁(需要內(nèi)核態(tài))或內(nèi)存池來解決。因此操作系統(tǒng)帶來的影響是可控的。
除了操作系統(tǒng)帶來的影響,系統(tǒng)中運(yùn)行的其他進(jìn)程也會(huì)對(duì)當(dāng)前進(jìn)程造成影響。比如一個(gè)系統(tǒng)中運(yùn)行了多個(gè)深度學(xué)習(xí)實(shí)例,或者系統(tǒng)后臺(tái)一些 APP 自啟動(dòng)了等等。這些進(jìn)程都會(huì)占用核心算力和內(nèi)存帶寬,造成當(dāng)前進(jìn)程性能損失。
這往往會(huì)導(dǎo)致在工程測(cè)試環(huán)境下性能達(dá)標(biāo)的模型,在實(shí)際部署時(shí)性能下降。因此,必須關(guān)注工程測(cè)試環(huán)境和實(shí)際部署系統(tǒng)環(huán)境的差異。如有條件,最好在實(shí)際部署環(huán)境下進(jìn)行測(cè)試。
3. 軟件實(shí)現(xiàn)對(duì)性能的影響
除了硬件限制和系統(tǒng)環(huán)境外,一個(gè)任務(wù)的軟件實(shí)現(xiàn)好壞對(duì)性能有著重大的影響。
例如對(duì)于同樣的矩陣操作任務(wù),使用 python 寫的多重 for 循環(huán),和用 numpy 高度優(yōu)化過的矩陣操作函數(shù),性能可以差出 1~2 個(gè)數(shù)量級(jí)。
對(duì)于深度學(xué)習(xí)模型推理而言,推理框架對(duì)模型性能的影響主要體現(xiàn)在:是否充分利用了硬件的流水線資源、是否高效利用了硬件中的緩存、是否采用了時(shí)間復(fù)雜度更低的算法、是否解決了操作系統(tǒng)帶來的性能損失(如上文的調(diào)度問題和內(nèi)存缺頁問題)、是否進(jìn)行了正確高效的圖優(yōu)化等等。
由于影響因素很多,因此軟件對(duì)性能的影響往往呈現(xiàn)出很強(qiáng)的非線性,導(dǎo)致在評(píng)估性能時(shí)很難給出一些普適性的結(jié)論,很多時(shí)候只能具體情況具體分析。(有的時(shí)候甚至有點(diǎn)玄學(xué)【捂臉)
例如同樣計(jì)算量的向量四則運(yùn)算和超越函數(shù),后者往往會(huì)慢于前者的原因是很多硬件不支持超越函數(shù)的 SIMD 指令;再比如空洞卷積(dilated Conv)性能會(huì)弱于普通卷積的原因是前者對(duì)訪存的利用不如后者高效等等。
在軟件實(shí)現(xiàn)的影響下,RoofLine 模型的上界再次下降,達(dá)到圖中的紅線(真實(shí)的非線性可能會(huì)比我隨手畫的要復(fù)雜的多):
RoofLine 模型各種性能損失示意圖,圖中曲線不代表真實(shí)比例
因此,在評(píng)估或分析深度學(xué)習(xí)推理性能時(shí),簡(jiǎn)單的計(jì)算量/訪存量指標(biāo)是完全不夠的,只能做個(gè)性能上界參考。實(shí)際能達(dá)到的性能其實(shí)還要關(guān)注很多很多因素,例如算子的訪存模式、數(shù)據(jù)排布、是否能夠進(jìn)行圖融合、是否有精度可接受的低時(shí)間復(fù)雜度算法、算法并行度是否充足、各種運(yùn)算的比例等等因素。
這些因素對(duì)于算法同學(xué)而言可能過于復(fù)雜,并不需要掌握。但如果所在的公司/部門有交流的機(jī)會(huì)的話,可以跟部署/優(yōu)化的同學(xué)針對(duì)模型結(jié)構(gòu)和算子進(jìn)行探討,以獲取性能優(yōu)化的建議。
這里可以一些一般性的結(jié)論,僅供參考:
對(duì)于一些訪存非常密集且訪存 pattern 連續(xù)的算子,如 Concat、Eltwise Sum、ReLU、LeakyReLU、ReflectionPad 等,在 Tensor 數(shù)據(jù)量很大的情況下,軟件實(shí)現(xiàn)的損失會(huì)非常小,正常情況下基本都能達(dá)到內(nèi)存帶寬實(shí)測(cè)上限;如果框架采用了融合策略的話,基本可以達(dá)到 0 開銷。
對(duì)于 Conv/FC/Deconv 等算子,在計(jì)算密度很高的情況下,大多數(shù)框架是能夠很接近算力峰值的。但對(duì)于計(jì)算密度不是特別高的 case,不同框架的表現(xiàn)不一,需要實(shí)測(cè)才能確定。不過從大趨勢(shì)而言,都是計(jì)算密度越高,硬件的利用率越高的。
盡量使用常用的算子參數(shù),例如 Conv 盡量使用 3x3_s1/s2,1x1___s1/s2 等,這些常用參數(shù)往往會(huì)被特殊優(yōu)化,性能更好。
4. 小結(jié)
RoofLine 模型僅能用于估計(jì)模型所能達(dá)到的性能上界,而實(shí)際部署時(shí),還會(huì)受硬件限制、系統(tǒng)環(huán)境、軟件實(shí)現(xiàn)等因素的影響,導(dǎo)致無法達(dá)到 RoofLine 模型所定義的性能上界。
此外,由于這些因素往往會(huì)導(dǎo)致性能曲線有較強(qiáng)的非線性,理論分析和實(shí)測(cè)會(huì)有一定差距,有時(shí)這些因素會(huì)嚴(yán)重影響性能曲線,甚至?xí)?dǎo)致算子的性質(zhì)發(fā)生變化。因此本節(jié)討論的內(nèi)容只是提供一些分析的思路與技巧,實(shí)測(cè)始終是最準(zhǔn)確的性能評(píng)估方式。
四、面向推理速度的模型設(shè)計(jì)建議
前面討論了一大堆,其實(shí)最實(shí)用的還是“怎么設(shè)計(jì)模型能夠達(dá)到更快的推理速度”。
在給出我的個(gè)人建議之前,首先要先聲明的是:由于不同硬件、不同環(huán)境、不同框架的差異會(huì)很大,這些建議可能并不是在所有條件下都適用。在設(shè)計(jì)算法或性能測(cè)試遇到疑問時(shí),建議咨詢部署/優(yōu)化的同學(xué)。
好了,廢話不多說(其實(shí)已經(jīng)說了很多了),給出我的一些個(gè)人建議:
方法論建議:
了解目標(biāo)硬件的峰值算力和內(nèi)存帶寬,最好是實(shí)測(cè)值,用于指導(dǎo)網(wǎng)絡(luò)設(shè)計(jì)和算子參數(shù)選擇。
明確測(cè)試環(huán)境和實(shí)際部署環(huán)境的差異,最好能夠在實(shí)際部署環(huán)境下測(cè)試性能,或者在測(cè)試環(huán)境下模擬實(shí)際部署環(huán)境。
針對(duì)不同的硬件平臺(tái),可以設(shè)計(jì)不同計(jì)算密度的網(wǎng)絡(luò),以在各個(gè)平臺(tái)上充分發(fā)揮硬件計(jì)算能力(雖然工作量可能會(huì)翻好幾倍【捂臉)。
除了使用計(jì)算量來表示/對(duì)比模型大小外,建議引入訪存量、特定平臺(tái)執(zhí)行時(shí)間,來綜合反映模型大小。
實(shí)測(cè)是最準(zhǔn)確的性能評(píng)估方式,如果有條件快速實(shí)測(cè)的話,建議以實(shí)測(cè)與理論分析相結(jié)合的方式設(shè)計(jì)并迭代網(wǎng)絡(luò)。
遇到性能問題時(shí),可以逐層 profiling,并與部署/優(yōu)化同學(xué)保持緊密溝通,具體問題具體分析(適當(dāng)了解一下計(jì)算相關(guān)理論的話,可以更高效的溝通)。
網(wǎng)絡(luò)設(shè)計(jì)建議:
對(duì)于低算力平臺(tái)(CPU、低端 GPU 等),模型很容易受限于硬件計(jì)算能力,因此可以采用計(jì)算量低的網(wǎng)絡(luò)來降低推理時(shí)間。
對(duì)于高算力平臺(tái)(GPU、DSP 等),一味降低計(jì)算量來降低推理時(shí)間就并不可取了,往往更需要關(guān)注訪存量。單純降低計(jì)算量,很容易導(dǎo)致網(wǎng)絡(luò)落到硬件的訪存密集區(qū),導(dǎo)致推理時(shí)間與計(jì)算量不成線性關(guān)系,反而跟訪存量呈強(qiáng)相關(guān)(而這類硬件往往內(nèi)存弱于計(jì)算)。相對(duì)于低計(jì)算密度網(wǎng)絡(luò)而言,高計(jì)算密度網(wǎng)絡(luò)有可能因?yàn)橛布矢撸臅r(shí)不變乃至于更短。
面向推理性能設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),盡量采用經(jīng)典結(jié)構(gòu),大部分框架會(huì)對(duì)這類結(jié)構(gòu)進(jìn)行圖優(yōu)化,能夠有效減少計(jì)算量與訪存量。例如 Conv->BN->ReLU 就會(huì)融合成一個(gè)算子,但 Conv->ReLU->BN 就無法直接融合 BN 層
算子的參數(shù)盡量使用常用配置,如 Conv 盡量使用 3x3_s1/s2、1x1___s1/s2 等,軟件會(huì)對(duì)這些特殊參數(shù)做特殊優(yōu)化。
CNN 網(wǎng)絡(luò) channel 數(shù)盡量選擇 4/8/16/32 的冪次,很多框架的很多算子實(shí)現(xiàn)在這樣的 channel 數(shù)下效果更好(具體用多少不同平臺(tái)不同框架不太一樣)。
框架除了計(jì)算耗時(shí)外,也處理網(wǎng)絡(luò)拓?fù)?、?nèi)存池、線程池等開銷,這些開銷跟網(wǎng)絡(luò)層數(shù)成正比。因此相比于“大而淺”的網(wǎng)絡(luò),“小而深”的網(wǎng)絡(luò)這部分開銷更大。一般情況下這部分開銷占比不大。但在網(wǎng)絡(luò)算子非常碎、層數(shù)非常多的時(shí)候,這部分開銷有可能會(huì)影響多線程的擴(kuò)展性,乃至于成為不可忽視的耗時(shí)因素。
一些其他建議:
除了優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、推理框架性能外,還可以考慮通過一些其他工程技巧來提升系統(tǒng)整體的性能。例如:對(duì)推理服務(wù)流水化,并行數(shù)據(jù)讀取與計(jì)算的過程,掩蓋 IO 延時(shí)。
本文介紹了評(píng)估模型大小的四個(gè)常用指標(biāo)——計(jì)算量、參數(shù)量、訪存量、內(nèi)存占用,從 RoofLine 模型入手詳細(xì)討論了影響模型推理速度的影響因素,并給出了面向推理速度的模型設(shè)計(jì)方法論與建議。
撰寫本文的目的,不僅僅是給算法同學(xué)提供有效的網(wǎng)絡(luò)設(shè)計(jì)建議,更多的還是希望能夠傳達(dá)性能優(yōu)化的基礎(chǔ)知識(shí)與分析思路,減少算法設(shè)計(jì)到部署之間的 gap,更快速高效的設(shè)計(jì)推理友好的網(wǎng)絡(luò)模型。希望能對(duì)大家的工作有所幫助。
由于本人知識(shí)水平有限,如有錯(cuò)誤和不詳盡的地方,望大家不吝指出,非常歡迎大家在評(píng)論區(qū)留言探討。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。