新聞中心

EEPW首頁(yè) > 設(shè)計(jì)應(yīng)用 > 基于嵌入式算法容噪技術(shù)的低功耗近似乘法器

基于嵌入式算法容噪技術(shù)的低功耗近似乘法器

作者:何進(jìn),衣溪琳,張子驥,賀雅娟 時(shí)間:2019-08-12 來(lái)源:電子產(chǎn)品世界 收藏

  何?進(jìn),衣溪琳,張子驥,賀雅娟(電子科技大學(xué)?電子科學(xué)與工程學(xué)院,四川?成都?610054)

本文引用地址:http://www.butianyuan.cn/article/201908/403612.htm

  摘?要:本文提出一種可靠的近似設(shè)計(jì)方案,該方案基于嵌入式,并且通過(guò)閾值的合理選擇簡(jiǎn)化了傳統(tǒng)嵌入式容噪方案中的檢錯(cuò)糾錯(cuò)模塊。我們根據(jù)這樣的思路基于SMIC 180 nm工藝設(shè)計(jì)了相應(yīng)的8比特乘8比特的近似。該在450 MHz的工作頻率最低可以工作在1.2 V的電源電壓下。與傳統(tǒng)的陣列乘法器相比,在相同的工作頻率和MSE條件下,傳統(tǒng)乘法器可以工作在1.6 V左右,該乘法器可以工作在1.2 V左右,此時(shí)功耗可以下降約40%;與論文[1]中的嵌入式算法容噪乘法器相比,功耗可以下降約16%。

  關(guān)鍵詞:;;乘法器;;

  0 引言

  隨著集成電路的不斷發(fā)展,芯片的功率密度越來(lái)越大,功耗問(wèn)題成為集成電路設(shè)計(jì)工程師最關(guān)心的問(wèn)題之一。在無(wú)線傳感網(wǎng)絡(luò),便攜式設(shè)備,可植入式醫(yī)療設(shè)備中,系統(tǒng)對(duì)芯片的功耗有嚴(yán)格的限制 [2,4] 。我們知道,集成電路的總功耗可以分為動(dòng)態(tài)功耗和靜態(tài)功耗,動(dòng)態(tài)功耗和靜態(tài)功耗均與芯片電源電壓密切相關(guān),尤其是動(dòng)態(tài)功耗與電源電壓的平方成正比。因此,降低芯片的電源電壓是降低芯片功耗的最有效的方法 [1] 。但是隨著電源電壓的降低,電路的關(guān)鍵路徑延遲也會(huì)相應(yīng)增大,此時(shí)必須降低芯片工作頻率,否則關(guān)鍵路徑延遲會(huì)超過(guò)時(shí)鐘周期,導(dǎo)致芯片功能出錯(cuò)。然而很多應(yīng)用場(chǎng)景要求一定的吞吐量,芯片的工作頻率會(huì)有固定的限制。因而,在工作頻率固定的前提下,電源電壓的下降被芯片的工作頻率限制了。一般在集成電路設(shè)計(jì)的時(shí)候,為了保證電路工作的可靠性,設(shè)計(jì)者還需要保留足夠的時(shí)序裕量來(lái)應(yīng)對(duì)制造過(guò)程中的工藝偏差,噪聲干擾等因素的影響,這些時(shí)序的裕量往往是通過(guò)電壓的裕量來(lái)體現(xiàn)的。因此,電路實(shí)際可以工作的最小工作電壓應(yīng)該大于理論的臨界電壓,也就是關(guān)鍵電壓 [3] 。

  對(duì)于數(shù)字信號(hào)處理的應(yīng)用來(lái)說(shuō),不需要芯片得到絕對(duì)精確的結(jié)果,接近真實(shí)結(jié)果的近似值就能滿足人類感官的需求。在這些應(yīng)用當(dāng)中,可以通過(guò)犧牲芯片結(jié)果的部分精度來(lái)降低芯片的功耗和面積。為了進(jìn)一步降低芯片的工作電壓,改善芯片在下的可靠性,Naresh RShanbhag等人提出 [3] 。該技術(shù)針對(duì)非精確計(jì)算的場(chǎng)景,比如數(shù)字信號(hào)處理器,神經(jīng)網(wǎng)絡(luò)加速器[5][6][7] 等等。該技術(shù)與電壓縮放技術(shù)結(jié)合,通過(guò)額外的檢錯(cuò)和糾錯(cuò)電路補(bǔ)償因電壓過(guò)度縮放(VOS)而導(dǎo)致的軟錯(cuò)誤,使電路的輸出的整體結(jié)果在下達(dá)到一個(gè)可以接收的程度。因此,算法容噪技術(shù)降低了電路的最小工作電壓,降低了電路的功耗并且提升了電路在低壓下的穩(wěn)定性。

  但是算法容噪技術(shù)有兩部分的硬件冗余:一部分是“估計(jì)器”,它用來(lái)產(chǎn)生一個(gè)近似值,是檢錯(cuò)糾錯(cuò)的基礎(chǔ);另1部分是“檢錯(cuò)糾錯(cuò)模塊”。為了解決第一部分冗余,Sai Zhang等人提出嵌入式算法容噪技術(shù)的概念,并解釋了如何通過(guò)數(shù)據(jù)通路分解來(lái)把估計(jì)器嵌入到主運(yùn)算電路當(dāng)中,從而減小甚至完全抹去第一部分冗余 [1]

  但是第2部分冗余仍然沒(méi)有做任何優(yōu)化。對(duì)于比較大的電路來(lái)說(shuō),第2部分冗余占的比例比較小,因此不會(huì)太關(guān)注。但是對(duì)于小規(guī)模的乘法器,第2部分冗余仍然是比較重要的。本文主要是通過(guò)優(yōu)化第2部分硬件冗余來(lái)進(jìn)一步降低嵌入式算法容噪技術(shù)的功耗和面積。

  本文基于SMIC 180 nm工藝,針對(duì)基于嵌入式算法容噪技術(shù)的乘法器提出一種合理的優(yōu)化其檢錯(cuò)糾錯(cuò)模塊的方法。由于優(yōu)化了檢錯(cuò)糾錯(cuò)模塊,使整個(gè)電路的面積和功耗有較為明顯的下降。

  1 算法容噪技術(shù)介紹

  算法容噪技術(shù)(ANT)的基本框架如圖1所示:包括1個(gè)主計(jì)算模塊,1個(gè)估計(jì)器,1個(gè)檢錯(cuò)糾錯(cuò)模塊。算法容噪技術(shù)需要和電壓縮放技術(shù)(VOS)結(jié)合起來(lái):電壓縮放技術(shù)降低電源電壓,從而降低電路功耗;而算法容噪技術(shù)負(fù)責(zé)補(bǔ)償由于電壓過(guò)度縮放而導(dǎo)致的軟錯(cuò)誤。

  其具體工作原理是:當(dāng)電路的電源電壓縮放到關(guān)鍵電壓以下時(shí),運(yùn)算電路就會(huì)發(fā)生軟錯(cuò)誤,并且軟錯(cuò)誤總是優(yōu)先在結(jié)果的高位發(fā)生,此時(shí)會(huì)導(dǎo)致信號(hào)的精度嚴(yán)重下降。在算法容噪系統(tǒng)中,估計(jì)器需要同步輸出主計(jì)算模塊的估計(jì)值,并且在電壓縮放的范圍內(nèi),估計(jì)器本身應(yīng)該保證不發(fā)生軟錯(cuò)誤。檢錯(cuò)糾錯(cuò)模塊通過(guò)比較主計(jì)算模塊的輸出和估計(jì)器的輸出的差值是否大于預(yù)設(shè)的閾值來(lái)判斷主計(jì)算模塊的高位是否出現(xiàn)了軟錯(cuò)誤。如果檢測(cè)到結(jié)果的高位出現(xiàn)了軟錯(cuò)誤,說(shuō)明主計(jì)算模塊的結(jié)果誤差很大,此時(shí)就使用估計(jì)器的輸出作為整個(gè)系統(tǒng)最終的輸出;否則,就使用主計(jì)算模塊的輸出作為整個(gè)電路最終的輸出,如公式(1)所示。

1565678351965620.png

1565678664681252.jpg

  通過(guò)這樣的補(bǔ)償方式,算法容噪技術(shù)最終通過(guò)引入一個(gè)較小的誤差,來(lái)保證整個(gè)系統(tǒng)的整體輸出仍然滿足近似電路的指標(biāo)要求。

1565678657186313.jpg

  然而,由于加入了估計(jì)器和檢錯(cuò)糾錯(cuò)模塊,算法容噪技術(shù)也帶來(lái)了比較大的額外的硬件開(kāi)銷。嵌入式算法容噪技術(shù)把原始的計(jì)算過(guò)程進(jìn)行分解成了主要部分和次要部分兩個(gè)部分。用來(lái)計(jì)算主要部分的電路作為估計(jì)器,主要部分和次要部分的和作為主計(jì)算模塊的結(jié)果,這樣就實(shí)現(xiàn)了把估計(jì)器嵌入到了主計(jì)算模塊,從而解決了估計(jì)器帶來(lái)的硬件開(kāi)銷。

  2 檢錯(cuò)糾錯(cuò)模塊的改進(jìn)

  盡管嵌入式算法容噪技術(shù)可以去掉估計(jì)器的硬件消耗,但是沒(méi)有對(duì)檢錯(cuò)糾錯(cuò)模塊中的開(kāi)銷進(jìn)行優(yōu)化。由于這部分的硬件開(kāi)銷是比較確定的,即1個(gè)加法器,1個(gè)取絕對(duì)值模塊,1個(gè)比較器,1個(gè)多路復(fù)用器等。因此這些硬件開(kāi)銷對(duì)于大的設(shè)計(jì)來(lái)說(shuō)所占比例較小,但是對(duì)于小規(guī)模的運(yùn)算模塊例如乘法器還是很重要的。

  為了進(jìn)一步簡(jiǎn)化檢錯(cuò)糾錯(cuò)模塊,我們提出了通過(guò)閾值的優(yōu)化選擇來(lái)優(yōu)化這一部分的硬件復(fù)雜度。對(duì)于一般的閾值,檢錯(cuò)糾錯(cuò)模塊需要進(jìn)行相減,取模,比較,才能生成正確的選擇信號(hào)。但是我們發(fā)現(xiàn)適量縮放閾值大小后,只需要簡(jiǎn)單的相等判斷邏輯就可以生成正確的選擇信號(hào)。

1565678624450659.jpg

1565678625839720.jpg

  一般的算法容噪技術(shù)的閾值由公式(2)確定:

1565678415322286.png

  即理論的閾值就是針對(duì)任意的輸入,在不發(fā)生軟錯(cuò)誤的情況下,估計(jì)器和主計(jì)算模塊的最大差值。對(duì)于如圖3所示的8乘8的嵌入式算法容噪技術(shù)乘法器來(lái)說(shuō),它的理論閾值等于主計(jì)算模塊中除去估計(jì)器的部分的最大值。因此,取,x1=8'b1111_1111,x2=8'b1111_1111此時(shí)得到的差值就是最大差值。根據(jù)其實(shí)現(xiàn)的過(guò)程,可以得到

1565678394831745.png

  為了減少檢錯(cuò)糾錯(cuò)模塊的硬件消耗,我們可以合理地調(diào)節(jié)這個(gè)閾值。例如,可適當(dāng)增加或者減小這個(gè)閾值,使之變成 2 1n? 。對(duì)于上述的8乘8的嵌入式算法容噪乘法器,我們可以調(diào)節(jié)閾值為Th=31=8'b0001_1111。這樣我們就可以通過(guò)比較主計(jì)算模塊和估計(jì)器的輸出的最高幾位是否相等來(lái)判斷主計(jì)算模塊是否發(fā)生軟錯(cuò)誤。如圖4,從而去掉了檢錯(cuò)糾錯(cuò)模塊所需要的加法器、取模模塊、大小比較器,降低了其硬件復(fù)雜度。通過(guò)閾值縮放,我們可以將加法器,絕對(duì)值模塊,比較器最終用幾個(gè)同或門來(lái)代替,大大降低了檢錯(cuò)糾錯(cuò)模塊的硬件復(fù)雜度。

  3 仿真結(jié)果比較

  3.1 仿真條件和設(shè)置

  根據(jù)前面的思路,我們?cè)O(shè)計(jì)了一個(gè)8乘8的改良型嵌入式算法容噪乘法器(MDPD),并且基于SMIC 180 nm工藝對(duì)該乘法器、傳統(tǒng)陣列乘法器(DIR)和嵌入式算法容噪乘法器(DPD)進(jìn)行了相同條件的仿真實(shí)驗(yàn),并且對(duì)它們的仿真結(jié)果進(jìn)行了對(duì)比。

  我們用同一組隨機(jī)數(shù)據(jù)作為乘法器的輸入,仿真了三種乘法器結(jié)構(gòu)在各個(gè)電壓450 MHz的采樣頻率下的均方誤差(MSE)和功耗。為了正確反應(yīng)電路在不同電壓下的實(shí)際表現(xiàn),我們采用nanosim和VCS對(duì)3種乘法器結(jié)構(gòu)進(jìn)行了晶體管級(jí)的混合仿真。

  3.2 MSE的比較

  均方誤差(mean-square error,MSE)是反映估計(jì)量與被估計(jì)量之間差異程度的一種度量,可以用來(lái)衡量近似電路與的近似效果。如果均方誤差小,說(shuō)明近似電路的近似效果好。

  我們從1.0 V~1.8 V每間隔0.02 V取一個(gè)電壓進(jìn)行了仿真,得到了如圖5所示的3種乘法器結(jié)構(gòu)的均方誤差隨電壓變化的曲線圖。從圖上可以看到基于算法容噪技術(shù)的乘法器對(duì)于軟錯(cuò)誤有比較好的容錯(cuò)能力,在1.2 V之前其均方誤差都沒(méi)有明顯的上升,而普通的陣列乘法器的均方誤差隨電壓下降上升明顯。因此,在相同的均方誤差下,算法容噪的乘法器MDPD和DPD可以工作在更低的電壓,大約可以下降0.4 V。

1565678593823875.jpg

  3.3 功耗對(duì)比

  對(duì)應(yīng)于實(shí)驗(yàn)使用的電源電壓,得到了3種結(jié)構(gòu)在不同的電壓下的功耗。MDPD和DPD得益于主計(jì)算模塊的近似實(shí)現(xiàn),因此主計(jì)算模塊比陣列乘法器DIR硬件開(kāi)銷小。而經(jīng)過(guò)我們優(yōu)化過(guò)后的MDPD就有比較明顯的功耗降低。如圖6所示,在1.8 V的電源電壓下,MDPD的功耗比DPD小約16%。

1565678570353565.jpg

  4 結(jié)論

  在這篇文章中,我們針對(duì)算法容噪技術(shù)進(jìn)行了改進(jìn),通過(guò)優(yōu)化了嵌入式算法容噪技術(shù)乘法器的檢錯(cuò)糾錯(cuò)模塊。在保留了嵌入式算法容噪技術(shù)的基本功能和性能的同時(shí),改進(jìn)的嵌入式算法容噪乘法器在450MHz的工作頻率下最低可以工作到1.2 V,相比普通的陣列乘法器最低工作電壓可以下降0.4 V,相比改良前的嵌入式算法容噪乘法器,功耗可以下降約16%。

  參考文獻(xiàn)

  [1] Zhang S, Shanbhag N R.Embedded Algorithmic Noise-Tolerance for Signal Processing and Machine Learning Systems viaData Path Decomposition. IEEE Transactions on Signal Processing, 2016,64(13): 3338-3350.

  [2] Abdallah R A, Shanbhag N R. An Energy-Efficient ECG Processor in 45-nm CMOS Using Statistical Error Compensation. IEEEJournal of Solid-State Circuits, 2013,48(11): 2882-2893.

  [3] Shim B, Sridhara S R,Shanbhag N R. Reliable low-power digital signal processing via reduced precision redundancy. IEEETransactions on Very Large Scale Integration (VLSI) Systems, 2004,12(5):497-510.

  [4] Wey I, Peng C C, Liao F Y. Reliable Low-Power Multiplier Design Using Fixed-Width Replica Redundancy Block[J]. IEEETransactions on Very Large Scale Integration Systems, 2015, 23(1):78-87.

  [5] Lin Y, Zhang S, Shanbhag N R. Variation-Tolerant Architectures for Convolutional Neural Networks in the Near ThresholdVoltage Regime[C]. IEEE International Workshop on Signal Processing Systems. IEEE, 2016.

  [6] Zhang S, Shanbhag N R. Embedded error compensation for energy efficient DSP systems.2014:30-34.

  [7] Zhang S, Shanbhag N R. Reduced overhead error compensation for energy efficient machine learning kernels. 2015:15-21.

  作者簡(jiǎn)介:

  何進(jìn) (1993-),男,碩士研究生,主要研究方向:數(shù)字集成電路設(shè)計(jì)。

  賀雅娟 (1978-),女,副教授,主要研究方向:專用集成電路與系統(tǒng)、超低壓超低功耗數(shù)字集成電路設(shè)計(jì)等。

  本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第8期第46頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處




評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉