Helium 技術(shù)講堂 | 克服 Amdahl 定律的影響

作者：時(shí)間：2024-09-04 來源：Arm

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

當(dāng)人工智能 (AI) 下沉到各式各樣的應(yīng)用當(dāng)中，作為市場(chǎng)上最大量的物聯(lián)網(wǎng)設(shè)備也將被賦予智能性。Arm ^?Helium? 技術(shù)正是為基于 Arm Cortex ^?-M 處理器的設(shè)備帶來關(guān)鍵機(jī)器學(xué)習(xí)與數(shù)字信號(hào)處理的性能提升。

本文引用地址：http://butianyuan.cn/article/202409/462642.htm

上周，我們聊了聊與內(nèi)存訪問相關(guān) 的內(nèi)容。最后一期的 Helium 技術(shù)講堂，我們將要了解如何克服阿姆達(dá)爾 (Amdahl) 定律的影響。若您想要了解如何高效利用 Helium，千萬別錯(cuò)過文末視頻，通過 Arm 技術(shù)專家的實(shí)例演示，詳解 Helium 如何為端點(diǎn)設(shè)備引入更多智能。

Arm Helium 技術(shù)誕生的由來

克服 Amdahl 定律的影響

作者：Arm 架構(gòu)與技術(shù)部 M 系列首席架構(gòu)師兼研究員 Thomas Grocutt

在前幾篇文章中，我們介紹了采用 Arm Helium 技術(shù)（也稱為 MVE）的 Armv8.1-M 架構(gòu)如何處理矢量指令。但問題是，每當(dāng)代碼被矢量化時(shí)，Amdahl 定律的影響很快便會(huì)顯現(xiàn)，讓人措手不及。如果您不了解 Amdahl 定律，可以簡(jiǎn)單理解為， Amdahl 定律表明算法中無法并行化的部分很快就會(huì)成為性能瓶頸。例如，如果有 50% 的工作負(fù)載可以并行化，那么即使這部分工作負(fù)載可以無限并行，最多也只能將速度提高二倍。不知您作何感受，如果我能將某件事情無限并行化，但速度卻只能提升二倍，這種微不足道的提升一定會(huì)讓我感到非常惱火！在設(shè)計(jì) Helium 時(shí)，我們必須考慮矢量指令及其相關(guān)聯(lián)的一切內(nèi)容，這樣才能最大限度地提高性能。

串行代碼在循環(huán)處理中很常見，串行代碼造成的開銷可能相當(dāng)大，特別是對(duì)于小循環(huán)。下面的內(nèi)存復(fù)制代碼就是一個(gè)很好的例子：

循環(huán)迭代計(jì)數(shù)的遞減和返回循環(huán)頂端的條件分支占循環(huán)指令的 50%。許多小型 Cortex-M 處理器沒有分支預(yù)測(cè)器（小型 Cortex-M 處理器的面積效率極高，這意味著許多分支預(yù)測(cè)器比整個(gè) Cortex-M 處理器還要大幾倍）。因此，由于分支損失，運(yùn)行時(shí)開銷實(shí)際上高于 50%。通過在多次迭代中攤銷開銷，循環(huán)展開可以幫助減少開銷，但會(huì)增加代碼大小，并使代碼的矢量化過程更加復(fù)雜。鑒于許多 DSP 內(nèi)核都有小循環(huán)，因此在 Helium 研究項(xiàng)目中解決這些問題至關(guān)重要。許多專用 DSP 處理器支持零開銷循環(huán)。一種實(shí)現(xiàn)方法是使用 REPEAT 指令，告訴處理器將下面的指令重復(fù) N 次：

處理器必須記錄多項(xiàng)數(shù)據(jù)：

循環(huán)開始的地址

需要分支回到循環(huán)開始前所剩余的指令數(shù)

剩余的循環(huán)迭代次數(shù)

在處理中斷時(shí)，跟蹤記錄所有這些數(shù)據(jù)可能會(huì)造成問題，因此一些 DSP 只需要延遲中斷，直到循環(huán)完成。如果要執(zhí)行大量的迭代，這可能需要相當(dāng)長(zhǎng)的時(shí)間，而且完全不符合 Cortex-M 處理器應(yīng)該實(shí)現(xiàn)的快速和確定性中斷延遲的需求。這種方法也不適用于處理精確故障，如權(quán)限違規(guī)導(dǎo)致的內(nèi)存管理故障異常 (MemManage)。另一種方法是增加額外的寄存器來處理循環(huán)狀態(tài)。但這些新寄存器必須在異常進(jìn)入和返回時(shí)保存和恢復(fù)，而這又會(huì)增加中斷延遲。為了解決這個(gè)問題，Armv8.1-M 采用了一對(duì)循環(huán)指令：

該循環(huán)首先執(zhí)行 While Loop Start (WLS) 指令，該指令將循環(huán)迭代計(jì)數(shù)復(fù)制到 LR，循環(huán)迭代計(jì)數(shù)為零時(shí)，分支到循環(huán)結(jié)束。還有一條 Do Loop Start (DLS) 指令，可用于設(shè)置一個(gè)循環(huán)，在該循環(huán)中至少始終執(zhí)行一次迭代。Loop End (LE) 指令檢查 LR 以確認(rèn)是否還需要一次迭代，如果需要，則分支返回起點(diǎn)。有趣的是，處理器可以緩存 LE 指令提供的信息（即循環(huán)開始和結(jié)束的位置），因此在下一次迭代時(shí)，處理器甚至可以在獲取 LE 指令之前分支回到循環(huán)的起點(diǎn)。因此，處理器執(zhí)行的指令序列如下所示：

在循環(huán)末尾添加循環(huán)指令有一個(gè)很好的副作用，如果緩存的循環(huán)信息刷新，該指令將重新執(zhí)行。然后，重新執(zhí)行 LE 指令將重新填充緩存。如下圖所示，由于無需保存循環(huán)開始和結(jié)束地址，因此現(xiàn)有的快速中斷處理功能得以保留。

除了第一次迭代和從中斷恢復(fù)時(shí)的一些設(shè)置外，所有時(shí)間實(shí)際上都花在了內(nèi)存復(fù)制而不是循環(huán)處理上。此外，由于處理器事先知道指令的順序，因此總能用正確的指令填充流水線。這樣就消除了流水線清空和由此導(dǎo)致的分支損失。因此，我們可以將這一循環(huán)矢量化，不必再擔(dān)心 Amdahl 定律的影響，我們（暫時(shí)）克服了這些困難。

在對(duì)代碼進(jìn)行矢量化時(shí)，一個(gè)循環(huán)通常以不同類型的指令開始和結(jié)束，例如矢量加載 (VLDR) 和矢量乘加 (VMLA)。執(zhí)行這樣的循環(huán)時(shí)，會(huì)產(chǎn)生一長(zhǎng)串不間斷的交替 VLDR/VMLA 操作（如下圖所示）。這種不間斷的鏈條使處理器能夠從指令重疊中獲得最大益處，因?yàn)樗踔量梢詮囊粋€(gè)循環(huán)迭代結(jié)束重疊到下一個(gè)迭代開始，從而進(jìn)一步提高性能。關(guān)于指令重疊的更多信息，可參閱：《Arm Helium 技術(shù)誕生的由來：為何不直接采用 Neon？》

當(dāng)需要處理的數(shù)據(jù)量不是矢量長(zhǎng)度的倍數(shù)時(shí)，矢量化代碼就會(huì)出現(xiàn)問題。典型的解決方案是先處理全矢量，然后用一個(gè)串行/非矢量化尾部清理循環(huán)來處理剩余的元素。不知不覺中，Amdahl 定律又出現(xiàn)了，真是令人不勝其煩！Helium 中的矢量可容納 16 個(gè) 8 位數(shù)值，因此在我們對(duì) 31 字節(jié)的 memcpy 函數(shù)進(jìn)行矢量化時(shí)，僅有不到一半的拷貝將由尾部循環(huán)連續(xù)執(zhí)行，而不是由矢量指令并行執(zhí)行。為了解決這個(gè)問題，我們?cè)黾恿搜h(huán)指令的尾部預(yù)測(cè)變體（如 WLSTP、LETP）。對(duì)于這些尾部預(yù)測(cè)循環(huán)，LR 保存的是要處理的矢量元素的個(gè)數(shù)，而不是要執(zhí)行的循環(huán)迭代的次數(shù)。循環(huán)開始指令 (WLSTP) 有一個(gè)大小字段（下面 memcpy 函數(shù)示例中的“.8”），用于指定要處理的元素的寬度。

如果您曾見過其他優(yōu)化的 memcpy 例程，可能會(huì)對(duì)這個(gè)例子的簡(jiǎn)單程度感到驚訝，但對(duì)于 Helium 來說，這已經(jīng)是最好的完全矢量化解決方案所需要的一切了。具體工作原理如下：處理器使用大小字段和剩余元素的數(shù)量來計(jì)算剩余迭代次數(shù)。如果最后一次迭代要處理的元素個(gè)數(shù)少于矢量長(zhǎng)度，則矢量末尾相應(yīng)數(shù)量的元素將被禁用。因此，在上文復(fù)制 31 個(gè)字節(jié)的例子中，Helium 會(huì)在第一次迭代時(shí)并行復(fù)制 16 個(gè)字節(jié)，然后在下一次迭代時(shí)并行復(fù)制 15 個(gè)字節(jié)。這不僅可以避免 Amdahl 定律的影響，實(shí)現(xiàn)該有的性能，還可以完全消除串行尾碼，減少代碼量，簡(jiǎn)化開發(fā)過程。

由于面臨高性能目標(biāo)和嚴(yán)格的面積/中斷延遲限制，我們?cè)谠O(shè)計(jì) Helium 時(shí)就像在設(shè)計(jì)一個(gè)多維拼圖，且其中一半的形狀是已經(jīng)固定的。架構(gòu)中看似毫不相干的部分可以相互作用，產(chǎn)生意想不到的效果或助力解決一些有趣的難題。

整個(gè) Helium 研究團(tuán)隊(duì)和我都無比期待看到 Helium 技術(shù)能夠?yàn)槿碌膽?yīng)用帶來有力的支持。目前 Cortex-M 已有三款產(chǎn)品支持 Helium 技術(shù)——Cortex-M52、Cortex-M55 和 Cortex-M85 ，我迫不及待看到 Helium 技術(shù)持續(xù)賦能我們生態(tài)伙伴的 AI 創(chuàng)新應(yīng)用。

新聞中心

Helium 技術(shù)講堂 | 克服 Amdahl 定律的影響

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)