Forerunner：首個面向“多未來”的推測執(zhí)行技術(shù)

發(fā)布人：MSRAsia 時間：2021-11-12 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：10月26-29日，系統(tǒng)領(lǐng)域的全球頂會 SOSP 2021 在線上舉辦。在本屆大會上，微軟亞洲研究院研究員陳洋、郭眾鑫、李潤懷（實習(xí)生，浙江大學(xué)）、陳碩、周禮棟、張憲以及浙江大學(xué)周亞金教授共同提出了一種新穎的基于約束的推測執(zhí)行技術(shù)——Forerunner，這是第一個面向“多未來”的推測執(zhí)行技術(shù)。本篇論文獲得了 Artifact Evaluation 全部三個最高級別徽章（即代碼可評估、代碼可獲取和實驗結(jié)果可復(fù)制）。今天將為大家從這項研究的底層思路和邏輯進(jìn)行梳理總結(jié)。想要了解更多技術(shù)細(xì)節(jié)和更深入的實驗數(shù)據(jù)，歡迎參閱論文原文。

在近日舉行的系統(tǒng)領(lǐng)域全球頂會 SOSP 2021 上，微軟亞洲研究院的研究員們在論文“Forerunner: Constraint-Based Speculative Execution for Ethereum”中，提出了一種全新的、基于約束（constraints）的推測執(zhí)行（speculative execution）技術(shù)——Forerunner。這是首個面向“多未來”的推測執(zhí)行技術(shù)，其技術(shù)特點是把利用預(yù)執(zhí)行（pre-execution）來加速實際執(zhí)行（actual execution）的手段進(jìn)行了巧妙且基于通用約束的泛化。

論文鏈接：https://www.microsoft.com/en-us/research/publication/forerunner-constraint-based-speculative-transaction-execution-for-ethereum/

微軟亞洲研究院的研究員們將 Forerunner 方法應(yīng)用在了支持智能合約（smart contract）的以太坊（Ethereum）區(qū)塊鏈中，以嘗試對位于其系統(tǒng)核心的交易（transaction）執(zhí)行環(huán)節(jié)進(jìn)行加速。為了在最真實的場景下對技術(shù)效果進(jìn)行評估，其中所有實驗都是基于以太坊公鏈上實時產(chǎn)生的真實交易和區(qū)塊（block）進(jìn)行的。評估結(jié)果表明：經(jīng)過泛化的推測執(zhí)行技術(shù)能在真實系統(tǒng)中取得了可觀的性能收益。這種對交易執(zhí)行的加速能力可以用來提高以太坊核心層交易吞吐量。其主要的性能結(jié)果已經(jīng)在 SOSP 的 Artifact Evaluation 中得到了獨立的復(fù)現(xiàn)。

下面讓我們來一起了解一下推測執(zhí)行技術(shù)以及 Forerunner 的原理。

基礎(chǔ)：“推測執(zhí)行”

推測執(zhí)行技術(shù)已經(jīng)成功的應(yīng)用于許多系統(tǒng)之中，每當(dāng)有一段需要稍后才會執(zhí)行的代碼出現(xiàn)時，都可以使用這種技術(shù)。由于決定其執(zhí)行結(jié)果的代碼輸入只有在執(zhí)行發(fā)生時才會完全知道，所以通過對輸入進(jìn)行預(yù)測，可以在備用或空閑資源上預(yù)先執(zhí)行代碼。如果后來發(fā)現(xiàn)預(yù)測正確，則可以跳過實際執(zhí)行，返回預(yù)執(zhí)行結(jié)果，從而實現(xiàn)對實際執(zhí)行的加速。但是，當(dāng)預(yù)測結(jié)果錯誤時，預(yù)執(zhí)行將不會起作用，并且會因為核對預(yù)測結(jié)果而引入額外的開銷。推測執(zhí)行過去多被應(yīng)用于“單未來”環(huán)境中，在這種情況下，簡單地押注最可能出現(xiàn)的那種未來，就是一種有效的策略。

圖1：推測執(zhí)行示意圖

問題：“多未來”推測執(zhí)行

“多未來”的推測執(zhí)行問題源于以太坊區(qū)塊鏈交易處理中的機(jī)遇和挑戰(zhàn)。作為可編程的區(qū)塊鏈，以太坊交易能夠觸發(fā)任意智能合約代碼的執(zhí)行。因此，其執(zhí)行環(huán)節(jié)是系統(tǒng)中的一個瓶頸。抽象的來說，以太坊是以“傳播-共識-執(zhí)行”模型來運作的。在這個模型中，交易首先通過 P2P 網(wǎng)絡(luò)進(jìn)行“傳播”，然后通過去中心化的“共識”算法被接受到一個個區(qū)塊中，然后由所有以太坊節(jié)點按區(qū)塊鏈中的順序“執(zhí)行”。雖然“傳播到執(zhí)行”窗口為推測執(zhí)行創(chuàng)造了自然的機(jī)會，但由于去中心化的“傳播”和“共識”過程，使交易的進(jìn)塊時機(jī)和順序存在很多不同的可能性，從而導(dǎo)致了“多未來”現(xiàn)象的產(chǎn)生。而且，通常沒有任何一種可能的“未來”占有壓倒性的概率優(yōu)勢。這就意味著，如果對每筆交易只做一種預(yù)測，無論每次押注在哪種可能的“未來”上，預(yù)測的總體準(zhǔn)確度都不會很高。這種“多未來”的情況，是傳統(tǒng)“單未來”推測執(zhí)行技術(shù)無法有效應(yīng)對的挑戰(zhàn)。

圖2：以太坊交易執(zhí)行的“多未來”特性示意圖

思路：“跨未來”加速

直觀上來說，為了應(yīng)對“多未來”挑戰(zhàn)必須找到一種方法，使其能夠利用一個或很少的預(yù)執(zhí)行來覆蓋大部分的可能性空間。這在本質(zhì)上需要實現(xiàn)“跨未來”的加速。換言之，就是要利用在預(yù)測的某個”未來“中實施的預(yù)執(zhí)行結(jié)果，來加速在其他可能發(fā)生的”未來“中的執(zhí)行。從這種意義上來看，傳統(tǒng)的推測執(zhí)行技術(shù)實施的是”同未來“加速。雖然通過“跨未來”方式得到的加速并不一定能與“同未來”方式獲得的加速結(jié)果相匹敵。但可以通過進(jìn)行合理地預(yù)測，讓預(yù)執(zhí)行所基于的“ 未來”與實際會發(fā)生的“未來” 更加相似，進(jìn)而獲得更高的加速度。

一旦我們有機(jī)會基于預(yù)測出的多種“未來”而進(jìn)行多次預(yù)執(zhí)行，那么就可以引入另一種“跨未來”的加速方式。從某種意義上說，這是對剛剛描述的”一對多“想法的對偶。它是指盡可能利用已有的多個預(yù)執(zhí)行來更好地加速實際發(fā)生的真實”未來“。這種”多對一“想法大致上是將各個預(yù)執(zhí)行拆分開來，并將拆分后的部件重新組裝在一起，以盡可能接近真實的未來。目標(biāo)是使用更高的相似性來實現(xiàn)更高的加速比。理想情況下，它應(yīng)該允許基于幾個實際發(fā)生的預(yù)執(zhí)行，組合拼接出大量的預(yù)執(zhí)行，以增加完全命中實際的”未來“，或是非常接近它的可能性。

圖3：“一對多”加速及“多對一(多)”加速示意圖

“未來“間的連結(jié)：控制/數(shù)據(jù)-等價性

為了實現(xiàn)“跨未來“加速，研究員們需要找出可能發(fā)生的諸多“未來”的內(nèi)在相似性，使得在一個“未來”中完成的計算可用于加速在另一個“未來”的執(zhí)行。這其中的關(guān)鍵是把在每個可能在“未來”中的執(zhí)行視為指令跟蹤（instruction trace）序列，并利用其結(jié)構(gòu)上的等價性來實現(xiàn)“跨未來”加速。

微軟亞洲研究院的研究員們提出的這種指令序列在結(jié)構(gòu)上的等價性被稱為 CD-Equivalence，其中 C 和 D 分別是控制流（control flow）和數(shù)據(jù)流（data flow）的首字母。當(dāng)且僅當(dāng)它們的指令序列具有相同的控制流和數(shù)據(jù)流時，兩個指令跟蹤序列是控制/數(shù)據(jù)-等價的（CD-Equivalent）。這意味著，兩者執(zhí)行的所有指令以及它們的順序是完全相同的，并且對應(yīng)指令間的數(shù)據(jù)依賴也是完全一致的。CD-Equivalence 能將所有可能發(fā)生的“未來”劃分到各個等價類中。在每個類的任一“未來”中的執(zhí)行都會產(chǎn)生等價（CD-Equivalent）的指令跟蹤序列。這就說明如果能以某種方式，將任一指令跟蹤序列轉(zhuǎn)化為一個可執(zhí)行程序，它就可以在同屬一個等價類的所有“未來”中產(chǎn)生與原始交易的代碼相同的執(zhí)行結(jié)果。這種基于跟蹤序列的程序有一個非常重要的特性：它本質(zhì)上是針對給定等價類完全展開（unroll）和內(nèi)聯(lián) (inline)后的一條直線型指令序列，而且指令間的數(shù)據(jù)依賴關(guān)系也是單一且完全確定的。這使得它具有高度的可優(yōu)化性。因此，可以通過基于某個預(yù)測出的“未來”，進(jìn)行一次預(yù)執(zhí)行并跟蹤記錄其指令序列，再通過激進(jìn)的優(yōu)化將其特化為一條更短、更有效的快速路徑（fast path）程序。這條快速路徑能夠加速同屬一個等價類的所有”未來”。為了刻畫一個快速路徑的適用范圍，研究員們會生成一組針對給定等價類的約束條件（constraints），來判定一個給定的“未來”是否屬于這個等價類。

選擇 CD-Equivalence 的另一個非常重要的原因是基于對以太坊上真實交易（transactions）的關(guān)鍵觀察：這些交易在多種不同“未來”中的執(zhí)行之間，往往具有基于 CD-Equivalence 的等價性。研究員在論文中用一個具體的例子對此進(jìn)行了進(jìn)一步闡釋。換言之，CD-Equivalence 能夠把以太坊真實場景的“未來”空間劃分為較少的幾個等價類，使得少數(shù)幾個預(yù)執(zhí)行就能覆蓋住全部或是大部分的可能性空間。

圖4：CD-Equivalence 示意圖

關(guān)鍵技術(shù)：多指令序列的程序特化和記憶化

Forerunner 的關(guān)鍵技術(shù)是將兩種新穎的方法進(jìn)行有機(jī)結(jié)合。它們是一種新的多指令序列的程序特化和一種新的記憶化。Forerunner 首先會對預(yù)執(zhí)行進(jìn)行跟蹤（tracing），進(jìn)而得到指令序列，然后利用程序特化技術(shù)（Specialization）生成由約束檢查代碼和快速路徑代碼組合而成的“加速程序”，最后再利用記憶化技術(shù)（Memoization）在“加速程序”的各個代碼段上添加“近道“（shortcut）” 。“近道“會根據(jù)預(yù)執(zhí)行中記住的信息生成。而“加速程序“在其執(zhí)行過程中，則可以利用”近道“跳過部分代碼段，從而進(jìn)一步提高加速效果。

Forerunner的關(guān)鍵技術(shù)有以下幾個亮點：

（1）特化生成的”加速程序“其代碼長度比原始跟蹤序列短得多，平均而言，僅為其十分之一；

（2）特化過程中的一個關(guān)鍵創(chuàng)新是將特化后的代碼轉(zhuǎn)換到一種簡化后的中間語言上。這種新的中間語言能在一個極大簡化后的虛擬機(jī)上執(zhí)行，其效率遠(yuǎn)超支持原始代碼的復(fù)雜虛擬機(jī)。這使得本來就更短的”加速程序“代碼還能被更高效的執(zhí)行；

（3）”加速程序“ 的執(zhí)行是無需回滾的。在確信給定的”未來“可以通過其快速路徑加速之前，”加速程序“ 不會進(jìn)行任何外部可見的更改。這意味著，在發(fā)現(xiàn)無法加速的情況，可以立即用原始代碼執(zhí)行，而無需任何回滾的操作；

（4）研究員們提出的創(chuàng)新的方法能夠?qū)Χ鄠€快速路徑所對應(yīng)的多組約束檢查進(jìn)行合并式檢查。這確保了約束檢查的成本不會隨著所需要涵蓋的等價類的數(shù)量而增加；

（5）抄”近道“機(jī)制非常靈活和強(qiáng)大。它可以利用在預(yù)執(zhí)行中記住的信息跳過“加速程序”的不同部分。它是實現(xiàn)前面提到的“多對一”加速的關(guān)鍵。在評估中，研究員們觀察到抄“近道“機(jī)制可以跳過 80% 以上的”加速程序“代碼。在做出完美預(yù)測的最佳情況下，抄“近道“機(jī)制可以跳過幾乎所有計算指令，這非常接近傳統(tǒng)方法的行為和執(zhí)行的效率，使得論文中提出的方法可被視為對傳統(tǒng)推測執(zhí)行技術(shù)的一種泛化。

（6）論文中提出的特化和記憶化過程本身也非常高效，可以確保在實際執(zhí)行發(fā)生之前，就及時生成好相應(yīng)的“加速程序”。

圖5：Forerunner 關(guān)鍵技術(shù)示意圖

基于以太坊的實現(xiàn)和評測

為了驗證本文的方法，研究員們將 Forerunner 具體實現(xiàn)為以太坊節(jié)點的交易執(zhí)行加速器，并測量實現(xiàn)的加速比。這個加速器能在真實的以太坊節(jié)點中穩(wěn)定運行，并且可以正確處理所有真實世界中的以太坊交易和智能合約代碼。本次實驗評估工作的亮點在于：它是在真實運行的以太坊公網(wǎng)節(jié)點中，在實時發(fā)生的區(qū)塊鏈交易上進(jìn)行效果測量的。這種評估方式將技術(shù)暴露于真實的代碼和數(shù)據(jù)、真實中的“未來”不確定性，以及真實情況中能用于預(yù)執(zhí)行和其他預(yù)處理的時間約束下，這對于評估一項推測執(zhí)行技術(shù)的真實有效性至關(guān)重要。在這樣的評測中，如果本文的技術(shù)不能在實時系統(tǒng)中正確且快速地完成從預(yù)測到特化和記憶化等所有工作，那它們就不會得到任何的加速效果。

研究員們的主要評估持續(xù)了10天，包括其間真實發(fā)生在以太坊公網(wǎng)中的所有1300萬筆交易。評估結(jié)果表明，F(xiàn)orerunner 技術(shù)在所有這些交易實現(xiàn)的平均加速為6.1。值得一提的是，在以太坊實測中，因為各種原因，有大約5%的交易沒有被用于性能評測的節(jié)點提前聽到，因此研究員們完全沒有機(jī)會對它們進(jìn)行任何預(yù)執(zhí)行以及后繼的加速。如果將這些未提前聽到的交易排除在計算之外，F(xiàn)orerunner 實現(xiàn)的有效平均加速比應(yīng)為8.4。相比之下，傳統(tǒng)方法只能實現(xiàn)2.1的有效平均加速比。這是因為傳統(tǒng)的“單未來”方法無法應(yīng)對以太坊中大量的“多未來”交易，它只能加速占比大約50%的“單未來”交易。而 Forerunner 則可以加速幾乎所有的“多未來”的交易，使得能被加速的交易占比提升到98.41%。這在本質(zhì)上打破了“多未來”場景中加速比提升的“天花板”，為進(jìn)一步的性能優(yōu)化打開了空間。