高性能路由器硬件抽象層的關(guān)鍵技術(shù)研究

作者：時(shí)間：2009-09-29 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

　　1　引　言

　　隨著Internet的飛速發(fā)展和寬帶技術(shù)的不斷出現(xiàn)，骨干網(wǎng)絡(luò)核心路由器的體系結(jié)構(gòu)也發(fā)生了一些變化。近年來(lái)，高性能路由器體系結(jié)構(gòu)的研究和國(guó)內(nèi)外主流廠商生產(chǎn)的大部分商用高端路由器的實(shí)現(xiàn)方案中，普遍采用了集中式交換、分布式報(bào)文處理和轉(zhuǎn)發(fā)的體系結(jié)構(gòu)［1，2］。

　　文獻(xiàn)［3］提出了硬件抽象層(Hardware AbstractionLayer，HAL)的設(shè)計(jì)思想，成功地解決了分布式路由器面臨的通用性支撐軟件系統(tǒng)結(jié)構(gòu)設(shè)計(jì)問(wèn)題，為構(gòu)建開(kāi)放通用的路由器軟件基礎(chǔ)平臺(tái)提供了保證。硬件抽象層包括虛擬驅(qū)動(dòng)、系統(tǒng)管理和內(nèi)部通信3大模塊，在整個(gè)路由器系統(tǒng)中的位置如圖1所示。

路由器系統(tǒng)

　　結(jié)合國(guó)家863重大課題“高性能IPv6路由器基礎(chǔ)平臺(tái)及實(shí)驗(yàn)系統(tǒng)”，將文獻(xiàn)［3］中提出的硬件抽象層在嵌入式實(shí)時(shí)操作系統(tǒng)Hard HatLinux中進(jìn)行了實(shí)現(xiàn)。本文針對(duì)高性能路由器體系結(jié)構(gòu)的特點(diǎn)，研究了硬件抽象層在實(shí)現(xiàn)過(guò)程中的關(guān)鍵技術(shù)。主要包括虛擬驅(qū)動(dòng)的動(dòng)態(tài)加載模式、基于分隔符的TCP實(shí)時(shí)傳輸方法、基于地址映射的內(nèi)核態(tài)與用戶(hù)態(tài)間的阻塞式數(shù)據(jù)交換機(jī)制幾個(gè)內(nèi)容。

　　2　支撐軟件在高性能IPv6路由器中實(shí)現(xiàn)的關(guān)鍵技術(shù)

　　2．1　虛擬驅(qū)動(dòng)的動(dòng)態(tài)加載模式

　　虛擬驅(qū)動(dòng)模塊是模擬線路接口單元?jiǎng)幼鞯闹匾糠?，他的靈活性和可擴(kuò)展性直接影響硬件抽象層的可用性。

　　在Linux操作系統(tǒng)下，該模塊是作為一個(gè)內(nèi)核模塊來(lái)實(shí)現(xiàn)的。他可以實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)加載，與靜態(tài)加載相比具有很大的靈活性。編譯時(shí)，內(nèi)核模塊可單獨(dú)進(jìn)行模塊的編譯調(diào)試，縮短了調(diào)試時(shí)間；使用時(shí)，將該模塊鏈接到內(nèi)核，便可發(fā)揮模擬線路接口單元的作用；擴(kuò)展或升級(jí)時(shí)，可以將其卸載后進(jìn)行修改。除此之外，動(dòng)態(tài)加載還可以縮減Linux內(nèi)核的大小，使編譯后的內(nèi)核小巧，占用內(nèi)存較少，提高了運(yùn)轉(zhuǎn)速度。

　　2．2　基于地址映射的內(nèi)核態(tài)與用戶(hù)態(tài)間的阻塞式數(shù)據(jù)交換機(jī)

　　Linux操作系統(tǒng)中的進(jìn)程分為用戶(hù)態(tài)進(jìn)程和內(nèi)核態(tài)進(jìn)程2類(lèi)，用戶(hù)態(tài)進(jìn)程不能直接執(zhí)行運(yùn)行在內(nèi)核態(tài)的內(nèi)核代碼或者存取操作系統(tǒng)內(nèi)核的數(shù)據(jù)結(jié)構(gòu)。在內(nèi)存管理方面，Linux系統(tǒng)采用虛擬內(nèi)存管理機(jī)制，設(shè)置了兩級(jí)頁(yè)表結(jié)構(gòu)，通過(guò)頁(yè)面地址和在該頁(yè)中的偏移量就可以惟一確定虛擬地址所對(duì)應(yīng)的物理地址。

　　在硬件抽象層的實(shí)現(xiàn)中，內(nèi)部通信處于用戶(hù)態(tài)，虛擬驅(qū)動(dòng)處于內(nèi)核態(tài)。而他們之間不可避免地需要進(jìn)行一些數(shù)據(jù)的傳遞，即處于Linux 不同空間的2個(gè)進(jìn)程要進(jìn)行通信。但是，這2個(gè)模塊分處于Linux系統(tǒng)的用戶(hù)空間和內(nèi)核空間，數(shù)據(jù)指針如何傳遞是一個(gè)問(wèn)題，指針傳遞后如何映射又是一個(gè)問(wèn)題。因此用戶(hù)態(tài)與內(nèi)核態(tài)之間內(nèi)存地址的傳遞和轉(zhuǎn)換成為了提高硬件抽象層工作效率的關(guān)鍵。

　　2．2．1　內(nèi)核態(tài)與用戶(hù)態(tài)的指針傳遞

　　先來(lái)解決內(nèi)存地址的傳遞問(wèn)題，根據(jù)Linux驅(qū)動(dòng)程序的特點(diǎn)，選擇ioctl()函數(shù)來(lái)傳遞指針。該函數(shù)屬于系統(tǒng)調(diào)用，調(diào)用后將一個(gè)類(lèi)型為ifreq的結(jié)構(gòu)指針變量ral＿ifr從用戶(hù)態(tài)傳入內(nèi)核態(tài)，該結(jié)構(gòu)的定義在/include/linux/if．h中。

　　使用了其中的ifrn＿name和ifru＿data兩個(gè)域，其中ifrn＿name代表設(shè)備的名稱(chēng)，即虛擬網(wǎng)絡(luò)接口設(shè)備名，ifru＿data為所要傳遞的數(shù)據(jù)指針。使用系統(tǒng)調(diào)用ioctl()之后，用戶(hù)空間到內(nèi)核空間的指針傳遞就完成了。內(nèi)核空間到用戶(hù)空間的指針傳遞過(guò)程與其相反。因此，下一步要進(jìn)行的是內(nèi)核空間與用戶(hù)空間數(shù)據(jù)指針的映射。

　　2．2．2　內(nèi)核態(tài)與用戶(hù)態(tài)的內(nèi)存映射

　　由2．2．1可知，用戶(hù)空間的指針通過(guò)ioctl傳入內(nèi)核空間后，他本身并沒(méi)有發(fā)生改變，需要進(jìn)行虛擬地址到物理地址的映射才可以對(duì)其進(jìn)行讀寫(xiě)操作。

　　由文獻(xiàn)［4］分析可知，可以使用內(nèi)核kiobuf機(jī)制，他能提供從內(nèi)核空間對(duì)用戶(hù)內(nèi)存的直接訪問(wèn)。內(nèi)核kiobuf機(jī)制的設(shè)計(jì)初衷就是為了便于將用戶(hù)空間的緩沖區(qū)映射到內(nèi)核。使用他能夠獲得數(shù)據(jù)的頁(yè)面起始位置、頁(yè)數(shù)和偏移量等具體參數(shù)，因此可在內(nèi)核空間對(duì)用戶(hù)態(tài)申請(qǐng)的內(nèi)存進(jìn)行操作。

　　首先分配一個(gè)內(nèi)核I/O向量(kiovec)來(lái)產(chǎn)生kiobuf，使用函數(shù)如圖2所示。

使用函數(shù)

　　然后再對(duì)其進(jìn)行初始化，如圖3所示。

初始化

　　最后，將通過(guò)ioctl傳入的用戶(hù)空間指針ifru＿data映射到內(nèi)核態(tài)，使用函數(shù)map＿user＿kiobuf，如圖4所示。

映射到內(nèi)核態(tài)

　　這樣就完成了將指針由用戶(hù)空間映射到內(nèi)核空間的過(guò)程，實(shí)現(xiàn)了從虛擬地址向物理地址的轉(zhuǎn)換。

　　至此，內(nèi)核空間與用戶(hù)空間的內(nèi)存映射問(wèn)題得到了很好的解決。通過(guò)解決內(nèi)存地址映射的問(wèn)題，內(nèi)部通信和虛擬驅(qū)動(dòng)之間就可以只傳遞數(shù)據(jù)指針，大大提高了模塊的運(yùn)行效率。

　　2．3　基于分隔符的TCP實(shí)時(shí)傳輸方法

　　2．3．1　Nagle算法的弊端

　　糊涂窗口綜合癥(Silly WindowSyndrome)的出現(xiàn)使網(wǎng)絡(luò)開(kāi)銷(xiāo)過(guò)大，從而造成TCP性能變壞。根據(jù)文獻(xiàn)［5］所述，糊涂窗口綜合癥的解決方法就是采用文獻(xiàn)［6］中所建議的Nagle算法。但是在實(shí)際應(yīng)用時(shí)發(fā)現(xiàn)，Nagle算法的不足之處主要有2點(diǎn)：

　　(1)在限制數(shù)據(jù)報(bào)頭部信息消耗的帶寬總量的同時(shí)，是以犧牲網(wǎng)絡(luò)延遲為代價(jià)的。

　　(2)在發(fā)送方的緩沖區(qū)中，應(yīng)用程序發(fā)送的數(shù)據(jù)包發(fā)生了粘滯的現(xiàn)象，即發(fā)送的若干數(shù)據(jù)包到接收方接收時(shí)變成一包，分不出各個(gè)包的界線。

　　前者因?yàn)閿?shù)據(jù)被排隊(duì)而不是立即發(fā)送的，因此不適用于需要快速響應(yīng)時(shí)間的系統(tǒng)。后者則會(huì)影響到接收方的數(shù)據(jù)處理的準(zhǔn)確性。第一種不足可以通過(guò)使用PUSH標(biāo)記來(lái)實(shí)現(xiàn)，發(fā)送方如果使用了該標(biāo)志，會(huì)立即將緩沖區(qū)中的數(shù)據(jù)發(fā)送出去。對(duì)于第二個(gè)問(wèn)題，解決起來(lái)就比較復(fù)雜，因?yàn)槌霈F(xiàn)數(shù)據(jù)包粘滯現(xiàn)象的原因既可能由發(fā)送方造成，也可能由接收方造成。

　　2．3．2　基于分隔符的TCP實(shí)時(shí)傳輸方法

　　采用了基于分隔符的TCP實(shí)時(shí)傳輸方法來(lái)解決包粘滯問(wèn)題。該方法在應(yīng)用層數(shù)據(jù)包的起始部分附加上有特定格式的分隔符和數(shù)據(jù)長(zhǎng)度域，其中分隔符用于界定數(shù)據(jù)包之間的界限，長(zhǎng)度域則用于表示該數(shù)據(jù)包的實(shí)際長(zhǎng)度。

　　首先，所有經(jīng)內(nèi)部通信模塊傳輸?shù)臄?shù)據(jù)，都需要進(jìn)行一次內(nèi)部固定格式的封裝。封裝后數(shù)據(jù)包的包頭，是由內(nèi)部通信模塊自定義的，起始位置是分隔符和長(zhǎng)度域。其次，接收方按照內(nèi)部通信模塊的自定義的包結(jié)構(gòu)，接收后對(duì)數(shù)據(jù)流進(jìn)行預(yù)處理，還原成為應(yīng)用程序可正確識(shí)別的數(shù)據(jù)包。預(yù)處理的原理如下：先查找包頭中的分隔符，他標(biāo)識(shí)著一個(gè)數(shù)據(jù)包的開(kāi)始；接下來(lái)的域表示的是實(shí)際數(shù)據(jù)包的長(zhǎng)度len，取出緊跟在包頭后的長(zhǎng)度為len的那段數(shù)據(jù)，這就是需要應(yīng)用程序處理的數(shù)據(jù)包。

　　包粘滯的情況具體可細(xì)分為3大類(lèi)，這里均以2個(gè)應(yīng)用程序數(shù)據(jù)包粘滯成一段的情況為例，如圖5～圖9所示，當(dāng)應(yīng)用程序數(shù)據(jù)包個(gè)數(shù)為n時(shí)，可采用類(lèi)似的方法進(jìn)行處理。

包粘滯的情況

　　第1類(lèi)，粘滯數(shù)據(jù)是由完整的數(shù)據(jù)包組成的，如圖5所示。這種情況的處理非常簡(jiǎn)單，按分隔符找到數(shù)據(jù)包的起始位置，再根據(jù)數(shù)據(jù)長(zhǎng)度取出應(yīng)用程序數(shù)據(jù)即可。

　　第2類(lèi)，粘滯數(shù)據(jù)是由完整數(shù)據(jù)包和應(yīng)用程序數(shù)據(jù)殘缺的數(shù)據(jù)包組成，如圖6和圖7所示。處理時(shí)，需要對(duì)殘缺數(shù)據(jù)包2的應(yīng)用程序數(shù)據(jù)部分進(jìn)行保存，內(nèi)部通信包頭的數(shù)據(jù)長(zhǎng)度域也要記錄下來(lái)，以便下次接收時(shí)知道應(yīng)用程序數(shù)據(jù)剩余部分的長(zhǎng)度。再次收到數(shù)據(jù)時(shí)，就根據(jù)剩余長(zhǎng)度取出一段數(shù)據(jù)，與上次保存的應(yīng)用程序數(shù)據(jù)合為一個(gè)完整的數(shù)據(jù)包。

　　第3類(lèi)，粘滯數(shù)據(jù)是由完整數(shù)據(jù)包和內(nèi)部通信包頭殘缺的數(shù)據(jù)包組成，如圖8和圖9所示。首先，要將如圖8所示數(shù)據(jù)段中收到的殘缺的這部分包頭保存起來(lái)，然后收取下一次數(shù)據(jù)如圖9所示。再?gòu)氖杖〉臄?shù)據(jù)中，截取可以與上次殘缺包頭組成完整的內(nèi)部通信包頭的一段報(bào)文，形成所需要的內(nèi)部通信包頭。當(dāng)然，該段數(shù)據(jù)有可能并不是內(nèi)部通信包頭，這可以從分隔符是否正確等內(nèi)部通信封裝格式來(lái)判斷。如果發(fā)生這種情況，就要將指針以字節(jié)為單位，順次向后滑動(dòng)，直到找到真正的內(nèi)部通信包頭為止。然后根據(jù)包頭中的信息，取出相應(yīng)長(zhǎng)度的應(yīng)用程序數(shù)據(jù)交送給應(yīng)用程序接收者。

　　解決了上述分析的2大不足之后，內(nèi)部通信模塊中實(shí)現(xiàn)的TCP傳輸，在保證數(shù)據(jù)傳輸?shù)牧己玫目煽啃院土骺匦灾?，還具備了一定的實(shí)時(shí)性能和防止數(shù)據(jù)包粘滯的功能。

　　3　結(jié)　語(yǔ)

　　本文研究了硬件抽象層在高性能IPv6路由器實(shí)現(xiàn)中的關(guān)鍵技術(shù)，主要分析了虛擬驅(qū)動(dòng)的動(dòng)態(tài)加載模式、基于分隔符的TCP實(shí)時(shí)傳輸方法、基于地址映射的內(nèi)核態(tài)與用戶(hù)態(tài)間的阻塞式數(shù)據(jù)交換機(jī)制。通過(guò)上述關(guān)鍵技術(shù)的研究，使硬件抽象層得以實(shí)時(shí)、高效地運(yùn)行，并且已穩(wěn)定運(yùn)行于高性能IPv6 路由器中。

新聞中心

高性能路由器硬件抽象層的關(guān)鍵技術(shù)研究

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)