嵌入式代碼經(jīng)常產(chǎn)生bug的五大原因
在嵌入式開發(fā)軟件中查找和消除潛在的錯誤是一項艱巨的任務(wù)。通常需要英勇的努力和昂貴的工具才能從觀察到的崩潰、死機或其他計劃外的運行時行為追溯到根本原因。
本文引用地址:http://butianyuan.cn/article/202401/454709.htm在最壞的情況下,根本原因會破壞代碼或數(shù)據(jù),使系統(tǒng)看起來仍然可以正常工作或至少在一段時間內(nèi)仍能正常工作。
工程師常常放棄嘗試發(fā)現(xiàn)不常見異常的原因,這些異常在實驗室中不易再現(xiàn),將其視為用戶錯誤或“小故障”。然而,機器中的這些鬼魂仍然存在。這是難以重現(xiàn)錯誤的最常見根本原因指南。每當(dāng)您閱讀固件源代碼時,請查找以下五個主要錯誤。并遵循建議的最佳做法,以防止它們再次發(fā)生在您身上。
1. 競爭條件
競爭條件是指兩個或多個執(zhí)行線程(可以是RTOS任務(wù)或main() 和中斷處理程序)的組合結(jié)果根據(jù)交織指令的精確順序而變化的任何情況。每個都在處理器上執(zhí)行。
例如,假設(shè)您有兩個執(zhí)行線程,其中一個規(guī)則地遞增一個全局變量(g_counter + = 1; ),而另一個偶然將其歸零(g_counter = 0; )。如果不能始終以原子方式(即,在單個指令周期內(nèi))執(zhí)行增量,則存在競爭條件。
如圖1所示,將任務(wù)視為汽車接近同一十字路口。計數(shù)器變量的兩次更新之間的沖突可能永遠(yuǎn)不會發(fā)生,或者很少會發(fā)生。但是,這樣做的時候,計數(shù)器實際上不會在內(nèi)存中清零。其值至少在下一個清零之前是損壞的。這種影響可能會對系統(tǒng)造成嚴(yán)重后果,盡管可能要等到實際碰撞后很長一段時間才會出現(xiàn)。
最佳實踐:可以通過必須以適當(dāng)?shù)膿屜认拗菩袨閷υ拥貓?zhí)行代碼的關(guān)鍵部分,來避免競爭條件。為防止涉及ISR的爭用情況,必須在另一個代碼的關(guān)鍵部分持續(xù)時間內(nèi)至少禁止一個中斷信號。
對于RTOS任務(wù)之間的爭用,最佳實踐是創(chuàng)建特定于該共享庫的互斥體,每個互斥體在進(jìn)入關(guān)鍵部分之前必須獲取該互斥體。請注意,依靠特定CPU的功能來確保原子性不是一個好主意,因為這只能防止?fàn)幱们闆r發(fā)生,直到更換編譯器或CPU。
共享數(shù)據(jù)和搶占的隨機時間是造成競爭狀況的元兇。但是錯誤可能并不總是會發(fā)生,這使得從觀察到的癥狀到根本原因的種族狀況跟蹤變得異常困難。因此,保持警惕以保護(hù)所有共享對象非常重要。每個共享對象都是一個等待發(fā)生的事故。
最佳實踐:命名所有潛在共享的對象(包括全局變量,堆對象或外圍寄存器和指向該對象的指針),以使風(fēng)險對于所有將來的代碼閱讀者而言都是顯而易見的;在Netrino嵌入式C編碼標(biāo)準(zhǔn)提倡使用“的G_ 為此,”前綴。查找所有可能共享的對象將是爭用條件代碼審核的第一步。
2. 不可重入功能
從技術(shù)上講,不可重入功能的問題是爭用狀況問題的特例。而且,由于相關(guān)原因,由不可重入函數(shù)引起的運行時錯誤通常不會以可重現(xiàn)的方式發(fā)生 —— 使它們同樣難以調(diào)試。不幸的是,非重入功能也比其他類型的競爭條件更難在代碼審查中發(fā)現(xiàn)。
圖2顯示了一個典型的場景。在這里,要搶占的軟件實體也是RTOS任務(wù)。但是,它們不是通過直接調(diào)用共享對象而是通過函數(shù)調(diào)用間接操作。
例如,假設(shè)任務(wù)A調(diào)用套接字層協(xié)議功能,該套接字功能調(diào)用TCP層協(xié)議功能,調(diào)用IP層協(xié)議功能,該功能調(diào)用以太網(wǎng)驅(qū)動程序。為了使系統(tǒng)可靠地運行,所有這些功能都必須是可重入的。
但是,以太網(wǎng)驅(qū)動程序的所有功能都以以太網(wǎng)控制器芯片的寄存器形式操作相同的全局對象。如果在這些寄存器操作期間允許搶占,則任務(wù)B可以在將數(shù)據(jù)包A排隊之后但在發(fā)送開始之前搶占任務(wù)A。
然后,任務(wù)B調(diào)用套接字層功能,該套接字層功能調(diào)用TCP層功能,再調(diào)用IP層功能,該功能調(diào)用以太網(wǎng)驅(qū)動程序,該隊列將數(shù)據(jù)包B排隊并傳輸。
當(dāng)CPU的控制權(quán)返回到任務(wù)A時,它將請求傳輸。根據(jù)以太網(wǎng)控制器芯片的設(shè)計,這可能會重傳數(shù)據(jù)包B或產(chǎn)生錯誤。數(shù)據(jù)包A丟失,并且不會發(fā)送到網(wǎng)絡(luò)上。
為了可以同時從多個RTOS任務(wù)中調(diào)用此以太網(wǎng)驅(qū)動程序的功能,必須使它們可重入。如果它們每個僅使用堆棧變量,則無事可做。
因此,C函數(shù)最常見的樣式固有地是可重入的。但是,除非精心設(shè)計,否則驅(qū)動程序和某些其他功能將是不可重入的。
使函數(shù)可重入的關(guān)鍵是暫停對外圍設(shè)備寄存器,包括靜態(tài)局部變量,持久堆對象和共享內(nèi)存區(qū)域在內(nèi)的全局變量的所有訪問的搶占。這可以通過禁用一個或多個中斷或獲取并釋放互斥鎖來完成。問題的細(xì)節(jié)決定了最佳解決方案。
最佳實踐:在每個庫或驅(qū)動程序模塊中創(chuàng)建和隱藏一個互斥量,這些互斥量不是本質(zhì)上可重入的。使獲取此互斥鎖成為操作整個模塊中使用的任何持久數(shù)據(jù)或共享寄存器的前提。
例如,相同的互斥鎖可用于防止涉及以太網(wǎng)控制器寄存器和全局或靜態(tài)本地數(shù)據(jù)包計數(shù)器的競爭情況。在訪問這些數(shù)據(jù)之前,模塊中訪問此數(shù)據(jù)的所有功能必須遵循協(xié)議以獲取互斥量。
注意非重入功能可能會作為第三方中間件,舊版代碼或設(shè)備驅(qū)動程序的一部分進(jìn)入您的代碼庫。
令人不安的是,不可重入函數(shù)甚至可能是編譯器隨附的標(biāo)準(zhǔn)C或C++庫的一部分。如果您使用GNU編譯器來構(gòu)建基于RTOS的應(yīng)用程序,請注意您應(yīng)該使用可重入的“newlib”標(biāo)準(zhǔn)C庫,而不是默認(rèn)庫。
3. 缺少volatile關(guān)鍵字
如果未使用C的volatile關(guān)鍵字標(biāo)記某些類型的變量,則可能導(dǎo)致僅在將編譯器的優(yōu)化器設(shè)置為低級或禁用編譯器才能正常工作的系統(tǒng)中出現(xiàn)許多意外行為。該揮發(fā)性預(yù)選賽期間變量聲明,其中它的目的是為了防止優(yōu)化的讀取和變量的寫入使用。
例如,如果您編寫清單1所示的代碼,則優(yōu)化器可能會通過消除第一行來嘗試使程序更快速、更小,從而損害患者的健康。但是,如果將g_alarm聲明為volatile ,那么將不允許這種優(yōu)化。
最佳實踐:將揮發(fā)的關(guān)鍵字應(yīng)該用于聲明每個:由ISR和代碼的任何其他部分訪問的全局變量,由兩個或多個RTOS任務(wù)訪問的全局變量(即使已阻止了這些訪問中的競爭條件),指向內(nèi)存映射外設(shè)寄存器(或一組或一組寄存器)的指針,以及延遲循環(huán)計數(shù)器。
請注意,除了確保所有讀寫操作都針對給定變量之外,使用volatile還通過添加其他“序列點”來限制編譯器。除易失性變量的讀取或?qū)懭胫獾钠渌资栽L問必須在該訪問之前執(zhí)行。
4. 堆棧溢出
每個程序員都知道堆棧溢出是很不好的事情。但是,每次堆棧溢出的影響都各不相同。損壞的性質(zhì)和不當(dāng)行為的時機完全取決于破壞哪些數(shù)據(jù)或指令以及如何使用它們。重要的是,從堆棧溢出到它對系統(tǒng)的負(fù)面影響之間的時間長短取決于使用阻塞位之前的時間。
不幸的是,堆棧溢出比臺式計算機更容易遭受嵌入式系統(tǒng)的困擾。這有幾個原因,其中包括:
· 嵌入式系統(tǒng)通常只能占用較少的RAM;
· 通常沒有虛擬內(nèi)存可回退(因為沒有磁盤);
· 基于RTOS任務(wù)的固件設(shè)計利用了多個堆棧(每個任務(wù)一個),每個堆棧的大小都必須足夠大,以確保不會出現(xiàn)唯一的最壞情況的堆棧深度;
· 中斷處理程序可能會嘗試使用這些相同的堆棧。
使該問題進(jìn)一步復(fù)雜化的是,沒有大量的測試可以確保特定的堆棧足夠大。您可以在各種加載條件下測試系統(tǒng),但是只能測試很長時間。僅在“半個藍(lán)月亮”中運行的測試可能不會見證僅在“一次藍(lán)月亮”中發(fā)生的堆棧溢出。
在算法限制(例如無遞歸)下,可以通過對代碼的控制流進(jìn)行自上而下的分析來證明不會發(fā)生堆棧溢出。但是,每次更改代碼時,都需要重做自上而下的分析。
最佳實踐:啟動時,在整個堆棧上繪制不太可能的內(nèi)存模式。(我喜歡使用十六進(jìn)制23 3D 3D 23,它看起來像ASCII內(nèi)存轉(zhuǎn)儲中的籬笆' #==# '。)在運行時,讓管理員任務(wù)定期檢查是否沒有任何涂料在預(yù)先設(shè)定的高水位上方標(biāo)記已更改。
如果發(fā)現(xiàn)某個堆棧有問題,請在非易失性內(nèi)存中記錄特定的錯誤(例如哪個堆棧以及洪水的高度),并為產(chǎn)品的用戶做一些安全的事情(例如,受控關(guān)閉或重置)可能會發(fā)生真正的溢出。這是添加到看門狗任務(wù)中的一項不錯的附加安全功能。
5. 堆碎片化
嵌入式開發(fā)工程師并沒有很好地利用動態(tài)內(nèi)存分配。其中之一是堆碎片的問題。
通過C的malloc()標(biāo)準(zhǔn)庫例程或C++的new關(guān)鍵字創(chuàng)建的所有數(shù)據(jù)結(jié)構(gòu)都駐留在堆中。堆是RAM中具有預(yù)定最大大小的特定區(qū)域。最初,堆中的每個分配都會減少相同字節(jié)數(shù)的剩余“可用”空間。
例如,特定系統(tǒng)中的堆可能從地址0x20200000開始跨越10KB。一對4KB數(shù)據(jù)結(jié)構(gòu)的分配將留下2KB的可用空間。
可以通過調(diào)用free()或使用delete關(guān)鍵字將不再需要的數(shù)據(jù)結(jié)構(gòu)的存儲返回到堆中。從理論上講,這使該存儲空間可用于后續(xù)分配期間的重用。但是分配和刪除的順序通常至少是偽隨機的,這導(dǎo)致堆變成一堆更小的碎片。
若要查看碎片可能是一個問題,請考慮如果上述4KB數(shù)據(jù)結(jié)構(gòu)中的第一個空閑時會發(fā)生什么情況?,F(xiàn)在,堆由一個4KB的空閑塊和另一個2KB的空閑塊組成。它們不相鄰,無法合并。所以我們的堆已經(jīng)被分割了。盡管總可用空間為6KB,但超過4KB的分配將失敗。
碎片類似于熵:兩者都隨時間增加。在長時間運行的系統(tǒng)(換句話說,曾經(jīng)創(chuàng)建的大多數(shù)嵌入式系統(tǒng))中,碎片最終可能會導(dǎo)致某些分配請求失敗。然后呢?您的固件應(yīng)如何處理堆分配請求失敗的情況?
最佳實踐:避免完全使用堆是防止此錯誤的肯定方法。但是,如果動態(tài)內(nèi)存分配在您的系統(tǒng)中是必需的或方便的,則可以使用另一種結(jié)構(gòu)化堆的方法來防止碎片。
關(guān)鍵觀察是問題是由大小可變的請求引起的。如果所有請求的大小都相同,則任何空閑塊都將與其他任何塊一樣好,即使它恰巧不與任何其他空閑塊相鄰。圖3顯示了如何將多個“堆”(每個用于特定大小的分配請求)的使用實現(xiàn)為“內(nèi)存池”數(shù)據(jù)結(jié)構(gòu)。
許多實時操作系統(tǒng)都具有固定大小的內(nèi)存池API。如果您可以訪問其中之一,請使用它代替malloc()和free()?;蚓帉懽约旱墓潭ù笮〉膬?nèi)存池API。您只需要三個函數(shù):一個用于創(chuàng)建新的池(大小為M塊N字節(jié));另一個分配一個塊(來自指定的池);三分之一代替free()。
代碼審查仍然是最佳實踐,可以通過首先確保系統(tǒng)中不存在這些錯誤來避免許多調(diào)試麻煩。最好的方法是讓公司內(nèi)部或外部的人員進(jìn)行全面的代碼審查。
強制使用我在這里描述的最佳實踐的標(biāo)準(zhǔn)規(guī)則編碼也應(yīng)該會有所幫助。如果您懷疑現(xiàn)有代碼中存在這些討厭的錯誤之一,那么執(zhí)行代碼審查可能比嘗試從觀察到的故障追溯到根本原因要快。
評論