嵌入式代碼經(jīng)常產(chǎn)生bug的五大原因

作者：時間：2024-01-11 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在嵌入式開發(fā)軟件中查找和消除潛在的錯誤是一項艱巨的任務(wù)。通常需要英勇的努力和昂貴的工具才能從觀察到的崩潰、死機或其他計劃外的運行時行為追溯到根本原因。

本文引用地址：http://butianyuan.cn/article/202401/454709.htm

在最壞的情況下，根本原因會破壞代碼或數(shù)據(jù)，使系統(tǒng)看起來仍然可以正常工作或至少在一段時間內(nèi)仍能正常工作。

工程師常常放棄嘗試發(fā)現(xiàn)不常見異常的原因，這些異常在實驗室中不易再現(xiàn)，將其視為用戶錯誤或“小故障”。然而，機器中的這些鬼魂仍然存在。這是難以重現(xiàn)錯誤的最常見根本原因指南。每當(dāng)您閱讀固件源代碼時，請查找以下五個主要錯誤。并遵循建議的最佳做法，以防止它們再次發(fā)生在您身上。

1. 競爭條件

競爭條件是指兩個或多個執(zhí)行線程（可以是RTOS任務(wù)或main（）和中斷處理程序）的組合結(jié)果根據(jù)交織指令的精確順序而變化的任何情況。每個都在處理器上執(zhí)行。

例如，假設(shè)您有兩個執(zhí)行線程，其中一個規(guī)則地遞增一個全局變量（g_counter + = 1; ），而另一個偶然將其歸零（g_counter = 0; ）。如果不能始終以原子方式（即，在單個指令周期內(nèi)）執(zhí)行增量，則存在競爭條件。

如圖1所示，將任務(wù)視為汽車接近同一十字路口。計數(shù)器變量的兩次更新之間的沖突可能永遠(yuǎn)不會發(fā)生，或者很少會發(fā)生。但是，這樣做的時候，計數(shù)器實際上不會在內(nèi)存中清零。其值至少在下一個清零之前是損壞的。這種影響可能會對系統(tǒng)造成嚴(yán)重后果，盡管可能要等到實際碰撞后很長一段時間才會出現(xiàn)。

最佳實踐：可以通過必須以適當(dāng)?shù)膿屜认拗菩袨閷υ拥貓?zhí)行代碼的關(guān)鍵部分，來避免競爭條件。為防止涉及ISR的爭用情況，必須在另一個代碼的關(guān)鍵部分持續(xù)時間內(nèi)至少禁止一個中斷信號。

對于RTOS任務(wù)之間的爭用，最佳實踐是創(chuàng)建特定于該共享庫的互斥體，每個互斥體在進(jìn)入關(guān)鍵部分之前必須獲取該互斥體。請注意，依靠特定CPU的功能來確保原子性不是一個好主意，因為這只能防止?fàn)幱们闆r發(fā)生，直到更換編譯器或CPU。

共享數(shù)據(jù)和搶占的隨機時間是造成競爭狀況的元兇。但是錯誤可能并不總是會發(fā)生，這使得從觀察到的癥狀到根本原因的種族狀況跟蹤變得異常困難。因此，保持警惕以保護(hù)所有共享對象非常重要。每個共享對象都是一個等待發(fā)生的事故。

最佳實踐：命名所有潛在共享的對象（包括全局變量，堆對象或外圍寄存器和指向該對象的指針），以使風(fēng)險對于所有將來的代碼閱讀者而言都是顯而易見的；在Netrino嵌入式C編碼標(biāo)準(zhǔn)提倡使用“的G_ 為此，”前綴。查找所有可能共享的對象將是爭用條件代碼審核的第一步。

2. 不可重入功能

從技術(shù)上講，不可重入功能的問題是爭用狀況問題的特例。而且，由于相關(guān)原因，由不可重入函數(shù)引起的運行時錯誤通常不會以可重現(xiàn)的方式發(fā)生 —— 使它們同樣難以調(diào)試。不幸的是，非重入功能也比其他類型的競爭條件更難在代碼審查中發(fā)現(xiàn)。

圖2顯示了一個典型的場景。在這里，要搶占的軟件實體也是RTOS任務(wù)。但是，它們不是通過直接調(diào)用共享對象而是通過函數(shù)調(diào)用間接操作。

例如，假設(shè)任務(wù)A調(diào)用套接字層協(xié)議功能，該套接字功能調(diào)用TCP層協(xié)議功能，調(diào)用IP層協(xié)議功能，該功能調(diào)用以太網(wǎng)驅(qū)動程序。為了使系統(tǒng)可靠地運行，所有這些功能都必須是可重入的。

但是，以太網(wǎng)驅(qū)動程序的所有功能都以以太網(wǎng)控制器芯片的寄存器形式操作相同的全局對象。如果在這些寄存器操作期間允許搶占，則任務(wù)B可以在將數(shù)據(jù)包A排隊之后但在發(fā)送開始之前搶占任務(wù)A。

然后，任務(wù)B調(diào)用套接字層功能，該套接字層功能調(diào)用TCP層功能，再調(diào)用IP層功能，該功能調(diào)用以太網(wǎng)驅(qū)動程序，該隊列將數(shù)據(jù)包B排隊并傳輸。

當(dāng)CPU的控制權(quán)返回到任務(wù)A時，它將請求傳輸。根據(jù)以太網(wǎng)控制器芯片的設(shè)計，這可能會重傳數(shù)據(jù)包B或產(chǎn)生錯誤。數(shù)據(jù)包A丟失，并且不會發(fā)送到網(wǎng)絡(luò)上。

為了可以同時從多個RTOS任務(wù)中調(diào)用此以太網(wǎng)驅(qū)動程序的功能，必須使它們可重入。如果它們每個僅使用堆棧變量，則無事可做。

因此，C函數(shù)最常見的樣式固有地是可重入的。但是，除非精心設(shè)計，否則驅(qū)動程序和某些其他功能將是不可重入的。

使函數(shù)可重入的關(guān)鍵是暫停對外圍設(shè)備寄存器，包括靜態(tài)局部變量，持久堆對象和共享內(nèi)存區(qū)域在內(nèi)的全局變量的所有訪問的搶占。這可以通過禁用一個或多個中斷或獲取并釋放互斥鎖來完成。問題的細(xì)節(jié)決定了最佳解決方案。

最佳實踐：在每個庫或驅(qū)動程序模塊中創(chuàng)建和隱藏一個互斥量，這些互斥量不是本質(zhì)上可重入的。使獲取此互斥鎖成為操作整個模塊中使用的任何持久數(shù)據(jù)或共享寄存器的前提。

例如，相同的互斥鎖可用于防止涉及以太網(wǎng)控制器寄存器和全局或靜態(tài)本地數(shù)據(jù)包計數(shù)器的競爭情況。在訪問這些數(shù)據(jù)之前，模塊中訪問此數(shù)據(jù)的所有功能必須遵循協(xié)議以獲取互斥量。

注意非重入功能可能會作為第三方中間件，舊版代碼或設(shè)備驅(qū)動程序的一部分進(jìn)入您的代碼庫。

令人不安的是，不可重入函數(shù)甚至可能是編譯器隨附的標(biāo)準(zhǔn)C或C++庫的一部分。如果您使用GNU編譯器來構(gòu)建基于RTOS的應(yīng)用程序，請注意您應(yīng)該使用可重入的“newlib”標(biāo)準(zhǔn)C庫，而不是默認(rèn)庫。

3. 缺少volatile關(guān)鍵字

如果未使用C的volatile關(guān)鍵字標(biāo)記某些類型的變量，則可能導(dǎo)致僅在將編譯器的優(yōu)化器設(shè)置為低級或禁用編譯器才能正常工作的系統(tǒng)中出現(xiàn)許多意外行為。該揮發(fā)性預(yù)選賽期間變量聲明，其中它的目的是為了防止優(yōu)化的讀取和變量的寫入使用。

例如，如果您編寫清單1所示的代碼，則優(yōu)化器可能會通過消除第一行來嘗試使程序更快速、更小，從而損害患者的健康。但是，如果將g_alarm聲明為volatile ，那么將不允許這種優(yōu)化。

最佳實踐：將揮發(fā)的關(guān)鍵字應(yīng)該用于聲明每個：由ISR和代碼的任何其他部分訪問的全局變量，由兩個或多個RTOS任務(wù)訪問的全局變量（即使已阻止了這些訪問中的競爭條件），指向內(nèi)存映射外設(shè)寄存器（或一組或一組寄存器）的指針，以及延遲循環(huán)計數(shù)器。

請注意，除了確保所有讀寫操作都針對給定變量之外，使用volatile還通過添加其他“序列點”來限制編譯器。除易失性變量的讀取或?qū)懭胫獾钠渌资栽L問必須在該訪問之前執(zhí)行。

4. 堆棧溢出

每個程序員都知道堆棧溢出是很不好的事情。但是，每次堆棧溢出的影響都各不相同。損壞的性質(zhì)和不當(dāng)行為的時機完全取決于破壞哪些數(shù)據(jù)或指令以及如何使用它們。重要的是，從堆棧溢出到它對系統(tǒng)的負(fù)面影響之間的時間長短取決于使用阻塞位之前的時間。

不幸的是，堆棧溢出比臺式計算機更容易遭受嵌入式系統(tǒng)的困擾。這有幾個原因，其中包括：

· 嵌入式系統(tǒng)通常只能占用較少的RAM；

· 通常沒有虛擬內(nèi)存可回退（因為沒有磁盤）；

· 基于RTOS任務(wù)的固件設(shè)計利用了多個堆棧（每個任務(wù)一個），每個堆棧的大小都必須足夠大，以確保不會出現(xiàn)唯一的最壞情況的堆棧深度；

· 中斷處理程序可能會嘗試使用這些相同的堆棧。

使該問題進(jìn)一步復(fù)雜化的是，沒有大量的測試可以確保特定的堆棧足夠大。您可以在各種加載條件下測試系統(tǒng)，但是只能測試很長時間。僅在“半個藍(lán)月亮”中運行的測試可能不會見證僅在“一次藍(lán)月亮”中發(fā)生的堆棧溢出。

在算法限制（例如無遞歸）下，可以通過對代碼的控制流進(jìn)行自上而下的分析來證明不會發(fā)生堆棧溢出。但是，每次更改代碼時，都需要重做自上而下的分析。

最佳實踐：啟動時，在整個堆棧上繪制不太可能的內(nèi)存模式。（我喜歡使用十六進(jìn)制23 3D 3D 23，它看起來像ASCII內(nèi)存轉(zhuǎn)儲中的籬笆' ＃==＃ '。）在運行時，讓管理員任務(wù)定期檢查是否沒有任何涂料在預(yù)先設(shè)定的高水位上方標(biāo)記已更改。

如果發(fā)現(xiàn)某個堆棧有問題，請在非易失性內(nèi)存中記錄特定的錯誤（例如哪個堆棧以及洪水的高度），并為產(chǎn)品的用戶做一些安全的事情（例如，受控關(guān)閉或重置）可能會發(fā)生真正的溢出。這是添加到看門狗任務(wù)中的一項不錯的附加安全功能。

5. 堆碎片化

嵌入式開發(fā)工程師并沒有很好地利用動態(tài)內(nèi)存分配。其中之一是堆碎片的問題。

通過C的malloc（）標(biāo)準(zhǔn)庫例程或C++的new關(guān)鍵字創(chuàng)建的所有數(shù)據(jù)結(jié)構(gòu)都駐留在堆中。堆是RAM中具有預(yù)定最大大小的特定區(qū)域。最初，堆中的每個分配都會減少相同字節(jié)數(shù)的剩余“可用”空間。

例如，特定系統(tǒng)中的堆可能從地址0x20200000開始跨越10KB。一對4KB數(shù)據(jù)結(jié)構(gòu)的分配將留下2KB的可用空間。

可以通過調(diào)用free（）或使用delete關(guān)鍵字將不再需要的數(shù)據(jù)結(jié)構(gòu)的存儲返回到堆中。從理論上講，這使該存儲空間可用于后續(xù)分配期間的重用。但是分配和刪除的順序通常至少是偽隨機的，這導(dǎo)致堆變成一堆更小的碎片。

若要查看碎片可能是一個問題，請考慮如果上述4KB數(shù)據(jù)結(jié)構(gòu)中的第一個空閑時會發(fā)生什么情況?，F(xiàn)在，堆由一個4KB的空閑塊和另一個2KB的空閑塊組成。它們不相鄰，無法合并。所以我們的堆已經(jīng)被分割了。盡管總可用空間為6KB，但超過4KB的分配將失敗。

碎片類似于熵：兩者都隨時間增加。在長時間運行的系統(tǒng)（換句話說，曾經(jīng)創(chuàng)建的大多數(shù)嵌入式系統(tǒng)）中，碎片最終可能會導(dǎo)致某些分配請求失敗。然后呢？您的固件應(yīng)如何處理堆分配請求失敗的情況？

最佳實踐：避免完全使用堆是防止此錯誤的肯定方法。但是，如果動態(tài)內(nèi)存分配在您的系統(tǒng)中是必需的或方便的，則可以使用另一種結(jié)構(gòu)化堆的方法來防止碎片。

關(guān)鍵觀察是問題是由大小可變的請求引起的。如果所有請求的大小都相同，則任何空閑塊都將與其他任何塊一樣好，即使它恰巧不與任何其他空閑塊相鄰。圖3顯示了如何將多個“堆”（每個用于特定大小的分配請求）的使用實現(xiàn)為“內(nèi)存池”數(shù)據(jù)結(jié)構(gòu)。

許多實時操作系統(tǒng)都具有固定大小的內(nèi)存池API。如果您可以訪問其中之一，請使用它代替malloc（）和free（）?；蚓帉懽约旱墓潭ù笮〉膬?nèi)存池API。您只需要三個函數(shù)：一個用于創(chuàng)建新的池（大小為M塊N字節(jié)）；另一個分配一個塊（來自指定的池）；三分之一代替free（）。

代碼審查仍然是最佳實踐，可以通過首先確保系統(tǒng)中不存在這些錯誤來避免許多調(diào)試麻煩。最好的方法是讓公司內(nèi)部或外部的人員進(jìn)行全面的代碼審查。

強制使用我在這里描述的最佳實踐的標(biāo)準(zhǔn)規(guī)則編碼也應(yīng)該會有所幫助。如果您懷疑現(xiàn)有代碼中存在這些討厭的錯誤之一，那么執(zhí)行代碼審查可能比嘗試從觀察到的故障追溯到根本原因要快。

新聞中心

嵌入式代碼經(jīng)常產(chǎn)生bug的五大原因

評論

相關(guān)推薦

技術(shù)專區(qū)