新聞中心

EEPW首頁 > 新聞縱覽 > 酷睿13/14代臺式機CPU“縮缸”問題已解決:全面解析+解決方案

酷睿13/14代臺式機CPU“縮缸”問題已解決:全面解析+解決方案

作者: 時間:2024-09-29 來源: 收藏

過去這幾個月,Intel酷睿13/14代臺式機處理器的“縮缸”事件可謂沸沸揚揚。借著Intel發(fā)布終極聲明的機會,我們嘗試對該事件做個盤點、總結(jié)和分析。

本文引用地址:http://butianyuan.cn/article/202409/463332.htm

電子工程專輯雖然并沒有全線追Intel酷睿13/14代臺式機處理器所謂的“縮缸”事件,不過此事還是在PC行業(yè)造成了相當(dāng)影響的,也算是此前大半年Intel負面新聞不斷的佐料之一了。

此事件最早可以追溯到今年上半年。部分用戶和企業(yè)機構(gòu)反應(yīng),酷睿13/14代處理器存在不穩(wěn)定的情況,可能在高頻點或高負載下,出現(xiàn)死機、藍屏等現(xiàn)象。部分媒體對“縮缸”的定義是,處理器“體質(zhì)縮水”,表現(xiàn)為CPU需要更高的電壓才能維持穩(wěn)定運行。

因為最近Intel就此事件發(fā)布了應(yīng)該算是終極聲明和最終解決方法。趁此機會,本文總結(jié)性質(zhì)地談?wù)勈录耙蚝蠊绻阋睬∏稍谟檬苡绊懙奶幚砥?,那么也能了解該怎么?yīng)對這波問題;順便聊聊我們對其中問題的看法。

“縮缸”事件前因后果

受到該事件影響的處理器,主要包括面向臺式機的酷睿13/14代i9和i7(也有說i5受影響的,只不過可能i5及更低型號發(fā)生問題的概率較低)——典型型號帶K(如酷睿i9-14900K, 酷睿i7-13700KF等),也就是核心數(shù)更多、頻率更高、可承載更高功耗的那一波。

未有筆記本CPU產(chǎn)品受影響的記錄。Intel也在聲明中強調(diào)了,除酷睿13/14代臺式機處理器外,沒有發(fā)現(xiàn)其他處理器產(chǎn)品受到該問題的影響。

這個問題持續(xù)發(fā)酵,可能有兩個關(guān)鍵點:一是前兩個月,部分13/14代酷睿處理器的游戲玩家,在初次啟動某些游戲,進行shader編譯時,發(fā)生編譯失敗的情況——這是典型的CPU高負載場景;另一,則是部分游戲公司及媒體下場研究和談?wù)?3/14代酷睿處理器可能存在的問題。

Intel在此期間給出了多輪回應(yīng),也相繼發(fā)布了一些BIOS更新嘗試解決問題——包括鎖PL2、控制CPU的運行電壓、修復(fù)eTVB問題等策略...6月份,Intel提到會在7月底公布調(diào)查結(jié)果和解決方案。7月末我們也收到了Intel的官方聲明,提及經(jīng)過調(diào)查分析發(fā)現(xiàn),“確定是過高的運行電壓導(dǎo)致部分13/14代酷睿處理器出現(xiàn)不穩(wěn)定情況”。

“...過高的運行電壓由微代碼算法造成,而該算法向處理器發(fā)送了錯誤的電壓請求?!甭暶髦羞€提到Intel會提供微代碼補丁修復(fù)過高電壓導(dǎo)致的根本問題。

8月份,Intel發(fā)布了針對酷睿13/14代臺式機處理器的0x129微碼更新。這份更新聲明中提到,分析發(fā)現(xiàn)跨多核的Vmin(最小運行電壓)因為升高的電壓而大幅提升。升高電壓事件(elevated voltage events)隨時間累積,就會致使Vmin提升。所以0x129微碼更新限制了電壓請求,緩解處理器的不穩(wěn)定。

不過當(dāng)時Intel仍然提到了還在做持續(xù)調(diào)查分析,主要是那些會發(fā)生Vmin偏移的場景。同期Intel針對受影響處理器提供了延保服務(wù),后文也會進一步提到。

上面這些應(yīng)該是絕大部分關(guān)注此事件的讀者,對此的主流認知。不過這次發(fā)布的“終極聲明”還是言簡意賅地給出了事件全貌的,下面嘗試仔細研讀。

終極聲明中導(dǎo)致不穩(wěn)定的“根因”

最近Intel發(fā)布有關(guān)此事件的終極聲明將此問題稱為“Vmin Shift Instability”(最低運行電壓偏移),基于上述解釋應(yīng)該就很好理解了:即Vmin偏移所致的處理器及系統(tǒng)不穩(wěn)定——這個名稱也算得上是一種總結(jié)歸因。

一般我們說Vmin是處理器能夠運行在100%穩(wěn)定狀態(tài)的最小電壓?!癡min shift”應(yīng)該是從6月份以來,所有問題的最終呈現(xiàn);當(dāng)然“Instability”不穩(wěn)定,就是用戶感受到的結(jié)果了。

在這份終極聲明中,Intel認為,“Vmin Shift Instability”的根本原因是“IA內(nèi)核內(nèi)的時鐘樹電路”(a clock tree circuit within the IA core),“其在升高的電壓和溫度下容易受到可靠性老化的影響”?!斑@些情況會導(dǎo)致時鐘的占空比偏移和系統(tǒng)不穩(wěn)定(duty cycle shift of the clocks and observed system instability)”

所謂的時鐘樹電路,我們也問了一下Copilot,解釋是系統(tǒng)或硬件設(shè)計中的時鐘分布網(wǎng)絡(luò)。而所謂的時鐘分布網(wǎng)絡(luò)(clock distribution network),本身是數(shù)字電路中的一個系統(tǒng),提供從中央源到電路各部分的時鐘信號。

要打比方的話,可以將clock distribution想象成一棵樹,樹根就是時鐘源(如晶振),時鐘信號通往電路的不同組成部分——這個路徑也就是樹枝;樹葉就是最終目的地。時鐘分布的目標是確保時鐘信號能夠同時抵達電路的各部分,最小化延遲和變量。此過程中有好幾個關(guān)鍵部件合作,確保時鐘信號的準確傳遞。

image.png

從Intel的聲明來看,Vmin shift問題就與處理器核心內(nèi)的某時鐘樹電路有關(guān),該電路在升高的電壓和溫度下,會發(fā)生可靠性下降。隨后Intel又說,上述情況會導(dǎo)致“時鐘的占空比偏移和系統(tǒng)不穩(wěn)定”。這里的“時鐘的占空比偏移”(duty cycle shift of the clock)咋理解呢?

時鐘信號的duty cycle,指的應(yīng)該是時鐘信號激活狀態(tài)下的周期。而duty cycle shift也就是該周期的偏移和變化。比如說,如果duty cycle從50%偏移到60%,整體也就影響到了系統(tǒng)的時序和同步。最終導(dǎo)致了不穩(wěn)定。(理解差不多就是這樣,若Copilot存在模型幻覺或者我們理解有偏差,歡迎各位同學(xué)留言指正...

除了這,還原一下問題全貌

基于對這份聲明的理解,上述根因應(yīng)當(dāng)是導(dǎo)致Vmin Shift的核心原因。不過實際上,在過去幾個月間,基于先后發(fā)布的多個緩解方案,Intel對于酷睿13/14代臺式機處理器不穩(wěn)定問題有4個階段的研究和結(jié)果公布。

故此,終極聲明中,Intel也總結(jié)性地回顧了導(dǎo)致Vmin Shift的4個運行場景。前3個問題,在此之前已經(jīng)修復(fù);而最后一階段,也是Intel在此次聲明中提及、本文前述的“根因”,并著手解決了由此帶來的另一個問題。下面就針對這4個階段或場景,一一談一談。

其一是主板供電設(shè)置“超出Intel建議設(shè)置”——這也是最早Intel在回應(yīng)該問題時給出的說法。主板廠商的BIOS設(shè)定中,可能出廠就解鎖PL2、自動超頻,或者有各種核心性能強化方案,而沒有采用Intel的建議設(shè)置:比如之前測過的華碩主板,普遍自帶“多核心增強”選項。這里面可能就有增壓方案。

不過我們認為這也合理,尤其旗艦主板市場競爭,誰都希望自家主板能跑出更好看的成績——在這種情況下,主板廠商都不得不卯足勁兒嘗試榨干處理器的每一點性能余量。且這一點可能也佐證了,部分媒體對于Intel酷睿13/14代臺式機CPU “出廠即灰燼”的說法。即Intel留給主板廠商的可操作余量其實不及以前那么多。

所以針對這一場景的緩解措施建議,就是在主板BIOS設(shè)置中采用Intel Default Settings默認設(shè)置。

其二,“高溫下,eTVB微代碼算法”仍然允許酷睿13/14代i9臺式機處理器運行在更高性能狀態(tài)下。eTVB的全稱是“Enhanced Thermal Velocity Boost”。

對Intel酷睿處理器比較熟悉的讀者應(yīng)該知道,TVB是香港的一家電視臺...是Intel于2018年引入的一項技術(shù),官方文檔解釋說是當(dāng)散熱和功耗預(yù)算仍有空間的情況下,釋放CPU額外的性能。一般認為,TVB是一種官超方案,可基于某些負載,進一步提升睿頻頻率,對游戲之類的應(yīng)用相當(dāng)有價值。

Intel此前對該問題的描述是eTVB可能錯誤計算了頻率限制,讓處理器(高溫下仍)可在高頻狀態(tài)下運行。簡單來說,也就是相關(guān)于eTVB的某個微碼算法出現(xiàn)錯誤數(shù)值。6月份,Intel就發(fā)布了0x125微碼更新,解決該問題。

其三,“頻繁和持續(xù)請求高電壓的微代碼SVID算法可能導(dǎo)致最低運行電壓偏移”(Microcode SVID algorithm requesting high voltages at a frequency and duration which can cause Vmin shift)...

首先所謂的“微代碼SVID算法”(microcode SVID algorithm)當(dāng)然就是處理器微碼的一部分,對應(yīng)算法用于管理和請求處理器的電壓,確保針對不同性能狀態(tài)給出正確的電壓。在基于負載和運行狀態(tài)調(diào)節(jié)電壓的問題上,它對于維持處理器穩(wěn)定和高效還是比較關(guān)鍵的。

這句話的英文表意,應(yīng)該是指基于某種模式的高電壓請求(不管這里的frequency指的是核心頻率,還是請求高電壓的操作頻率),會導(dǎo)致Vmin shift。今年8月,Intel在發(fā)現(xiàn)該問題后發(fā)布了微碼0x129更新,“解決了處理器請求更高電壓的問題”。

其四,就是這次終極的微碼0x12B更新,嘗試解決“微代碼和BIOS代碼請求升高的核心電壓可能會導(dǎo)致最低運行電壓偏移,特別是在空閑和/或輕度活動期間”,應(yīng)當(dāng)也是伴隨前文提到的“根因”分析,所做的終極更新,“解決處理器在空閑和/或輕度活動期間的電壓升高需要”。值得一提的是,0x12B也包含前述0x125與0x129更新。

從聲明來看,現(xiàn)階段Intel“正與合作伙伴共同努力,以推出相關(guān)的BIOS更新”。主板廠商應(yīng)該會在后續(xù)幾周發(fā)布對應(yīng)的BIOS更新。

解決方案,及一點想法和建議

另外,Intel也在聲明中提到,實測微碼補丁并不會對處理器性能產(chǎn)生多大程度的影響(performance impact is within run-to-run variation)。所以對于正在使用酷睿13/14代臺式機處理器的用戶而言,當(dāng)前要做的首先就是去主板廠商的官網(wǎng)看看,是否有對應(yīng)0x12B微碼更新的BIOS版本發(fā)布,并做及時更新。

但也需要明確,即如果使用的這些受影響的處理器長期處在Vmin shift問題狀態(tài)下,則過高的電壓最終會讓CPU及早走向老化。長期高溫高壓對芯片壽命會產(chǎn)生影響,算是個常識。

說具體些,如高壓會提升金屬互聯(lián)層的電流密度,長期致電遷移問題;還有所謂的Hot Carrier Injection熱載流子注入會降低晶體管性能;高溫隨時間持續(xù),導(dǎo)致PMOS晶體管的閾值電壓偏移;以及TDDB電介質(zhì)隨時間變化擊穿等等...

所以在保修政策方面,Intel也宣布“為受不穩(wěn)定問題影響的英特爾酷睿第13/14代盒裝/散裝臺式機處理器延長2年保修期”。已經(jīng)出現(xiàn)不穩(wěn)定問題(典型如碰到游戲shader編譯過程崩潰問題)的用戶,應(yīng)當(dāng)考慮申請售后。

image.png

最后談一點我們自己的想法。前兩個月正值縮缸問題影響最盛之時,我們就猜測,應(yīng)當(dāng)是處理器過高的默認電壓致不穩(wěn)定問題發(fā)生。主板廠商則在該問題的基礎(chǔ)上,基于對極限性能的渴求,又“助推”了一把。所以前期某些僅鎖定最高功率的做法,并不能解決問題。

部分使用undervolting方法來降壓超頻的用戶也反應(yīng),他們并沒有遭遇處理器不穩(wěn)定問題。感覺這也應(yīng)當(dāng)佐證了高溫高壓是關(guān)鍵。

雖然不清楚,這次公布的根因(核心內(nèi)的時鐘樹電路在升高的電壓和溫度下,發(fā)生時鐘duty cycle偏移),作為Vmin shift的根本原因,與此前包括eTVB, SVID微碼算法錯誤在內(nèi)的問題,具體是什么樣的邏輯關(guān)系(猜測可能是微碼bug導(dǎo)致根因所致的Vmin shift問題進一步惡化,放大了問題),但長期跑在高溫高壓狀態(tài),無疑就是不穩(wěn)定的問題關(guān)鍵所在。

這段故事落下帷幕,大概也能表現(xiàn)當(dāng)代芯片設(shè)計的變量之多、復(fù)雜性提升的現(xiàn)狀。EDA廠商過去這段時間的理念宣導(dǎo),及他們所說的新市場機會,看起來還的確是那么回事…




關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉