博客專欄

EEPW首頁 > 博客 > 數(shù)據(jù)偏度介紹和處理方法

數(shù)據(jù)偏度介紹和處理方法

發(fā)布人:數(shù)據(jù)派THU 時間:2023-06-10 來源:工程師 發(fā)布文章
偏度(skewness)是用來衡量概率分布或數(shù)據(jù)集中不對稱程度的統(tǒng)計量。它描述了數(shù)據(jù)分布的尾部(tail)在平均值的哪一側(cè)更重或更長。偏度可以幫助我們了解數(shù)據(jù)的偏斜性質(zhì),即數(shù)據(jù)相對于平均值的分布情況。


圖片
有時,正態(tài)分布傾向于向一邊傾斜。這是因為數(shù)據(jù)大于或小于平均值的概率更高,因此使得分布不對稱。這也意味著數(shù)據(jù)不是均勻分布的。
偏度可以與其他描述性統(tǒng)計一起描述變量的分布。通過偏度也可以判斷變量是否為正態(tài)分布。因為正態(tài)分布的偏度為零,是許多統(tǒng)計過程的假設。


偏度分類


分布可以有右偏度(或正偏度)、左偏度(或負偏度)或零偏度。右偏態(tài)分布在其峰值的右側(cè)較長,而左偏態(tài)分布在其峰值的左側(cè)較長。
1、零偏度
—當一個分布的偏度為零時,它是對稱的。它的左右兩邊是鏡像。正態(tài)分布的偏度為零,但不是只有正態(tài)分布的偏度為零。任何對稱分布,如均勻分布或某些雙峰分布,偏度都是零。
檢查變量是否具有傾斜分布的最簡單方法是將其繪制成直方圖。
圖片
分布近似對稱,觀測值在峰值的左右兩側(cè)分布相似。因此分布的偏度近似為零。在零偏度的分布中,平均值和中位數(shù)是相等的,也就是說:


mean = median

2、右偏(正偏)
右偏分布在其峰值的右側(cè)比其左側(cè)更長。右偏也被稱為正偏。它表明在分布的極端一端有觀測值,但它們相對較少。右偏分布的右側(cè)有一條長尾。
圖片
分布是右偏的,因為它在峰值右側(cè)的時間更長。右偏分布的均值幾乎總是大于中位數(shù)。這是因為極值(尾部的值)對均值的影響大于中位數(shù)。

mean > median

3、左偏(負偏)
左偏分布的峰值左側(cè)比右側(cè)更長。左偏分布的左側(cè)有一條長尾。左偏也被稱為負偏。
圖片
這個分布是左偏的,因為它在峰值的左側(cè)更長。左偏分布的均值幾乎總是小于中位數(shù)。

mean < median


偏度計算


有幾個公式可以用來測量偏度。其中最簡單的是皮爾遜中值偏度。它就是利用了上面我們說的偏態(tài)分布中均值和中位數(shù)不相等來計算的。
圖片
皮爾遜中位數(shù)偏度是計算均值和中位數(shù)之間有多少個標準差。
真實的觀測很少有剛好為0的皮爾遜偏中值。因為如果數(shù)據(jù)的值接近于0,則可以認為它具有零偏度,但是在實際數(shù)據(jù)中很少有沒有零偏度的分布數(shù)據(jù)。
例如,我們每年觀測到的太陽黑子數(shù)量的Pearson中位數(shù)偏度:平均值= 48.6,中位數(shù)= 39,標準差= 39.5。那么公式如下:
圖片
如果該值介于:

  • -0.5和0.5,值的分布幾乎對稱
  • -1和-0.5之間為負偏斜,0.5到1之間為正偏斜。偏度適中。
  • 如果偏度小于-1(負偏)或大于1(正偏),則數(shù)據(jù)是高度偏斜。


如何處理有偏度數(shù)據(jù)


如果你的統(tǒng)計過程需要正態(tài)分布并且你的數(shù)據(jù)是傾斜的,你通常有三個選擇:

  • 什么也不做:許多統(tǒng)計檢驗,包括t檢驗、方差分析和線性回歸,對偏斜數(shù)據(jù)不太敏感。特別是如果偏斜是輕微或中度的,最好的辦法就是忽略它。
  • 數(shù)據(jù)轉(zhuǎn)換:通過對數(shù)據(jù)應用某種變換,可以調(diào)整數(shù)據(jù)的分布形狀,使其更接近對稱分布。常見的數(shù)據(jù)轉(zhuǎn)換方法包括取對數(shù)、開方、平方根等。這些轉(zhuǎn)換可以減小或消除數(shù)據(jù)的偏度。
  • 使用不同的模型:你可能想選擇一個不假設正態(tài)分布的模型,非參數(shù)測試或廣義線性模型可能更適合您的數(shù)據(jù)。比如說非參數(shù)方法:如果數(shù)據(jù)的偏度較大,而且無法通過簡單的轉(zhuǎn)換來糾正,可以考慮使用非參數(shù)統(tǒng)計方法。非參數(shù)方法不依賴于分布的假設,而是直接對數(shù)據(jù)進行分析,例如使用中位數(shù)作為代表性的位置測度,而不是平均值。
  • 分組分析:如果數(shù)據(jù)集中存在明顯的子群體,可以考慮對數(shù)據(jù)進行分組分析。通過將數(shù)據(jù)分成多個子群體,并對每個子群體進行單獨的分析,可以更好地了解數(shù)據(jù)的特征和偏度情況。
  • 針對特定問題采取相應的方法:根據(jù)具體的數(shù)據(jù)和分析目的,可以采用特定的方法來處理偏度數(shù)據(jù)。例如,在回歸分析中,可以使用偏度穩(wěn)定轉(zhuǎn)換(skewness-stabilizing transformation)來調(diào)整數(shù)據(jù)的偏度,以滿足回歸模型的假設。


下表總結(jié)了一些常用數(shù)據(jù)變換:
圖片

總結(jié)


數(shù)據(jù)的偏度是用來衡量概率分布或數(shù)據(jù)集中不對稱程度的統(tǒng)計量。它描述了數(shù)據(jù)分布的尾部在平均值的哪一側(cè)更重或更長。通過計算偏度,可以更好地了解數(shù)據(jù)的分布特征,并在需要時采取適當?shù)臄?shù)據(jù)處理或分析方法。但是需要注意的是,偏度只是數(shù)據(jù)分布的一種度量,不能完全代表數(shù)據(jù)的整體特征,因此在分析數(shù)據(jù)時需要綜合考慮其他統(tǒng)計指標和可視化方法。
作者:Dhaval Raval


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術(shù)專區(qū)

關閉