獨家 | 115個A/B測試的分析結果︰平均提升為4%,大部分缺乏統(tǒng)計檢定力(2)
從A/B測試的角度分析多元測試
筆者遇到的另一個問題是如何把多元測試(一個對照對比多個變量)表達成兩個分別的A/B測試。筆者認為這是可能的,因為兩者的對照完全一致,且多元測試和兩個連續(xù)的測試有著相同的樣本大小和轉換率。有一篇博客文章完整描述了其中一個測試的整個實驗,結果表明,不單單是一個多元測試,還有未被提及的其他變量。因為在多元測試中,為了反映對照是和多個變量進行測試,我們需要調整p值和置信區(qū)間。這里便出現(xiàn)了問題,因為我們不能簡單地進行成對的t檢定或z檢定,就像GoodUI中對一個個變量和對照進行p值計算。
p值和信賴區(qū)間的有效性所導致的后果和無從發(fā)現(xiàn)的數(shù)據窺探的后果相似︰相較報告中名義上的可能性,實際觀察結果的可能性會更高。由于筆者并不知道在每一個A/B測試中有多少個變量,所以不能夠對結果和最小可檢測效應的計算進行Dunnett修正。筆者知道其中兩個測試(#16和#17)的變量數(shù)目和它們的效應大小大于40%,暗示著它們有未解釋的自選停止情況,故筆者決定把這兩個測試移除。
筆者決定保留余下的測試,因為它們大部分在有著1至2個額外變量的假設下,仍然適當?shù)乇3至藱z定力。
A/B測試的元分析結果
115個測試的元分析結果明顯有一部分測試(80=69.57%)欠缺統(tǒng)計檢定力,有著或多或少嚴重的方法論問題。其中,有27個測試因明顯妥協(xié)性測試而被移除。3個測試有著對照組和實驗組在人流分配上的顯著不平衡,故為了避免使用因技術上的可能問題而導致的偏差數(shù)據,這3個測試也被移除。16個測試是8個多元測試分拆的結果,即使如此,我們仍決定有能力能合理地評估它們的誤差控制,它們當中的2個被移除,余下的則繼續(xù)用作分析(有爭議的決定)。
在移除3個不平衡隨機化的測試和27個因缺乏固定樣本大小和無從發(fā)現(xiàn)的數(shù)據窺探,導致統(tǒng)計上明顯妥協(xié)的測試后,能進入元分析的測試有85個。(初始有115個)。
85個測試的平均百分比提升是3.77%,而中位數(shù)提升是3.92%,其分布如下︰
上面的分布與有著平均值3.77%的正態(tài)分布十分相似,大部分的效應(58%)在-3%和+10%之間??梢钥吹?,在數(shù)據修剪后大部分的極端高的結果都被移除,在最初的數(shù)據集中有8個效應大于35%。這是因為在極端早的結果中,測試往往是在數(shù)據窺探、極端大的提升下就被早早停止。自然而然,這些結果也有著極端的不確定性。
大部分效應在10%提升以下的這一事實進一步支持大部分測試的檢定力低下的論點,因為在115個測試中只有24個測試在90%檢定力和95%顯著度下,有著小于10%的最小可檢定效應。
統(tǒng)計上顯著(p<0.05)的測試的觀察效應大小為︰
大部分測試的結果都落在0.54%-5.54%這一區(qū)間,而主體結果則在0.54%和20.54%之間。對于統(tǒng)計上顯著的測試,它們的觀察效應大小的算術平均值為6.78%的提升,當中50%的測試結果少于5.96%,而這些來自統(tǒng)計上顯著的結果的效應大小自然地相較整體來得大。
85個測試的p值分布如下︰
可以看到在85個測試中,只有39個(45.88%)有統(tǒng)計上顯著的結果,當中8個是負值結果,大部分測試(20個)的p值落在0.05-0.1的范圍。
當有這么一大部分的測試沒有達到常用的顯著度閾值時,不禁令人懷疑當中出現(xiàn)了什么問題。直接把它們視作無價值的測試而丟棄顯然不是個好做法。一般來說,我們會通過觀察檢定力和最小可檢測效應進行分析,以下是85個測試的最小可檢測效應的分布︰
然后是在0.05閾值下不顯著的測試的分布︰
我們可以看到只有46個不顯著測試中的15個(32.6%)有著低于12%的最小可檢測效應。對于這些測試我們可以把有著90%可能性的12%或更大的效應大小排除掉。但對于余下的25個測試,因為它們的最小可檢測效應非常大,以至于對它們的排除并不會帶來新的情報︰這些測試的干預程度使得如此大的效應變得幾近不可能出現(xiàn)。
另一個更加直覺地評估沒有被排除的效應大?。ū恢眯艆^(qū)間覆蓋的效應大小)的方法是觀察置信區(qū)間︰
有一部分的測試有著圍繞零點的狹窄區(qū)間,它們都是檢定力良好的測試。當中幾個更是正相等測試,即在這些測試中變量和對照之間很大機率沒有任何差異。GoodUI并沒有很好地利用這一點,而是粗略地把它們定義為”不顯著”,而失去了能從這些數(shù)據中獲取信息的機會。
留意有著負值觀察結果的測試實際上也覆蓋了大程度的正值效應,反之亦然,這些都是檢定力低下的測試。一般來說,區(qū)間越寬,測試的檢定力就越低下。
現(xiàn)在讓我們檢視一下統(tǒng)計上顯著的測試的置信區(qū)間,從中我們能了解觀察效應大小和真實效應大小的接近程度︰
我們可以看到絕大部分測試幾乎沒有排除到0%附近的區(qū)域,很多區(qū)間只坐落在0%附近的幾個百分點。如果筆者關于數(shù)據窺探的懷疑是正確的,那么這些測試的結果則相當有問題。某些區(qū)間頗為遠離0%,說明它們的數(shù)據很大機會反映了實際情況中會出現(xiàn)很大程度的差異。
同樣地我們能看到比較狹窄的區(qū)間來自檢定力高的測試,而比較闊寬的區(qū)間則來自檢定力低下的測試。舉個例子,測試#36和#38都有著高于16%提升的下界,但測試#38的信賴區(qū)間較為闊寬,顯出它是檢定力低下的,而下界遠離0%的原因來自較大的觀察效應大?。ㄒ卜浅S锌赡苁钦鎸嵭笮。?。當然,以上假設的前提是測試中沒有出現(xiàn)數(shù)據窺探和其他統(tǒng)計上的濫用問題。
討論和重點
在115個測試中只有31個有著統(tǒng)計上顯著的正值結果(在數(shù)據修剪后),這比起其他行業(yè)報告中如10%或5%的低數(shù)值來得要高。顯著性結果的缺失部分是由于大約70%的測試經過分析都沒有很好的檢定力,另一方面則是因為測試中的干預不夠有效,又或者沒有造成明顯的負值效應。而在考慮這些數(shù)字是否能代表行業(yè)情況時,也要考慮報導/出版的偏差。
關于統(tǒng)計上顯著的正值測試,它們的平均百分比改變?yōu)?0.73%(中位數(shù)7.91%)。這一結果在測試時長方面部分受挫于統(tǒng)計上顯著的負值測試,原因是顯著測試的平均值是6.78%(中位數(shù)5.96%),而全部測試小于4%(平均值3.77%,中位數(shù)3.92%)。筆者相信即使這一數(shù)據缺失了其代表性,它仍能幫助告知決策者有關轉換率最優(yōu)化程序的可能結果,筆者也相信它能在從業(yè)者決定是否把最小可檢定效應放到檢定力和樣本大小計算中時起到幫助作用。筆者在做出這些決定時全憑每個獨立A/B測試的水平,同時考慮到全部成本和回報,但外部基準在評估與測試有關的風險和回報時絕對有幫助。
而在研究測試時也有機會忽略有關在任何顯著大小下的效應缺失的有力數(shù)據,原因在于相關測試被標簽為”不顯著”。
因為在元分析中的樣本并不具代表性,所以得出的結果在用途上會有一定限制。另一個值得考慮的問題是測試有著不同的主要輸出︰有的關注于改變輕微的點擊行為,有的關注于改善試驗注冊,購買率,等等。
在報告中的測試沒有一個以收入作為主要KPI的,而當中最少一個測試(#24)的主要輸出與以收入為基本的KPI有著直接分歧(測試的成功有可能損害到中期和長期的收入)。還有一個問題是缺乏有關測試中用到的停止準則的信息︰如果以上提及的假設是正確的,而且有70%或更多的測試沒有被正確地實行,那么一大部分的測試結果有可能是帶有偏差的,且偏向任一方向的顯著結果。
就A/B測試的收集和報告而言,筆者認為重點相當明顯︰確保適當?shù)赜嬎憬y(tǒng)計量,而前提是需要知道測試在統(tǒng)計上是怎樣設計的。需要知道測試是固定樣本還是連續(xù)觀察的設計,如果是連續(xù)觀察的設計,那么分析的數(shù)目和時間又是多少。需要知道測試的變量數(shù),又在人流分配中有沒有任何值得懷疑的地方等等。這些都已經在之前的文章或者其他地方中討論過。
原文標題︰
Analysis of 115 A/B Tests: Average Lift is 4%, Most Lack Statistical Power
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。