博客專欄

EEPW首頁 > 博客 > 巴西奪冠可能性最大?牛津?qū)W者用統(tǒng)計模型預(yù)測世界杯比賽****

巴西奪冠可能性最大?牛津?qū)W者用統(tǒng)計模型預(yù)測世界杯比賽****

發(fā)布人:傳感器技術(shù) 時間:2022-11-30 來源:工程師 發(fā)布文章
近日,科學(xué)家用統(tǒng)計學(xué)中常用的“雙泊松”統(tǒng)計模型評估卡塔爾世界杯中球隊的進攻和防守實力。根據(jù)模型統(tǒng)計結(jié)果,巴西隊與比利時隊最有望奪冠。

因為,巴西隊曾在 1958 年、1962 年、1970 年、1994 年、2002 年五次奪得冠軍。不僅如此,在曾經(jīng)的比賽中,巴西隊無論是進攻指數(shù)還是防御指數(shù)都名列前茅。圖片動圖 | 球賽中球員的實際跑動路線與模型預(yù)測的鏡頭之外的球員跑動路線(來源:DeepMind高科技不僅改變了足球隊員們對比賽的認知,也改變了球員分析對手與教練培養(yǎng)球員的方式。在此過程中,預(yù)測足球比賽結(jié)果也成為球迷們熱衷的事情。為此,統(tǒng)計學(xué)家一直努力地尋找不同的方式對進球和失球數(shù)進行建模。據(jù)了解,該模型由英國牛津大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)博士生馬修·佩恩(Matthew Penn)開發(fā),通過分析隊員過去的進球數(shù)和失球數(shù)等表現(xiàn),準確地預(yù)測出比賽結(jié)果。它曾在 2020 年歐洲足球錦標賽上正確預(yù)測到意大利能夠擊敗英格蘭。盡管科學(xué)家一直在不斷開發(fā)新的預(yù)測方法,但由于該模型集合了所有其它模型的優(yōu)勢,并可以產(chǎn)生高質(zhì)量的結(jié)果。因此,它一直是預(yù)測足球比分的熱門選擇之一。圖片圖 | 使用“雙泊松”模型預(yù)測卡塔爾世界杯各隊奪冠的可能性大小(數(shù)據(jù)來源:Nature,制圖:DeepTech

圖片

進攻與防守指數(shù)確定泊松概率2022 年 5 月 19 日,發(fā)表在 PLoS One 上的一篇論文,曾對“雙柏松”統(tǒng)計模型做出過詳細的分析,論文題為《預(yù)測 2020 年歐洲杯比賽結(jié)果的雙泊松模型分析》(Analysis of a double Poisson model for predicting football results in Euro 2020)為題。
圖片(來源:PLoS One論文中指出,在該模型中,每個球隊的進球數(shù)都可以被換算成泊松概率分布。并且,通過該模型可以統(tǒng)計出球隊在比賽過程中的進球個數(shù),其均值取決于球隊的進攻和防守能力。實際比賽的過程中,除了雙方的綜合實力,還受運氣等外在因素影響,因此結(jié)果具有不確定性。考慮到這點,在用“雙泊松”模型描述球隊水平時,會提前設(shè)置“進攻”與“防守脆弱性”指數(shù)。其中,“進攻”指數(shù)越高表示球隊進球越容易,“防守脆弱性”指數(shù)則相反,越高表示進球越難。在獲得“進攻”與“防御脆弱性”指數(shù)后就能算出“泊松概率分布”平均值?!半p泊松”模型中設(shè)定不同的球隊可以根據(jù)各自不同的“雙泊松”過程得分,并將 A 和 B 球隊的預(yù)期進球得分設(shè)定為 μ(A,B)。需要注意的是,統(tǒng)計模型在計算的過程中會將進球速度看做是恒定的,也不考慮進球的具體時間,只需要考慮進球數(shù)。此外,“泊松概率分布”的計算過程使用了“無記憶”假設(shè),即一個進球不會影響比賽其余的進球數(shù)。這些通常是模型的潛在錯誤來源。圖片圖 | 各國贏球概率預(yù)測(來源:Matthew Penn同樣值得注意的是,在這個模型中,沒有對主客場比賽進行區(qū)分。也就是說,無論比賽在哪里進行,A 隊對 B 隊的預(yù)期進球數(shù)都將等于 μ(A,B)。這是一個簡化的假設(shè),不僅減少了參數(shù)的數(shù)量,而且避免了小數(shù)據(jù)集的過度擬合。事實上,由于不同球隊之間的相關(guān)聯(lián)結(jié)果數(shù)量很少(其中許多球隊根本沒有進行過比賽),會根據(jù)情況減少模型中的參數(shù)數(shù)量。圖片預(yù)估球隊分數(shù)接下來,在計算不同球隊預(yù)計進球數(shù)的過程中,模型默認球員都按照最理想的情況發(fā)揮?!邦A(yù)計進球數(shù)”等于 A 球隊的進攻指數(shù)乘以 B 球隊的防守脆弱性指數(shù),在計算 B 球隊的進球數(shù)過程中也是如此。例如,A 球隊的進攻指數(shù)是 8,防守脆弱性指數(shù)是 0.4;B 球隊進攻指數(shù)是 10,防守脆弱性指數(shù)是 0.6,雙方的得分為 4.8:4(模型默認為 5:4)。但是,由于比賽過程中充滿不確定因素,A 隊 4.8 的進球數(shù)與 B 隊 0.6 的進球數(shù)都被當(dāng)做平均泊松概率分布。所有比分的概率大小取決于兩個進球數(shù)概率值的乘積。A 和 B 球隊攻擊力和防守脆弱性指數(shù)都是根據(jù)球隊過去的表現(xiàn)與分數(shù)綜合地確定,需要不斷更新與調(diào)整,將預(yù)測的柏松概率分布數(shù)值與比賽中實際獲得的分數(shù)匹配。圖片(來源:Pixabay)因此,在實際預(yù)測過程中,球隊可能出現(xiàn)的分數(shù)都會被預(yù)測出來,最后可以預(yù)估出奪冠的球隊。馬修·佩恩在牛津大學(xué)官網(wǎng)上表示:“雙柏松統(tǒng)計模型預(yù)測了一百萬次球賽,得出世界杯十六強晉級****及冠軍歸屬。根據(jù)預(yù)測結(jié)果,荷蘭、伊朗、阿根廷、丹麥、西班牙、克羅地亞、巴西等球隊會進入十六強。阿根廷進入四強,巴西將在四分之一決賽時淘汰西班牙?!?/span>

來源:麻省理工評論



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 巴西奪冠

技術(shù)專區(qū)

關(guān)閉