終于有人把線性回歸講明白了（1）

發(fā)布人：數(shù)據(jù)派THU 時間：2021-07-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

00 線性回歸：“鋼鐵直男”解決回歸問題的正確方法

本文將介紹機器學(xué)習(xí)算法，我們選擇從線性回歸（Linear Regression）開始。

許多機器學(xué)習(xí)教材習(xí)慣一上來就深入算法的細節(jié)，這當(dāng)然也有好處，但學(xué)習(xí)一門之前不大接觸的新技術(shù)時，我更傾向于遵循學(xué)習(xí)思維三部曲的節(jié)奏：是什么（What）、為什么（Why）和怎么做（How）。如果我們之前未接觸過機器學(xué)習(xí)，那么開始學(xué)習(xí)時首先問的當(dāng)然是“機器學(xué)習(xí)是什么”。

所以我們選擇從線性回歸算法開始。線性回歸算法不但結(jié)構(gòu)簡單，原理好懂，同時又包含了機器學(xué)習(xí)算法的典型運作特征，方便你鳥瞰機器學(xué)習(xí)算法的運行全貌，以及仔細觀察每個組成構(gòu)件的細節(jié)情況。如果此前你并不了解機器學(xué)習(xí)，不妨將線性回歸當(dāng)作機器學(xué)習(xí)算法中的入門任務(wù)。

學(xué)習(xí)新技術(shù)一直存在這樣的矛盾：技術(shù)太復(fù)雜則擔(dān)心學(xué)不會，技術(shù)太簡單又擔(dān)心是不是已經(jīng)過時了。畢竟我們這個時代的計算機科學(xué)正在一日千里地飛速發(fā)展著，計算機類教材里的許多技術(shù)可能已經(jīng)被新興技術(shù)取代而退出了歷史舞臺，只是出于知識結(jié)構(gòu)的完整性等考慮才像恐龍骨架一樣在教材里保留著一席之地。

但請放心，線性回歸完全不是這么一回事。線性回歸是一套在當(dāng)下仍然具有很高實戰(zhàn)價值的算法，在很多現(xiàn)實場景中仍然發(fā)揮著不可替代的作用，不但“麻雀雖小，五臟俱全”，適合介紹剖析，而且還像麻雀一樣，蹦蹦跳跳地活躍在機器學(xué)習(xí)應(yīng)用的第一線。

想要說清楚線性回歸，先回到“線性回歸”這個嚇人的名字上。在通往機器學(xué)習(xí)的路上有著各色各樣的攔路虎，首先跳出來嚇你一哆嗦的肯定是那些古古怪怪的術(shù)語，“線性回歸”就是里面的杰出代表。

初次接觸“線性回歸”，可能都不知道該怎么斷句，一不小心就要被嚇得干脆打退堂鼓。不要怕它，首先我們將這個看似無從下手的詞分成“線性”和“回歸”兩塊，可以認(rèn)為這代表了兩個知識領(lǐng)域：前者是一類模型，叫“線性模型”；后者是一類問題，叫“回歸問題”。這樣“線性回歸”這個詞可以理解成一句話，即用線性模型來解決回歸問題。

線性模型和回歸問題湊成一對并非是劇本一開始就安排好的。回歸問題是機器學(xué)習(xí)中非常經(jīng)典的一類問題，換句話說，就是有許許多多的方法模型都會用于解決回歸問題。但除了回歸問題，這些方法模型也可以解決其他問題，如分類問題。

總而言之，問題和模型是多對多的關(guān)系，問題提出要求，模型給予解決，畢竟算法和人生一樣，沒有劇本只有驚喜，遇上了又能對得上，那才好湊成一對，所以當(dāng)大家用線性模型解決回歸問題時發(fā)現(xiàn)還挺順手并經(jīng)常用，后來干脆起了“線性回歸”這個名字。

介紹完了名字，接下來就是“正菜”。大多數(shù)教材最習(xí)慣的做法是一上來就拋出各種眼花繚亂的公式，讓人深深陷入術(shù)語、符號和推導(dǎo)等細節(jié)之中，就像是正要開始學(xué)游泳，不知就里便被扔進了大海，從此拖著長長的心理陰影。

細節(jié)很重要，但理念更重要，剛接觸機器學(xué)習(xí)誰都只是一張白紙，要在上面大展宏圖，首先得確定基本主題，然后勾勒整體脈絡(luò)，最后才是添加細節(jié)。這也正是本書介紹機器學(xué)習(xí)的方式。

機器學(xué)習(xí)是問題導(dǎo)向的，正因有了問題才會設(shè)計算法，這是機器學(xué)習(xí)最主要的脈絡(luò)。本文要解決的問題是回歸問題，用的方法是線性回歸算法。如果也將線性回歸算法比作一架機器，那線性方程和偏差度量就是組成這架機器的兩大構(gòu)件，它們在權(quán)值更新這套機制下齊心協(xié)力地運轉(zhuǎn)，最終解決回歸問題。

這也是本文的要點，請格外加以關(guān)注：

回歸問題

線性方程

偏差度量

權(quán)值更新

01 用于預(yù)測未來的回歸問題

所以如果你擔(dān)心接下來將要看到什么深奧的術(shù)語則大可不必，機器學(xué)習(xí)并非憑空而生的學(xué)科，這里所說的回歸問題正是從統(tǒng)計學(xué)那里借來的救兵。

兩百年前，與達爾文同時代的統(tǒng)計學(xué)家高爾頓在研究父代與子代的身高關(guān)系時，發(fā)現(xiàn)一種“趨中效應(yīng)”：如果父代身高高于平均值，則子代具有更高概率比他父親要矮，簡單來說就是身高回歸平均值?！盎貧w”一詞也由此而來。

在回歸的世界里，萬物的發(fā)展軌跡都不是一條單調(diào)向上走或向下走的直線，而是循著均值來回波動，一時會墜入低谷，但也會迎來春暖花開，而一時春風(fēng)得意，也早晚會遇到坎坷挫折，峰回路轉(zhuǎn)，否極泰來，從這個角度看，回歸與其說是一個統(tǒng)計學(xué)問題，不如說更像是一個哲學(xué)問題。

那么什么是回歸問題呢？回歸問題的具體例子很多，簡單來說各個數(shù)據(jù)點都沿著一條主軸來回波動的問題都算是回歸問題。

回歸問題中有許多非常接地氣的問題，譬如根據(jù)歷史氣象記錄預(yù)測明天的溫度、根據(jù)歷史行情預(yù)測明天股****的****、根據(jù)歷史記錄預(yù)測某篇文章的點擊率等都是回歸問題。正因為回歸問題充滿了濃厚的生活氣息，也就成為一類十分常見的機器學(xué)習(xí)問題。

當(dāng)然，回歸問題作為一種類型，有著自己獨特的結(jié)構(gòu)特征，在上面描述什么是回歸問題時，我刻意反復(fù)使用“歷史”和“預(yù)測”這兩個詞，原因正是記錄歷史值和預(yù)測未來值是回歸問題的兩個代表性特征。

在機器學(xué)習(xí)中，回歸問題和分類問題都同屬有監(jiān)督學(xué)習(xí)，在數(shù)據(jù)形式上也都十分相似，那么怎么區(qū)分一個問題究竟是回歸問題還是分類問題呢？

回歸問題和分類問題最大的區(qū)別在于預(yù)測結(jié)果

根據(jù)預(yù)測值類型的不同，預(yù)測結(jié)果可以分為兩種，一種是連續(xù)的，另一種是離散的，結(jié)果是連續(xù)的就是預(yù)測問題。

這里的“連續(xù)”不是一個簡單的形容詞，而是有著嚴(yán)格的數(shù)學(xué)定義。不過額外引入太多復(fù)雜的概念反而會偏離主線，好在“連續(xù)”是一個可以感受的概念，最直接的例子就是時間，時間當(dāng)然是連續(xù)的，連續(xù)型數(shù)值在編程時通常用int和float類型來表示，包括線性連續(xù)和非線性連續(xù)兩種，如圖3-1所示。

▲圖3-1 連續(xù)型數(shù)據(jù)

相比之下，離散型數(shù)值的最大特征是缺乏中間過渡值，所以總會出現(xiàn)“階躍”的現(xiàn)象，譬如“是”和“否”，通常用bool類型來表示，如圖3-2所示。

▲圖3-2 離散型數(shù)據(jù)

02 怎樣預(yù)測未來

回歸問題是一類預(yù)測連續(xù)值的問題，而能滿足這樣要求的數(shù)學(xué)模型稱作回歸模型，我們即將介紹的線性回歸就是回歸模型中的一種。許多教材講到回歸模型，總是匆匆進入具體的算法當(dāng)中，而往往忽略替初學(xué)者解答一個問題：為什么回歸模型能夠進行預(yù)測？這是一個似乎理所當(dāng)然，但其實并沒有那么不喻自明的問題。

許多人對“預(yù)測”的第一印象也許是傳說中的一個故事，有兩位高人結(jié)伴出行，晚上歇于一處破廟，甲對乙說，“睡覺別靠墻，我剛掐指一算，寅時墻會倒?！币也恍家活櫟財[擺手，“我剛才也掐指一算，墻是倒向右邊，我靠左睡可保無憂。”

故事里的高人也是要看書的，不過多半看的是《奇門遁甲》，而不太可能是《機器學(xué)習(xí)》。奇門遁甲不在本書的討論范圍，那么，機器學(xué)習(xí)的回歸模型能不能實現(xiàn)精準(zhǔn)的預(yù)測呢？

也許可以，不過要有條件：需要有充足的歷史數(shù)據(jù)。數(shù)據(jù)的重要性怎么強調(diào)都不為過，如果將機器學(xué)習(xí)算法比作一架機器，那么數(shù)據(jù)就是驅(qū)動這架機器的燃料，沒有燃料驅(qū)動，機器設(shè)計得再精巧也只能是擺設(shè)。

我們不是要預(yù)測未來嗎，為什么反而說歷史數(shù)據(jù)這么重要呢？這個問題涉及哲學(xué)，可以追溯到世界是萬事萬物相互聯(lián)系的統(tǒng)一整體，或者簡單一點，不妨把預(yù)測當(dāng)作一次偵探小說中的推理過程，犯罪手法總是要留下痕跡的，只要你找到相關(guān)聯(lián)的線索，就能夠推理出最終的結(jié)果。

當(dāng)然，預(yù)測難就難在待預(yù)測對象與什么相關(guān)是未知的，不過好在其中的關(guān)聯(lián)關(guān)系就藏在歷史數(shù)據(jù)之中，你要做的就是通過機器學(xué)習(xí)算法把它挖掘出來。機器學(xué)習(xí)算法并不發(fā)明關(guān)系，只是關(guān)聯(lián)關(guān)系的搬運工。有一種尚存爭議的觀點甚至說得更直白：機器學(xué)習(xí)遠不是什么欲說還休的神秘技術(shù)，從數(shù)學(xué)的角度看就是擬合，對輸入數(shù)據(jù)點的擬合。

機器學(xué)習(xí)實現(xiàn)預(yù)測的流程

機器學(xué)習(xí)算法究竟有什么魔力，竟然能夠預(yù)測未來？不妨就以前面兩個高人的故事為例，用科學(xué)觀點來研究墻體坍塌的問題。墻體坍塌可能由許多偶然因素導(dǎo)致，我們都不是土木專家，不妨憑感覺隨手列出幾條可能導(dǎo)致墻坍塌的因素：

譬如可能與砌墻的材質(zhì)有關(guān)，土坯墻總比水泥墻容易垮塌；

可能與使用時間的長短有關(guān)；

可能與承建商有關(guān)，喜歡偷工減料的工程隊容易出“豆腐渣工程”；

還有一些外部環(huán)境因素，譬如整天風(fēng)吹雨淋的墻容易垮塌；

最后就是墻體坍塌之前總會有一些早期跡象，譬如已經(jīng)出現(xiàn)很多裂縫等。

上面所列因素有三種情況：與坍塌密切相關(guān)，與坍塌有點關(guān)系，以及與坍塌毫無瓜葛。如果人工完成預(yù)測任務(wù)，當(dāng)然最重要的工作就是找出哪些是密切相關(guān)的，放在第一位；哪些是有點關(guān)系的，放在參考位置；哪些毫無瓜葛，統(tǒng)統(tǒng)刪掉。

可是我們又怎么知道哪些因素有哪些關(guān)系呢？這時我們就可以制作一張調(diào)查表，把砌墻用的什么材料、已經(jīng)用了多久、出現(xiàn)了多少條裂縫等情況一一填進去，這就是前面所說的數(shù)據(jù)集中每一條樣本數(shù)據(jù)的維度。就像商家很喜歡通過網(wǎng)上問卷來了解用戶偏好一樣，我們也利用調(diào)查表來了解墻體坍塌有什么“偏好”。

調(diào)查表大概形式如下表所示。

最后一欄是“坍塌概率”，這是我們最關(guān)心的，也是有監(jiān)督學(xué)習(xí)所必需的。這些已知的坍塌概率以及相關(guān)的維度數(shù)據(jù)將為未知概率的預(yù)測提供重要幫助。

最后也是最關(guān)鍵的一步，是找出各個維度和坍塌之間的概率，而這個步驟將由模型自行完成。

我們要做的只是將長長的歷史數(shù)據(jù)輸入回歸模型，回歸模型就會通過統(tǒng)計方法尋找墻體坍塌的關(guān)聯(lián)關(guān)系，看看使用時間的長短和承建商的選擇誰更重要，相關(guān)術(shù)語叫作訓(xùn)練模型，從數(shù)學(xué)的角度看，這個過程就是通過調(diào)節(jié)模型參數(shù)從而擬合數(shù)據(jù)。怎樣調(diào)節(jié)參數(shù)來擬合數(shù)據(jù)是每一款機器學(xué)習(xí)模型都需要思考的重要問題。

模型訓(xùn)練完畢后，再把當(dāng)前要預(yù)測的墻體情況按數(shù)據(jù)維度依次填好，回歸模型就能告訴我們當(dāng)前墻體坍塌概率的預(yù)測結(jié)果了。流程如圖3-3所示。

▲圖3-3 回歸模型訓(xùn)練示意圖

可以看出，回歸模型就是預(yù)測的關(guān)鍵，我們通過給模型“喂”數(shù)據(jù)來訓(xùn)練它，最終讓它具備了預(yù)測的能力。也許你對“模型”這個詞感到陌生又好奇，不知道該在腦海里給它分配一個什么樣的形象。而圖3-3的“模型”是一個大大的四方盒子，塞進數(shù)據(jù)就能吐出預(yù)測結(jié)果，像是奇幻故事中巫師手中具有神奇魔力的水晶球。

不用著急，“模型”這個詞將貫穿我們對機器學(xué)習(xí)的整個巡禮，就像慶典游行里的花車正等著我們逐一觀賞呢。接下來迎面走來的就是第一款模型——線性模型。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

終于有人把線性回歸講明白了（1）

相關(guān)推薦

技術(shù)專區(qū)