《機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)》學(xué)后總結(jié)
《機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)》是一本不錯(cuò)的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)入門(mén)的書(shū)籍。第一章介紹了用于機(jī)器學(xué)習(xí)的Python相關(guān)工具,接下來(lái)分別用實(shí)戰(zhàn)型例子講解聚類(lèi)、分類(lèi)、回歸、模式識(shí)別、降維等機(jī)器學(xué)習(xí)的主要的幾種方法。
本文引用地址:http://butianyuan.cn/article/201612/341911.htm機(jī)器學(xué)習(xí)就是教機(jī)器自己來(lái)完成任務(wù),機(jī)器學(xué)習(xí)的目標(biāo)就是通過(guò)若干示例讓機(jī)器學(xué)會(huì)完成任務(wù)。
像其他工程一樣,設(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)工作一般花在一些極其平凡的任務(wù)上:
(1)讀取和清洗數(shù)據(jù);
(2)探索和理解輸入數(shù)據(jù);
(3)分析如何最好地將數(shù)據(jù)呈現(xiàn)給學(xué)習(xí)算法;
(4)選擇正確的學(xué)習(xí)算法和模型;
(5)正確地評(píng)估性能。
分類(lèi)是一種監(jiān)督性學(xué)習(xí)(需要樣本進(jìn)行訓(xùn)練),書(shū)中第二章從最簡(jiǎn)單的肉眼觀察方法,講到K鄰近算法和分類(lèi)樹(shù)方法。
聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí),書(shū)中第三章一種比較典型的聚類(lèi)方法——K均值(質(zhì)心移動(dòng)法)。
主題模型不同于聚類(lèi),而是把對(duì)象放入幾個(gè)組(叫做主題)中。
分類(lèi)、聚類(lèi)和主題模型是主流的機(jī)器學(xué)習(xí)模型,是機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),只有融會(huì)貫通這些基礎(chǔ)知識(shí)才能在遇到更有挑戰(zhàn)性地問(wèn)題時(shí)能見(jiàn)招拆招。
設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)免不了要對(duì)系統(tǒng)進(jìn)行提升,我本基本有如下選擇:
(1)增加更多數(shù)據(jù):也許我們沒(méi)有為學(xué)習(xí)算法提供足夠數(shù)據(jù),因此增加更多的訓(xùn)練數(shù)據(jù)即可。
(2)考慮模型復(fù)雜度:也許模型還不夠復(fù)雜,或者已經(jīng)太復(fù)雜了。例如在K鄰近算法中 ,我們可以降低K值,使得較少的近鄰被考慮進(jìn)去,從而更好地預(yù)測(cè)不平滑數(shù)據(jù)。我們也可以提高K值,來(lái)得到相反的結(jié)果。
(3)修改特征空間:也許我們的特征集合并不好。例如,我們可以改變當(dāng)前特征的范圍,或者設(shè)計(jì)新的特征。又或者,如果一些特征和另外一些特征是別名關(guān)系,可以刪除一些特征。
(4)改變模型:也許XX算法并不適合我們的問(wèn)題,無(wú)論我們讓模型變得有多復(fù)雜,無(wú)論特征空間會(huì)邊得多負(fù)雜,它永遠(yuǎn)也得不到良好的預(yù)測(cè)結(jié)果。
邏輯回歸是一種分類(lèi)方法,當(dāng)他處理基于文本的分類(lèi)任務(wù)時(shí),功能非常強(qiáng)大。
樸素貝葉斯是一種分類(lèi)方法,也許是最優(yōu)美的有實(shí)際效用的機(jī)器學(xué)習(xí)算法之一了,盡管名字叫做樸素,但是當(dāng)你看到其分類(lèi)的實(shí)際效果時(shí),你會(huì)發(fā)現(xiàn)并不是那么樸素。他對(duì)無(wú)關(guān)特征的處理能力十分強(qiáng)悍,無(wú)關(guān)特征會(huì)被自然地過(guò)濾掉。用它進(jìn)行機(jī)器學(xué)習(xí)和預(yù)測(cè)的時(shí)候,速度都非常快,而且并不需要很大的存儲(chǔ)空間。(之所以稱(chēng)作樸素,是因?yàn)橛幸粋€(gè)能讓貝葉斯方法最優(yōu)工作的假設(shè):所有特征需要相互獨(dú)立。而實(shí)際應(yīng)用中,這種情況很少出現(xiàn)。盡管如此,在實(shí)踐中,即使在獨(dú)立假設(shè)并不成立的情況下,他仍然能達(dá)到很高的正確率。
關(guān)回歸預(yù)測(cè)模型中首先介紹a kind old method——普通最小二乘法回歸(Ordinary Least Squares,OLS)。有時(shí)候?yàn)榱吮苊膺^(guò)擬合用到了嶺回歸、Lasson法和彈性網(wǎng)(他們是最前沿的回歸方法)。
Apriori算法在形式上會(huì)將一些集合當(dāng)作輸入,并返回這些集合中出現(xiàn)頻率非常高的子集。Apriori的目標(biāo)就是尋找一個(gè)高支持度的項(xiàng)集。其解決的經(jīng)典問(wèn)題是購(gòu)物籃問(wèn)題(挖掘購(gòu)買(mǎi)A的人可能還會(huì)購(gòu)買(mǎi)什么)。當(dāng)然,購(gòu)物籃問(wèn)題也可以嘗試用基于概率的關(guān)聯(lián)規(guī)則挖掘方法。
涉及到語(yǔ)音、音樂(lè)等樣本的機(jī)器學(xué)習(xí)系統(tǒng)則略顯不同,因?yàn)樗麄兊拿枋鲋挡⒉皇悄敲疵黠@(比如花朵分類(lèi)問(wèn)題中,對(duì)特征的描述花瓣數(shù)量、花朵顏色等都比較明確),而對(duì)于一段長(zhǎng)3分鐘的MP3歌曲,顯然我們不能用MP3數(shù)據(jù)的每一bit來(lái)表示。書(shū)中介紹了一種基于音樂(lè)頻率的分類(lèi)方法(FFT)——一種可以從音頻中提取頻率強(qiáng)度的方法(快速傅里葉變換)。但是FFT僅僅是一個(gè)方向,卻正確率不高!其實(shí)對(duì)于音樂(lè)分類(lèi)已經(jīng)有人遇到同樣的問(wèn)題,并成功解決了,甚至有一個(gè)每年舉辦的會(huì)議專(zhuān)門(mén)用來(lái)解決音樂(lè)分類(lèi)問(wèn)題。這個(gè)組織是由音樂(lè)信息檢索國(guó)際協(xié)會(huì)(ISMIR)組織的。很明顯自動(dòng)音樂(lè)體裁分類(lèi)是音樂(lè)信息檢索的一個(gè)子領(lǐng)域。在AMGC中一個(gè)應(yīng)用比較多的音樂(lè)體裁分類(lèi)方法就是梅爾倒頻譜系數(shù)(MFCC)技術(shù)。梅爾倒頻譜(MFC)會(huì)對(duì)聲音的功率譜進(jìn)行編碼,它是通過(guò)對(duì)信號(hào)譜的對(duì)數(shù)進(jìn)行傅里葉變換得到的。
而涉及到圖像、視頻的機(jī)器學(xué)習(xí)系統(tǒng)則又和之前不同,這方面甚至直接獨(dú)立出來(lái)單獨(dú)研究。
評(píng)論