如何快速使用大規(guī)模機(jī)器學(xué)習(xí)的核心技術(shù)?
過(guò)去兩年,機(jī)器學(xué)習(xí)書(shū)寫(xiě)了一卷強(qiáng)大的成長(zhǎng)史,無(wú)論你是否真的覺(jué)察,它都是如此直接且普遍地在我們的生活中體現(xiàn)價(jià)值:客服機(jī)器人、垃圾郵件過(guò)濾、人臉識(shí)別、語(yǔ)音識(shí)別、個(gè)性化推薦……機(jī)器學(xué)習(xí)和人的洞察力這對(duì)組合正逐漸滲透到各行各業(yè),使我們?cè)诿鎸?duì)這些冷冰冰的現(xiàn)代設(shè)備時(shí),享受到靈活、智能、且越來(lái)越富人情味兒的服務(wù)。
本文引用地址:http://www.butianyuan.cn/article/201602/287461.htm的確,神經(jīng)網(wǎng)絡(luò)、人工智能和機(jī)器學(xué)習(xí)沒(méi)什么新穎的,這些算法早在幾十年前就存在。但為什么這瓶老酒直到最近,才發(fā)酵出勢(shì)不可擋的香氣呢?數(shù)十億用戶(hù)每天行走于互聯(lián)網(wǎng)中,面對(duì)這巨大的行為數(shù)據(jù)體量,傳統(tǒng)統(tǒng)計(jì)分析方法已經(jīng)無(wú)力招架。圍繞著數(shù)據(jù)和工具發(fā)生的變化,可擴(kuò)展的計(jì)算能力在急劇上升,這些都推動(dòng)著機(jī)器學(xué)習(xí)以前所未有的方式大步向前。
除此之外,面向機(jī)器學(xué)習(xí)的可用框架也迎來(lái)了爆發(fā)式增長(zhǎng)。巨頭們紛紛將最為復(fù)雜的技術(shù)從機(jī)器學(xué)習(xí)中抽象出來(lái),開(kāi)源給開(kāi)發(fā)者和學(xué)術(shù)研究人員,在幫助更多人的同時(shí),使自身技術(shù)方案不斷得到完善和進(jìn)步。微軟也如是。
去年11月,微軟亞洲研究院將分布式機(jī)器學(xué)習(xí)工具包(DMTK)通過(guò)GitHub開(kāi)源。隨著某些應(yīng)用場(chǎng)景下數(shù)據(jù)量越來(lái)越大,分布式機(jī)器學(xué)習(xí)技術(shù)的重要性日益顯現(xiàn)。但將大量設(shè)備匯聚起來(lái)并開(kāi)發(fā)出能夠順利跨越各設(shè)備運(yùn)行的機(jī)器學(xué)習(xí)應(yīng)用絕非易事。大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的挑戰(zhàn)在哪里?優(yōu)勢(shì)又是什么?對(duì)于開(kāi)發(fā)者,怎樣結(jié)合實(shí)際業(yè)務(wù)需求更好地使用DMTK?帶著這些問(wèn)題,51CTO記者走進(jìn)微軟亞洲研究院向DMTK團(tuán)隊(duì)研究員——微軟亞洲研究院主管研究員王太峰拋出了我們的疑問(wèn)。
微軟亞洲研究院主管研究員 王太峰
DMTK是什么
王太峰介紹,DMTK由一個(gè)服務(wù)于分布式機(jī)器學(xué)習(xí)的框架和一組分布式機(jī)器學(xué)習(xí)算法構(gòu)成,是一個(gè)將機(jī)器學(xué)習(xí)算法應(yīng)用在大數(shù)據(jù)上的工具包。DMTK目前聚焦于解決Offline-training的并行化。除了分布式學(xué)習(xí)框架,它還包括了主題模型和詞向量學(xué)習(xí)的算法,這些算法可以應(yīng)用于自然語(yǔ)言處理方面,比如文本分類(lèi)與聚類(lèi)、話(huà)題識(shí)別以及情感分析等。為了適應(yīng)不同的集群環(huán)境,DMTK框架支持兩種進(jìn)程間的通信機(jī)制:MPI和ZMQ。應(yīng)用程序端不需要修改任何代碼就能夠在這兩種方式之間切換。DMTK支持Windows和Linux兩種操作系統(tǒng)。目前主要支持C和C++,之后會(huì)考慮到一些高級(jí)語(yǔ)言的升級(jí),比如Python。
在實(shí)現(xiàn)算法的過(guò)程中DMTK團(tuán)隊(duì)看到,用一個(gè)框架來(lái)將這些算法很容易地并行到大量機(jī)器上來(lái)解決大規(guī)模機(jī)器學(xué)習(xí)問(wèn)題,是非常必要的。因此,微軟將DMTK框架和幾個(gè)例子開(kāi)源出來(lái),一方面與開(kāi)發(fā)者和學(xué)術(shù)研究人員共同分享技術(shù),另一方面希望通過(guò)大家貢獻(xiàn)改進(jìn)意見(jiàn),并將更多的算法添加到這套框架中來(lái)。
如何應(yīng)對(duì)大規(guī)模機(jī)器學(xué)習(xí)的挑戰(zhàn)
在被問(wèn)及DMTK如何解決大規(guī)模機(jī)器學(xué)習(xí)的挑戰(zhàn)時(shí),王太峰主要從如何處理大規(guī)模數(shù)據(jù)和訓(xùn)練大規(guī)模模型兩方面做了回答。
1. 大規(guī)模數(shù)據(jù):基于DMTK我們可以利用多個(gè)機(jī)器一同完成處理,每個(gè)機(jī)器處理一部分?jǐn)?shù)據(jù)。在多個(gè)機(jī)器中同時(shí)存在多個(gè)參數(shù)的副本,它們獨(dú)立基于本地?cái)?shù)據(jù)產(chǎn)生對(duì)參數(shù)的更新,并在參數(shù)服務(wù)器端進(jìn)行參數(shù)更新的合并。通過(guò)這種數(shù)據(jù)并行的方式,利用多個(gè)機(jī)器同時(shí)處理大規(guī)模的數(shù)據(jù),大大加速了學(xué)習(xí)過(guò)程。即使是每臺(tái)機(jī)器處理相對(duì)小的數(shù)據(jù)分塊,但是有時(shí)候模型參數(shù)非常多,以至于基于全部參數(shù)在內(nèi)存中更新的算法變得不可行。
2. 大規(guī)模模型:在大規(guī)模模型中,學(xué)習(xí)參數(shù)在單個(gè)機(jī)器中裝不下。就這個(gè)問(wèn)題,DMTK可以從兩個(gè)方面解決,首先DMTK框架中的參數(shù)服務(wù)器本身即為分布式,所以可利用很多機(jī)器分布式存儲(chǔ)模型。其次,在單個(gè)機(jī)器進(jìn)行本地學(xué)習(xí)的過(guò)程中,通過(guò)設(shè)計(jì)精巧的分段學(xué)習(xí)方法,使得參數(shù)更新分批次完成。即使模型再大,也能保證本地參數(shù)學(xué)習(xí)順利完成。
評(píng)論