博客專欄

EEPW首頁 > 博客 > 科學匠人|秦濤:以獨立、深度的視角看世界,做有意義、創(chuàng)新的研究

科學匠人|秦濤:以獨立、深度的視角看世界,做有意義、創(chuàng)新的研究

發(fā)布人:MSRAsia 時間:2021-12-18 來源:工程師 發(fā)布文章

編者按:NeurIPS 2021大會剛剛結束。在今年的大會上,微軟亞洲研究院共有22篇論文入選,而其中的8篇都有微軟亞洲研究院首席研究員秦濤的參與。自加入微軟亞洲研究院以來,秦濤已在 NeurIPS、ICML、ICLR、IJCAI、AAAI、CVRP 等業(yè)界頂級期刊、會議上發(fā)表了100余篇論文,他所帶領的團隊也在2018年將中-英機器翻譯提升至人類專業(yè)水平,在2019年國際機器翻譯大賽上獲得8項冠軍,并且還開發(fā)了迄今為止最強大的麻將 AI 系統(tǒng) Suphx,所研發(fā)的語音合成技術被廣泛應用于微軟 Azure 認知服務、Windows 等多個微軟核心產(chǎn)品和服務中。如何持續(xù)不斷地產(chǎn)出高質(zhì)量的科研創(chuàng)新成果?或許你可以從秦濤的科研經(jīng)歷中獲得一份“錦囊”。

在 NeurIPS 2021大會上,微軟亞洲研究院首席研究員秦濤博士參與的論文有8篇被收錄,成為本屆大會收錄論文數(shù)最高的研究員之一。其中一篇論文重新審視了深度學習中廣泛使用的 Dropout 算法,針對其訓練和測試階段的不一致性提出了改進算法 R-Drop;另一篇擯棄了傳統(tǒng)生成式建模中由一個過于簡化的邊緣(先驗)分布加一個條件分布來確定兩個隨機變量聯(lián)合分布的做法,提出了由兩個條件分布來確定聯(lián)合分布的理論,從而避免了使用因過于簡化而與實際不符的邊緣分布,并基于此理論提出了一個全新的生成式建模模式 CyGen。R-Drop 的論文體現(xiàn)了科研人員對已有技術的反思與獨立思考能力,而 CyGen 的文章則更具原創(chuàng)性,反映了科研思維的深度。秦濤說,“做研究時,碰到別人習以為常的事情,我們需要思考那樣做是否有道理,是否可以改進,從而培養(yǎng)自己獨立思考、深度思考的習慣?!?/p>

1.jpg

微軟亞洲研究院首席研究員秦濤

事實上,不僅是在今年的 NeurIPS 大會上秦濤和團隊“盆缽滿盈”,自加入微軟亞洲研究院以來,秦濤已在頂級期刊、會議上發(fā)表了100余篇論文。同時,他所帶領的團隊近年來也在學術界、產(chǎn)業(yè)界屢獲佳績,不少科研成果已被廣泛應用。

究竟是怎樣的“魔力”可以讓秦濤在研究中另辟蹊徑,不斷提出新問題,應對新挑戰(zhàn),創(chuàng)造無限可能?

加入微軟亞洲研究院是不二選擇

2008年,秦濤正式加入了微軟亞洲研究院,但在此之前他已經(jīng)是這里的一名“老員工”了。2003年,還在讀碩士的秦濤來到微軟亞洲研究院實習,一直到博士畢業(yè)。期間,秦濤還曾作為優(yōu)秀實習生受邀到比爾·蓋茨家參加活動。“微軟亞洲研究院是當時國內(nèi)最好的計算機科學研究機構。五年的實習時間已經(jīng)讓我體會到了研究院自由的研究環(huán)境和學術氛圍?!鼻貪f,“這里擁有眾多優(yōu)秀的研究人員和實習生,與其單打獨斗,研究院更鼓勵我們共同合作創(chuàng)新。所以畢業(yè)后,我沒有考慮其他選擇,毫不猶豫地加入了微軟亞洲研究院?!?/p>

2.png

2007年微軟亞洲研究院優(yōu)秀實習生合影(右一:秦濤)

從實習生到正式的研究員,秦濤的研究方向發(fā)生了多次轉(zhuǎn)換。實習初期秦濤主要從事圖像檢索方面的研究,利用 SVM、Boosting 或決策樹等技術處理人工設計特征(比如直方圖、紋理分布、SIFT 等)。2005年,微軟意識到了互聯(lián)網(wǎng)搜索的發(fā)展前景,開始布局搜索引擎業(yè)務。于是,秦濤和團隊開始集中精力于互聯(lián)網(wǎng)搜索的研究。

全情投入很快得到了回報,在同年信息檢索領域的頂級學術大會 SIGIR 收錄的75篇論文中,有15篇來自微軟亞洲研究院,占比20%?!拔覀兠總€人都穿著同樣的T恤,合影時不斷引來大家的關注和稱贊,‘你們(微軟亞洲研究院)來了這么多人呀‘”,回憶起當年參會的場景,秦濤依舊難掩興奮之情。這次經(jīng)歷讓秦濤倍感榮耀,也讓他感受到了微軟亞洲研究院在全球計算機科研界的實力與位置。

3.png

2005年,秦濤參加 SIGIR 大會

互聯(lián)網(wǎng)搜索工作的持續(xù)進步,以及與產(chǎn)品團隊的深入合作,讓秦濤又將目光對準了互聯(lián)網(wǎng)廣告的研究。不同于互聯(lián)網(wǎng)搜索中只對網(wǎng)頁進行正常排序,互聯(lián)網(wǎng)廣告則需要將優(yōu)質(zhì)的廣告和用戶的查詢詞按相關度排序,以提升用戶的體驗。于是秦濤和同事們開始著手于廣告點擊率預測的相關研究,并拓展到廣告拍賣機制的設計和改進,以實現(xiàn)必應(Bing)廣告業(yè)務的優(yōu)化。其實無論是圖文檢索、互聯(lián)網(wǎng)搜索,還是廣告排序,都是機器學習技術的應用,這些積累也讓秦濤及團隊看到了深度學習、深度神經(jīng)網(wǎng)絡等技術的潛力,為后來秦濤團隊在機器翻譯、語音合成、語音識別、強化學習等領域的突破性創(chuàng)新奠定了基礎。

創(chuàng)新對偶學習,帶來更多可能性

隨著對機器學習技術的深入研究,秦濤團隊發(fā)現(xiàn)很多實際應用中的機器學習任務的輸入輸出互為對偶,比如機器翻譯中的中翻英任務和英翻中任務,語音處理中的語音合成任務(從文本到語音)和語音識別任務(從語音到文本),圖文處理中的“看圖說話”任務(從圖像生成文本)和基于文本的圖像生成任務。利用這種機器學習任務之間輸入輸出的對偶屬性可以對無標注數(shù)據(jù)進行學習,提升機器學習算法特別是深度學習算法的性能。

這就是由秦濤團隊2016年提出,今天已為業(yè)界所熟知的機器學習新范式——對偶學習。對偶學習思想最關鍵的地方在于,給定一個原始任務模型,它的對偶任務模型可以給其提供反饋;同樣的,給定一個對偶任務的模型,其原始任務模型也可以給該對偶任務的模型提供反饋,從而這兩個互為對偶的任務可以相互提供反饋,相互學習,共同提高。

最初,對偶學習只為解決機器翻譯任務,后來逐漸應用于更廣泛的領域,包括機器問答、語音識別、語音合成,甚至是圖像風格的轉(zhuǎn)換,比如將圖像從梵高風格轉(zhuǎn)換成其他畫家的風格,將山水畫轉(zhuǎn)變?yōu)橛彤?,等等。對偶學習還可以用于智能代碼生成任務,同時提高代碼注釋與代碼生成的性能。

值得一提的是,得益于對偶學習,秦濤團隊助力微軟機器翻譯在2018年中-英機器翻譯中達到了媲美人類專業(yè)翻譯的水平,并在2019年的機器翻譯比賽中獲得了8項機器翻譯冠軍。2020年,秦濤和同事們還將對偶學習編寫成書,讓更多人了解和使用這一技術。

4.png

《Dual Learning(對偶學習)》

對偶學習從技術上講并不是特別困難,而在于換個角度看問題,把具有對偶屬性的兩個任務放在一起聯(lián)合學習,利用兩個模型的輸入輸出形成反饋閉環(huán),這不同于傳統(tǒng)的單任務學習范式,也不同于近年來的多任務學習。秦濤總結到,“更重要的是創(chuàng)新性思維,能否從一個全新的視角看問題,做到這一點就不難發(fā)現(xiàn)一片新的天地。”

做有意義的研究:小語種機器翻譯

讓秦濤擁有成就感的研究項目不少,但其中有一項工作意義尤為特殊——低資源機器翻譯。就在前不久,微軟翻譯突破了百種語言和方言大關?!耙黄?00種語言的契機和靈感來源于奧運會,”秦濤介紹道,“我們發(fā)現(xiàn)2020年東京奧運會的官方網(wǎng)站上只提供了7種語言支持,而參賽的國家卻有200多個。若要在語言翻譯方面更加充分地體現(xiàn)奧林匹克的共贏精神,還需要技術的進一步助力?!彪m然機器翻譯的水平隨著人工智能技術的進展在不斷提高,但縱觀市面上的翻譯技術和產(chǎn)品,大多專注于訓練資源更加豐富大語種,而忽略了低資源的小語種。但事實是,使用小語種的國家和人群屬于經(jīng)濟欠發(fā)達行列的占比更大,他們更需要獲取新信息、新知識、新技術。

“我們的目標是‘一個也不能少’,希望所有奧運參賽國的運動員和受眾不僅可以在機器翻譯技術的幫助下更好地參加和觀看奧運會,還可以了解到世界上更多的前沿信息。這個項目可能并不能帶來巨大的商業(yè)價值,我們也不是為了發(fā)表論文,我們更希望的是我們的技術可以幫助小語種使用者打開視野,打破人類語言交流的障礙,這類研究非常有意義?!?/p>

將想法付諸于行動后,秦濤和研究院以及產(chǎn)品部門的同事們一起利用對偶學習、預訓練等技術,克服了小語種使用范圍小、學習語料少的困難,在近期為微軟翻譯又添加了14種語言和方言翻譯,包括美尼亞語、阿塞拜疆語、藏語、高棉語、蒂格里尼亞語、阿姆哈拉奇語、老撾語、****語、尼泊爾語、土庫曼語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、維吾爾語和烏茲別克語(拉丁文字)。目前微軟翻譯已支持103種語言和方言的翻譯。

語音合成實現(xiàn)“秒殺”

除了將機器學習的強大優(yōu)勢應用在語言翻譯方面,秦濤和團隊還積極探索機器學習在語音合成上的更多可能性。盡管深度神經(jīng)網(wǎng)絡近年來已被學術界所認可,應用在語音合成方面也有不錯的效果,但秦濤和同事們發(fā)現(xiàn)模型的運行非常慢,即使使用 V100這種在2019年性能最佳的 GPU 也達不到實時的效果——一句5秒鐘的話,機器卻無法在5秒內(nèi)合成語音。而通過不斷增加 GPU 來完成任務,其成本是無法承擔的,因此用戶也無法受益于最新的機器學習技術。為此,秦濤團隊和浙江大學聯(lián)合推出了 FastSpeech 算法,將梅爾譜的生成速度提高了近270倍,讓端到端平均合成一條5秒鐘語音的時間達到0.18秒,單 GPU 上的語音合成速度達到了實時語音速度的30倍。

5.png

FastSpeech 網(wǎng)絡架構

如今,F(xiàn)astSpeech 算法已經(jīng)在微軟的產(chǎn)品中大范圍應用,包括 Teams、Skype、Windows、Azure 中的所有語音合成服務,現(xiàn)在微軟的語音合成(TTS)服務已支持超過110種語言和270多種語音。

在開放、包容、多元的研究環(huán)境中成長

從2003年的實習生,到2008年的正式研究員,再到今天的首席研究員,角色的變化讓秦濤感受責任的不同?!霸趯嵙暺陂g,我主要集中精力于做實驗、寫論文;而成為正式的研究員后,我思考的更多的是研究的價值和意義,如何與同事們一起完成‘頂天立地’的研究?!鼻貪忉尩?,頂天就是要做最前沿的研究,例如研究院近年來鼓勵的 AI+科學的交叉研究方向;立地則是要做有用的研究,希望我們的技術能夠通過改進微軟的產(chǎn)品,造福所有用戶。

在微軟亞洲研究院工作的18年讓秦濤愈發(fā)感受到了開放、協(xié)作、多元、包容文化對創(chuàng)新型研究的促進作用。為了推動跨領域交流和交叉學科的研究,微軟亞洲研究院引入了各領域的優(yōu)秀人才,同時還會不定期地組織交流分享活動。秦濤負責組織的“大師論壇”會邀請公司內(nèi)外部專家分享跨領域的專業(yè)知識和洞察。“在與不同專業(yè)背景的同事合作研究的過程中,我們會有不認同、質(zhì)疑對方的時刻,但是很多新的思想正是在碰撞中產(chǎn)生的;對于一致認同的想法,我們會共同讓想法落地;對于新的觀點,也會嘗試驗證,提出新的算法、范式,不斷推進研究工作?!痹谇貪磥?,求同存異對于研究創(chuàng)新至關重要。

6.jpg

秦濤與團隊成員開會探討研究進展(右三:秦濤)

此外,當有實習生提出新想法時,秦濤會鼓勵大家從一開始就將想法提煉成一兩頁的書面文檔。這樣做不僅能理清思路,為后續(xù)研究工作形成論文打好基礎,更重要的是可以把想法在初期就分享給其他人,及時獲取反饋、建議和質(zhì)疑,從而確保工作在起步階段就可以站在巨人的肩膀上。秦濤還強調(diào),做研究并不是為了發(fā)論文,發(fā)論文是為了做更好的、有意義的研究,只有好的研究工作才值得發(fā)論文。

業(yè)余時間,秦濤喜歡讀書。為了拓寬自己的視野,他讀書的范圍并不局限于專業(yè)領域。最近秦濤正在讀《后疫情時代的中國經(jīng)濟》和《人類進化史》兩本書。秦濤認為,雖然這些書對自己的專業(yè)研究沒有直接的幫助,但卻可以讓自己看得更遠、更深,和微軟一起更好地承擔起社會責任。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

pid控制器相關文章:pid控制器原理




關鍵詞: AI

相關推薦

技術專區(qū)

關閉