對話 | 洪小文與陸堅(jiān)共探AI與未來生活的美好愿景

發(fā)布人：MSRAsia 時間：2021-09-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：科研，顧名思義，就是科學(xué)研究。小到生活用品，大到宇宙航天，生活中處處不缺由科學(xué)研究轉(zhuǎn)化而來的成果。而在科學(xué)研究的背后，是一群默默無聞、專心學(xué)術(shù)的科學(xué)家們。從科研小白到科研大佬的科研之旅，這背后的故事，你了解多少？

在 Ada Camp 2021 上，微軟亞洲研究院副院長劉鐵巖博士，就“科學(xué)研究“這個話題結(jié)合自身科研之路，以及這一路以來的心得體會，為大家分享了科學(xué)研究到底該怎么做、想做好科研到底該具備哪些技能。希望即將走向或者正在進(jìn)行科研的你，能夠從這次講堂中收獲滿滿，為自己的科研之路增添更多色彩！

微軟亞洲研究院副院長劉鐵巖

非常榮幸參加“未來由妳 Ada Camp 2021”活動。今天，我想結(jié)合一下自己的求學(xué)和工作經(jīng)歷，來跟大家分享一下我們應(yīng)該如何去做科學(xué)研究，以及在做科研中可能遇到的問題和疑惑，希望能給大家的科研生活帶來一定的幫助和啟發(fā)。

我本人的學(xué)術(shù)生涯非常簡單，我是一個典型的科研工作者，如果用兩個數(shù)字來形容的話，就是9和18 —— 9年的清華學(xué)習(xí)之旅和18年的微軟亞洲研究院工作之路。在過去的這27年里，我跟大家一樣，也是從一個懵懂的學(xué)生開始，之后在學(xué)術(shù)之路上不斷攀登，一步一步取得了很多學(xué)術(shù)成果，逐漸被國際學(xué)術(shù)界所認(rèn)可。

為什么我們要進(jìn)行科學(xué)研究？

其實(shí)原因非常簡單，我們都知道科學(xué)技術(shù)是第一生產(chǎn)力，而科學(xué)研究則可以推動和改變?nèi)祟惖纳鐣茉煳覀兊奈磥?。大家可能都非常熟悉人類社會?jīng)歷的4次工業(yè)革命，從機(jī)械化、電氣化到現(xiàn)在的信息化、智能化。我們的生產(chǎn)效率得到了極大的提升，生活質(zhì)量也有了巨大的改善。這4次工業(yè)革命的背后，都是科學(xué)技術(shù)的飛躍性發(fā)展，而這些技術(shù)的發(fā)明都離不開幕后的英雄——默默無聞地從事著科學(xué)研究的科學(xué)家們。

如果說工業(yè)革命塑造了我們的昨天、今天，甚至是明天，那么自然科學(xué)的發(fā)展則更決定了我們?nèi)祟愰L久的未來?！犊茖W(xué)（Science）》雜志在其125周年的時候刊發(fā)了一期?？信e了關(guān)乎宇宙奧秘、生命機(jī)理以及人類生存和可持續(xù)發(fā)展的125個最重要的現(xiàn)代科學(xué)問題。每一個問題都非常深刻，直擊靈魂。比如，宇宙是由什么構(gòu)成的？意識的生物基礎(chǔ)是什么？人類為什么只有那么少量的基因，卻有這么豐富的形態(tài)和這么高的智能？是否存在著大一統(tǒng)的物理定律等等。

雖然這些問題非常艱深，但是科學(xué)家們一直都沒有停止探索這些問題的腳步，也不斷地通過自己的努力推進(jìn)著人類認(rèn)識科學(xué)的邊界。

這其中很多的女性科學(xué)家也為我們?nèi)祟惖陌l(fā)展做出了巨大的貢獻(xiàn)。比如，居里夫人、邁特納、埃利昂等等。當(dāng)然還有我們中國的屠呦呦，因?yàn)榘l(fā)現(xiàn)了青蒿素，挽救了全球特別是發(fā)展中國家數(shù)百萬人的生命。

可能有的同學(xué)會說，這些偉大的科學(xué)家離我們太偉大、太遙遠(yuǎn)了，我們實(shí)在沒有勇氣成為他們那樣的人。的確，想要在科學(xué)領(lǐng)域成為有輝煌成就的科學(xué)家不是件容易的事情，不僅需要靠努力，而且還有一些運(yùn)氣的成分。

不過今天我想告訴大家，邁進(jìn)科學(xué)的大門沒有那么難，也沒有那么遙遠(yuǎn)。我相信不少同學(xué)兒時都有一個成為科學(xué)家的夢想。而且我們每個人其實(shí)都有成為科學(xué)家的潛質(zhì)，因?yàn)槲覀儚暮⑻釙r就對周圍的一切都充滿了好奇心，對現(xiàn)實(shí)和虛幻的世界都充滿了想象力。而這兩點(diǎn)正是從事科學(xué)研究最最重要的特質(zhì)。

當(dāng)然，科學(xué)家還需要更多的素質(zhì)，比如，觀察敏銳，善于從細(xì)節(jié)中尋找到蛛絲馬跡，發(fā)現(xiàn)被別人忽略的線索；大膽假說，針對這些發(fā)現(xiàn)勇于提出自己的假設(shè)，能夠依據(jù)知識和直覺，指出這些發(fā)現(xiàn)背后可能存在的重大規(guī)律；小心求證，假說人人都可以提，但是只有被驗(yàn)證了的假說才是科學(xué)道理，這也是科學(xué)和迷信的分水嶺；嚴(yán)謹(jǐn)勤奮，無論是假說還是求證，都要建立在大量的知識積累和嚴(yán)謹(jǐn)?shù)耐茖?dǎo)之上；精確誠實(shí)，科學(xué)是沒有捷徑的，造假、抄襲、敷衍的行為絕對不會造就真正的科學(xué)家；最后就是長期堅(jiān)持，科學(xué)之路不會一帆風(fēng)順。

我們經(jīng)常說，如果你做10個研究項(xiàng)目，有9個失敗了1個成功，這是正常規(guī)律。但是，如果你9個甚至10個都成功，那就說明你選的研究題目太簡單。所以我們必須要理解科學(xué)研究背后的規(guī)律，它不是一蹴而成的，甚至可能需要幾十年如一日的堅(jiān)持，常常會大器晚成。

正是因?yàn)榍懊嫣岬降倪@些原因，從事科學(xué)研究的人構(gòu)成了一座金字塔。中國擁有博士學(xué)位的人數(shù)以百萬計(jì)；在國際頂級會議或者期刊上發(fā)表過論文的中國學(xué)者可能只有幾萬名；而國際知名的中國學(xué)者則更少，可能也就幾千人。從這個意義上講，“研究”其實(shí)是存在著一定“風(fēng)險系數(shù)”的職業(yè)。我們需要一步一步攀登高峰，才能夠從獲得博士學(xué)位逐步成長為一位國際知名的科學(xué)家。

什么是高質(zhì)量研究？

為了實(shí)現(xiàn)這個目的，我們首先要來看一看什么是好的科學(xué)研究，然后再探討如何能夠做出這樣的科學(xué)研究。

今天很多同學(xué)都是來自于計(jì)算機(jī)或者相關(guān)專業(yè)的，我們在這個行業(yè)里面是非常幸運(yùn)的。因?yàn)橛?jì)算機(jī)科學(xué)是發(fā)展最快的學(xué)科之一，它與國際接軌，影響面廣，關(guān)注度高，就業(yè)前景寬廣。

那么好的計(jì)算機(jī)研究到底是什么樣子的？不知道大家有沒有聽過這樣一種對學(xué)者層次的生動描述。

所謂一流學(xué)者，就是要去引領(lǐng)學(xué)術(shù)領(lǐng)域發(fā)展的，其可貴之處在于能夠洞察趨勢，提出重要問題。二流學(xué)者，雖然沒有那么深的洞察力，但是有非常好的功底和知識技能，可以把別人提出的問題解得很好，這對于學(xué)術(shù)研究也是一個非常重要的推動力。而三流學(xué)者，通常是跟隨潮流、小步慢跑。雖然他們的工作可能沒有那么大的創(chuàng)新性，也沒有解決重大的科學(xué)問題，但是他們也有很大的價值，因?yàn)樗麄冊嚵撕芏噱e，對學(xué)術(shù)界也做出了一定的貢獻(xiàn)。無論是哪種學(xué)者，我想大家內(nèi)心里都希望能夠做出高質(zhì)量的研究。

到底什么是高質(zhì)量的研究呢？我認(rèn)為高質(zhì)量的研究可以有很多種不同的類型，它既可以是提出全新的重要問題，也可以是首次解決一個公認(rèn)的難題。這里舉幾個我自己的例子，讓大家有個形象的認(rèn)識。

第一個例子，發(fā)生在大約15年前，那個時候搜索引擎剛剛興起，像 Google、百度這些公司都還是新興公司。在那個年代，搜索引擎背后的技術(shù)其實(shí)是比較落后的，很多人都是靠拍腦袋，想出一些經(jīng)驗(yàn)的、啟發(fā)式的公式。針對這樣的情況，包括我在內(nèi)的一些學(xué)者共同提出了一個科學(xué)問題：我們能否用計(jì)算機(jī)自動學(xué)習(xí)一個性能優(yōu)異的排序模型，而不是靠人為用啟發(fā)式去定義排序公式呢？

這個問題后來就引出了一個新的學(xué)術(shù)分支，我們稱之為 Learning to Rank（排序?qū)W習(xí)）。簡而言之，就是利用機(jī)器學(xué)習(xí)的技術(shù)，依據(jù)人為標(biāo)注的正確答案，或者用戶在線與搜索引擎交互的點(diǎn)擊數(shù)據(jù)，學(xué)到針對特定的查詢詞，對網(wǎng)頁相關(guān)性進(jìn)行排序的一個最優(yōu)的模型。

在我們的倡導(dǎo)下，很多學(xué)者都加入了我們，一起在這些方面做了大量的研究。而所有這些學(xué)者的共同努力也成就了今天主流的商業(yè)搜索引擎，它們背后的技術(shù)幾乎無一不是排序?qū)W習(xí)，而排序?qū)W習(xí)就是典型的“提出重要問題”的研究。

第二個例子，發(fā)生在大概五六年前，那時候人工智能的技術(shù)有著突飛猛進(jìn)的發(fā)展，解決了很多實(shí)際的問題。不過，那時主流的機(jī)器學(xué)習(xí)技術(shù)，需要大量人為標(biāo)注的樣本。以機(jī)器翻譯為例，通常需要上千萬的雙語語對來作為訓(xùn)練數(shù)據(jù)，才能訓(xùn)練出一個性能優(yōu)良的機(jī)器翻譯模型。然而，不是所有的人工智能任務(wù)都能夠獲得這樣豐富的數(shù)據(jù)。比如，很多小語種全世界可能會講這個語言的人都沒有幾個，更不要說找到人來標(biāo)注大量的雙語數(shù)據(jù)了。在這個背景下，我們就提出了一個科學(xué)問題：是否可以利用機(jī)器翻譯這類人工智能任務(wù)的某種結(jié)構(gòu)特點(diǎn)，在不需要大量標(biāo)注樣本，甚至不需要任何標(biāo)注樣本的前提下，就能夠?qū)W到有效的人工智能模型？

這個問題的提出并不是天方夜譚。我們注意到，類似機(jī)器翻譯這樣的人工智能任務(wù)，其實(shí)是一個雙向的交互任務(wù)，比如中英翻譯的反向任務(wù)是英中翻譯，語音識別的反向任務(wù)是語音合成。一旦我們有了雙向的交互就可以形成一個閉環(huán)的信息流，而這種閉環(huán)就可能使得我們不需要任何人為標(biāo)注，就能獲得驅(qū)動機(jī)器學(xué)習(xí)模型訓(xùn)練的信號，我們稱這個技術(shù)范式為對偶學(xué)習(xí)。我們開發(fā)了一系列對偶學(xué)習(xí)的技術(shù)，在機(jī)器翻譯、圖像識別、語音合成等多個領(lǐng)域達(dá)到了世界上當(dāng)時最好的效果，超越了人類專家的水平。

另外，在新冠疫情肆虐全球的時候，我們利用新型的機(jī)器學(xué)習(xí)技術(shù)，精確預(yù)測了病毒抗原到人類免疫細(xì)胞之間的映射關(guān)系?；谶@個核心技術(shù)，我們和合作伙伴一起完成了首個由 FDA 批準(zhǔn)的基于人類免疫細(xì)胞的早期新冠疾病的檢測系統(tǒng)，其安全性、準(zhǔn)確性、及時性與常用的核酸檢測和抗體檢測相比都有明顯的優(yōu)勢。

除了前面提到的幾種高質(zhì)量研究以外，如果你通過自己的不懈努力，顯著地超越了前人的工作，比如比前人工作的精度更高，比前人工作的速度更快，或者是在某些層面上比前人的工作具有了更深的洞察，那么恭喜你，你的研究也是一份質(zhì)量非常高的研究。

受時間所限，這里我就舉幾個速度顯著超越前人工作的例子供大家參考。過去這幾年里，坊間流傳著一種方法論，就是所謂的“大力出奇跡”。也就是使用大量的計(jì)算資源去訓(xùn)練一個非常大的模型，用以解決現(xiàn)實(shí)中人類可能只需要用非常小的努力就能解決的問題。這種“大力出奇跡”的范式，從某種意義上講，有它的科學(xué)價值。但是它的實(shí)用性是值得質(zhì)疑的，因?yàn)槲覀儾豢赡転榱朔g一句話，使用幾百美金、幾千美金的成本。

心懷對“大力出奇跡”的質(zhì)疑，我們微軟亞洲研究院的研究員們從事了一系列“四兩撥千斤”的研究，比如2015年我們的團(tuán)隊(duì)發(fā)明了 LightLDA，這是當(dāng)時世界上速度最快、效率最高的主題模型。所謂主題模型，就是從文本數(shù)據(jù)中自動分析主題的一種算法。我們通過一項(xiàng)新技術(shù)把每個文本符號的采樣復(fù)雜度降到了O(1)，也就是和想要學(xué)出的主題的數(shù)目無關(guān)。在 LightLDA 出現(xiàn)之前，全球最大規(guī)模的主題模型用了1萬個 CPU 核，挖掘出了大約10萬個主題。而我們的 LightLDA 只需要300多個 CPU 核就可以挖掘出一百萬個主題，并且可以處理的文本數(shù)據(jù)的大小也比前人的大一個數(shù)量級。之后，我們還陸續(xù)提出了 LightGBM，比之前最快的梯度提升決策樹的算法快了將近10倍，F(xiàn)astSpeech 比之前最快的神經(jīng)語音合成模型快了300倍，以及 FastBERT 比知名的預(yù)訓(xùn)練語言模型 BERT 快了大概10倍，而且所有這些模型的精度都幾乎沒有損失。

通過這些研究，我們把之前最好的算法的速度提高了一個到幾個數(shù)量級，幫助人們節(jié)省了大量的計(jì)算成本，從而大大提升了這些技術(shù)的實(shí)用價值。從這個意義上講，它們也是高質(zhì)量的研究。

如何能夠勇攀科研高峰？

剛剛我用了一些典型的例子給大家展示了什么是高質(zhì)量的研究，那么如何才能做出這樣的研究呢？今天我想跟大家分享一些科學(xué)研究的原則和思想。我覺得這些可能對于引導(dǎo)大家走上科研道路，真正有勇氣去攀登學(xué)術(shù)高峰，會很有幫助。

在去年諾貝爾獎官方平臺發(fā)布的一個視頻*中，幾位諾貝爾獎獲得者與年輕學(xué)者分享了幾個重要的做研究的原則，包括：Work Hard（努力），Learning by doing（邊做邊學(xué)），以及 do something you love（做你喜歡的事情）。（*感興趣的讀者，可點(diǎn)擊鏈接觀看：https://www.youtube.com/watch?v=9GIsSn_LUh0）除了這些以外，我還為大家總結(jié)了以下幾點(diǎn)。

第一、終身學(xué)習(xí)，是學(xué)者的宿命。回顧我自己20多年的研究歷程，從最初的信號處理、視頻內(nèi)容分析、網(wǎng)絡(luò)搜索、機(jī)器學(xué)習(xí)、算法博弈論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、金融、物流、生物、制****、智能科學(xué)，一路走來沒有停止過學(xué)習(xí)。在這個過程中，自己變得越來越博學(xué)、越來越豐富，對世界的影響也越來越大。所以我建議所有的同學(xué)們多學(xué)習(xí)、多了解，不要放棄學(xué)習(xí)的腳步。

第二、研究很苦，有很多的困難，具有好奇心、熱情甚至信仰，才是驅(qū)動我們、支撐我們在研究道路上不斷前行的動力。我給大家舉一個例子，我們研究組在過去的兩三年時間里，逐漸對計(jì)算生物學(xué)有了濃厚的興趣，并且投入了很多的精力和資源。在這些方面的探索與我們的好奇心密切相關(guān)，因?yàn)槲覀儼l(fā)現(xiàn)生物領(lǐng)域有趣且深奧。比如微生物菌群，大家可能想象不到，你體內(nèi)的微生物比你自己的細(xì)胞還多，我們從某種意義上講是被這些微生物控制的，我們愛吃什么、我們的生活習(xí)慣、我們的健康狀況，都與這些微生物息息相關(guān)。所以我們想要做到真正的精準(zhǔn)醫(yī)療，必須對這些微生物有深入的了解。另一個例子是表觀遺傳，我們每個細(xì)胞里的基因都是相同的，可是有些細(xì)胞最終發(fā)展成了我們的皮膚，有些發(fā)展成了我們的大腦，有些變成了內(nèi)臟。是誰對基因表達(dá)進(jìn)行了如此神奇的調(diào)控呢？正是基于對這些問題的好奇心，我們在三年前成立了計(jì)算生物學(xué)組，并且在這些方向上取得了非常令人鼓舞的成果。

第三、研究對創(chuàng)新有著非常高的要求，這件事情說起來容易，做起來卻很難。我發(fā)現(xiàn)很多同學(xué)特別愿意在自己的“小盒子”里面，如果你想要跳出這個小盒子，那么就必須要知道外面的世界是什么樣子的，這與我們前面提到的終身學(xué)習(xí)密切相關(guān)。當(dāng)你有了深入的研究，同時有了寬闊的視野時，你通常會做出可以讓別人非常驚訝的研究成果。

第四、質(zhì)重于量，精益求精。因?yàn)槲覀兠總€人的時間和精力是非常有限的，要學(xué)會合理分配。我們可以用同樣的時間做100項(xiàng)不同的研究，每一項(xiàng)都淺嘗輒止；也可以集中盡力做一件事，非常深入，取得世界矚目的成績。

最后，我想要鼓勵大家不怕失敗。人不可能不犯錯，不可能沒有失敗，只要我們能夠從失敗中學(xué)習(xí)，其實(shí)失敗會給你提供更多的經(jīng)驗(yàn)，讓你能夠把事情做得更好。

科學(xué)研究是很神圣的，但是科學(xué)研究的道路并不是高不可攀的。我們只要有正確的動機(jī)，有效的方法論，完全可以在科研道路上不斷地創(chuàng)造成功，不斷做出自己的貢獻(xiàn)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

高通濾波器相關(guān)文章:高通濾波器原理

博客專欄

對話 | 洪小文與陸堅(jiān)共探AI與未來生活的美好愿景

相關(guān)推薦

技術(shù)專區(qū)