如何在計(jì)算機(jī)視覺領(lǐng)域做開創(chuàng)性的前沿研究?
以下文章來源于微軟學(xué)術(shù)合作 ,作者微軟學(xué)術(shù)合作
全球人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級會議之一 CVPR 2022召開在即。為了促進(jìn)計(jì)算機(jī)視覺領(lǐng)域前沿研究的分享與交流,推動相關(guān)技術(shù)進(jìn)步與發(fā)展,近年來微軟亞洲研究院每年都會舉辦CVPR論文分享會。今年的CVPR 2022 論文分享會于4月23日圓滿落幕。此次分享會由微軟智能信息處理西安交通大學(xué)實(shí)驗(yàn)室主辦,微軟亞洲研究院承辦,中國計(jì)算機(jī)學(xué)會計(jì)算機(jī)視覺專委會、中國圖象圖形學(xué)會視覺大數(shù)據(jù)專委會、中國計(jì)算機(jī)學(xué)會計(jì)算機(jī)女計(jì)算機(jī)工作者委員會、中國圖象圖形學(xué)會女科技工作者工作委員會協(xié)辦。
本次活動不僅匯聚了來自清華大學(xué)、復(fù)旦大學(xué)、北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、華中科技大學(xué)、西安交通大學(xué)、東南大學(xué)等高校的教授、研究員,還有來自微軟亞洲研究院、粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院等企業(yè)研究院的科研人員。20余位講者通過網(wǎng)絡(luò)結(jié)構(gòu)、自監(jiān)督+多模態(tài)預(yù)訓(xùn)練、多模態(tài)應(yīng)用、3D 視覺、圖像和視頻生成、檢測分割這六大主題,分享了他們在 CVPR 2022 上發(fā)表的最新成果。每個(gè)主題的論文分享后,今年的分享會還首次設(shè)置了主題討論環(huán)節(jié),講者們就該方向進(jìn)行了針對性的討論,探討整個(gè)計(jì)算機(jī)視覺領(lǐng)域的現(xiàn)狀與未來,同時(shí)也對觀眾的問題做出了解答。
此外,CVPR 2022 論文分享會還新增了中場主旨演講環(huán)節(jié),CVPR 2022 程序主席、便利蜂 CTO 和首席科學(xué)家華剛博士帶來了以“You and Your Research Career with Computer Vision”為題的精彩報(bào)告。幾位歷年視覺頂會最佳論文的斬獲者也一同共話“好論文是怎么煉成的”。
接下來,讓我們一起回顧一下 CVPR 2022 論文分享會的精彩內(nèi)容吧!
CVPR 2022主席傾情分享“如何讓自己與領(lǐng)域共舞”
華剛博士首先從自己領(lǐng)導(dǎo)便利蜂人工智能研究院的實(shí)際科研經(jīng)驗(yàn)出發(fā),從較高的視角探討了“計(jì)算機(jī)視覺的殺手級應(yīng)用是什么”。華剛博士總結(jié),“它可以數(shù)字化物理世界,從社會經(jīng)濟(jì)的層面可以給不同的工業(yè)、商業(yè)領(lǐng)域的信息化做出關(guān)鍵性的貢獻(xiàn)。從數(shù)字經(jīng)濟(jì)、數(shù)字生產(chǎn)力的角度來看,它也會對傳統(tǒng)工業(yè)行業(yè)的生產(chǎn)力提高發(fā)揮必不可少的關(guān)鍵作用。”
在回顧了過去20年的經(jīng)濟(jì)發(fā)展之后,華剛博士表示互聯(lián)網(wǎng)經(jīng)濟(jì)是最有活力并產(chǎn)生了巨大財(cái)富的一個(gè)領(lǐng)域,其背后的高生產(chǎn)效率,得益于其自身促成的數(shù)字化世界。在這個(gè)數(shù)字化的世界里,我們可以做各種各樣的數(shù)字決策,這些數(shù)字化決策最后會形成相應(yīng)的工作任務(wù)在物理世界得到執(zhí)行。未來數(shù)字生產(chǎn)力的重點(diǎn),是將多數(shù)傳統(tǒng)產(chǎn)業(yè)的線下生產(chǎn)、運(yùn)營的物理過程的信息數(shù)字化,形成數(shù)字化的映射,并在進(jìn)一步完成數(shù)字化決策后回到物理世界進(jìn)行相應(yīng)的工作任務(wù)執(zhí)行。在這個(gè)信息數(shù)字化的過程中,計(jì)算機(jī)視覺將發(fā)揮巨大且無可替代的作用。
華剛博士為 CVPR 2022 論文分享會作主旨演講
而后,華剛博士就在當(dāng)下這個(gè)計(jì)算機(jī)視覺的黃金時(shí)代里“如何探索自己的計(jì)算機(jī)視覺研究生涯”進(jìn)行了分享。他表示,對于一個(gè)人的科研生涯而言,第一位是做研究,在研究社群最好的會議和期刊上發(fā)表的論文,基本上就代表了你在研究社群中的地位。也就是說,你發(fā)表的論文是你在研究領(lǐng)域的形象表征;另一方面則是你對研究社群的服務(wù),例如當(dāng)審稿人等。科研生涯的評判標(biāo)準(zhǔn)是你對整個(gè)領(lǐng)域的影響力,即你給這個(gè)研究社群帶來了什么改變,包括知識層面和服務(wù)層面。而對于“科研生涯”和“職業(yè)生涯”的聯(lián)系,華剛博士認(rèn)為他們很大程度上是并行的,兩者可以互相幫助與促進(jìn)。
華剛博士接下來還討論了“工業(yè)界研究”與“學(xué)術(shù)界研究”的關(guān)系。他指出,兩者的主要區(qū)別在于經(jīng)費(fèi)的來源,在學(xué)術(shù)界,經(jīng)費(fèi)主要來自政府的稅收,而在工業(yè)界,研究的經(jīng)費(fèi)主要來自于公司的利潤。那么兩者之間的橋梁是什么?華剛博士提到,我們需要建立一條路徑,使研究可以產(chǎn)生一些商業(yè)上的影響。而對于“工業(yè)界是否也可以做基礎(chǔ)研究”,華剛博士的回答是肯定的,但他也強(qiáng)調(diào)需要建立一個(gè)“可以將基礎(chǔ)研究轉(zhuǎn)化為商業(yè)目標(biāo)”的架構(gòu)。做基礎(chǔ)研究并不意味著可以很長時(shí)間沒有結(jié)果,需要設(shè)置一些里程碑,在完成最終目標(biāo)地過程中持續(xù)產(chǎn)出階段性的研究成果,將研究項(xiàng)目持續(xù)地推進(jìn)到最終目標(biāo)。
最后,華剛博士分享了建立自己的主研究社群(Home research community)的重要性,并為廣大研究者提出了四點(diǎn)建議:
如果你在工業(yè)界做研究,一定要有持久性,它需要你工作之外的額外精力。
無論在公司還是在研究社群,要去理解這個(gè)系統(tǒng)是怎么運(yùn)作的,這樣會有助于你在系統(tǒng)內(nèi)達(dá)成自己的目標(biāo)。
如果在工業(yè)界,要思考如何產(chǎn)生商業(yè)的影響,你的研究需要設(shè)計(jì)一條可以產(chǎn)生實(shí)際工業(yè)影響的路線。
希望大家找到自己的主研究社群,也希望大家把計(jì)算機(jī)視覺當(dāng)作自己的主研究社群。
視覺頂會最佳論文得主探討“好論文是如何煉成的”
今年的圓桌論壇邀請到了五位歷年計(jì)算機(jī)視覺頂會最佳論文的斬獲者,以“好論文是怎么煉成的?”為主題,分享了他們對于“做好的論文”和“做好的研究”的理解。
巧合的是,這些歷年的“最佳論文”研究具有一定的傳承性。最佳論文的回顧從 ICCV 99的 3D 幾何研究開始,期間穿插討論了近兩年關(guān)于高維空間低秩表達(dá)的新書《High-Dimensional Data Analysis with Low-Dimensional Models》,書中所探討的稀疏低秩表達(dá)曾在10多年前推動了當(dāng)時(shí)視覺領(lǐng)域最火熱的方向,而此后 CVPR 12 的獲獎(jiǎng)工作,恰好是 3D 幾何和低秩表達(dá)的完美結(jié)合與總結(jié)。隨著深度學(xué)習(xí)時(shí)代的到來,許多經(jīng)典工作大量涌現(xiàn),其中就包括2015年的獲獎(jiǎng)工作 HED,該工作以及前序的 DSN 工作都在嘗試探索深度網(wǎng)絡(luò)的有效訓(xùn)練問題。而這一問題在2016年的 ResNet 中得到了幾乎完美的解決,CVPR 2017 的最佳論文 DenseNet 則是繼 ResNet 之后卷積網(wǎng)絡(luò)的又一突破。
CVPR 2022 論文分享會現(xiàn)場
幾位講者除了分享了自己關(guān)于“最佳論文”背后的故事外,還就“如何發(fā)現(xiàn)重要的研究問題,找到正確方向”、“一個(gè)新領(lǐng)域的開創(chuàng)和發(fā)展需要什么條件、準(zhǔn)備和時(shí)機(jī)”、“如何與同行交流,推廣自己的工作”、“如何做好開源”等問題進(jìn)行了廣泛和深刻的探討。
其中,屠卓文老師的工作經(jīng)常很超前,在分享自己“如何發(fā)現(xiàn)重要的研究問題,找到正確方向”經(jīng)驗(yàn)時(shí),他總結(jié):第一是要善于和導(dǎo)師學(xué)習(xí);第二是要手寫代碼,這會幫助自己對相關(guān)內(nèi)容有更強(qiáng)烈的印象;第三是自己的堅(jiān)持。這樣才會做出最具有代表性與原創(chuàng)性的論文。而馬毅老師則特別分享了自己的“盲人摸象”觀點(diǎn)——許多不同派別的研究,到最后我們會發(fā)現(xiàn)大家都只觸摸到了一頭大象的一部分。因此,想在自己的領(lǐng)域做出能夠青史留名的工作,必須要了解這個(gè)領(lǐng)域的發(fā)展歷史與思想演進(jìn)。同時(shí),也有許多研究到最后發(fā)現(xiàn)只是一個(gè)更復(fù)雜系統(tǒng)里的局部,是其它領(lǐng)域早已踩過的坑,因此我們不僅要了解自己的領(lǐng)域發(fā)生了什么,也要通過歷史關(guān)注其他領(lǐng)域的問題。針對如何做出真的開創(chuàng)性的工作,他提出:第一,設(shè)計(jì)一個(gè)遠(yuǎn)大的正確的目標(biāo)方向;第二,了解歷史,知道與這件事情相關(guān)的來龍去脈是什么;第三,深耕相關(guān)的領(lǐng)域,借深度學(xué)習(xí)的話就是做學(xué)問也要越深越好、越寬越好——越深就是要去了解歷史縱深,看到思想的傳承,越寬就是要去了解相關(guān)領(lǐng)域,由點(diǎn)及面你才能看到大象的整體,也會有自己更獨(dú)到的思想,而這可能是你一生中最有成就感的事情。
六大熱門主題,共話領(lǐng)域現(xiàn)狀與未來
在本次分享會上,20多位講者從六大主題進(jìn)行了論文分享和研討。這六大主題分別是:網(wǎng)絡(luò)結(jié)構(gòu)、自監(jiān)督+多模態(tài)預(yù)訓(xùn)練、多模態(tài)應(yīng)用、3D 視覺、圖像和視頻生成,以及檢測分割。它們也正是計(jì)算機(jī)視覺領(lǐng)域近年來最活躍的幾個(gè)方向。
在網(wǎng)絡(luò)結(jié)構(gòu)主題中,四位講者分別帶來了 ACMix、SwinV2、CSwin 以及 RepLKNet 的分享,其中兩篇論文關(guān)于視覺 Transformer,一篇關(guān)于卷積網(wǎng)絡(luò)的“第二次增長”,另一篇?jiǎng)t是 CNN 和 Transformer 的融合。值得一提的是,該主題的研討很有幸匯聚了三位視覺頂級會議的最佳論文獎(jiǎng)得主,他們在清華大學(xué)魯繼文教授的主持下,就“大模型和小模型在性質(zhì)上的區(qū)別”、“高校如何參與大模型的研究”等問題進(jìn)行了討論。
在自監(jiān)督+多模態(tài)預(yù)訓(xùn)練主題中,三位講者分別帶來了 SimMIM、BEVT 和 HD-VILLA 論文的分享,其中前兩篇論文聚焦最近火熱的掩碼圖像建模方法在圖像和視頻上的應(yīng)用,最后一篇論文則關(guān)注多模態(tài)預(yù)訓(xùn)練方面的進(jìn)展。隨后講者和嘉賓們針對“掩碼圖像建模(MIM)預(yù)訓(xùn)練能否像掩碼語言建模(MLM)那樣從大數(shù)據(jù)中獲益”等問題分享了自己的觀點(diǎn)。
在多模態(tài)應(yīng)用主題中,三位講者的工作主要涉及將語言和目標(biāo)對齊、語言和視頻對齊,以及語言和多模態(tài)知識對齊,完美地覆蓋了目前多模態(tài)領(lǐng)域的核心概念:對齊,三個(gè)工作也在各層面做了非常豐富的探索。在討論環(huán)節(jié),嘉賓們在中科院黃巖老師的主持下就“多模態(tài)未來將產(chǎn)生哪些值得期待的應(yīng)用場景”等問題進(jìn)行了分享和討論。
六大主題論文分享和研討
在 3D 視覺主題中,三位講者的論文分別關(guān)于動作捕捉,移動端三維重建,以及基于神經(jīng)輻射場的三維圖像生成。前兩篇論文是貼合實(shí)際應(yīng)用的研究,而后者則與最近幾年火熱的神經(jīng)輻射場相關(guān)。講者和嘉賓們在西安交通大學(xué)蘭旭光老師的主持下針對“3D 視覺的殺手級應(yīng)用是什么”以及“NerF 的現(xiàn)狀與未來”等問題進(jìn)行了討論,并各自分享了自己的觀點(diǎn)。
在圖像和視頻生成主題中,三位講者分別分享了降噪擴(kuò)散模型方面的最新成果 VQ-Diffusion,以及基于 Transformer 的圖像修復(fù)和超分辨率方法。其中降噪擴(kuò)散模型(DDPM)已有取代 GAN 成為圖像生成的未來趨勢,而 Transformer 則繼續(xù)在底層視覺問題中攻城掠地。隨后講者和嘉賓們還針對“現(xiàn)在圖像生成有哪些成功或者潛在的應(yīng)用”,“擴(kuò)散模型的未來”等問題進(jìn)行了討論。
最后一個(gè)主題是檢測分割,這也是一個(gè)廣受關(guān)注的領(lǐng)域,分享的四個(gè)工作其中之二涉及 Transformer 結(jié)構(gòu)特別是其****在檢測分割領(lǐng)域的應(yīng)用,而另外兩個(gè)則是基于傳統(tǒng)檢測分割頭部網(wǎng)絡(luò)的工作。其中,來自粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院的張磊老師克服美國深夜三點(diǎn)的時(shí)差,堅(jiān)持現(xiàn)場演講。他分享的 DN-DETR 是這個(gè)方向的一個(gè)重要工作,也是他最近在 COCO 物體檢測中取得新紀(jì)錄的 DINO 方法的重要前序工作。華中科技大學(xué)王興剛老師則分享了他們團(tuán)隊(duì)將掩碼圖像建模應(yīng)用于 ViT 檢測的最新工作,這也與第二個(gè)主題中備受矚目的掩碼圖像建模模型相呼應(yīng)。最后在主題討論環(huán)節(jié),活動邀請到了中科院張兆翔老師加入討論,5位講者和嘉賓們針對“在檢測分割這樣的下游任務(wù)中,網(wǎng)絡(luò)結(jié)構(gòu)是否會被 Transformer 一統(tǒng)天下,還是仍然會保持目前一個(gè)相對百花齊放的局面”等問題進(jìn)行了精彩討論和觀點(diǎn)分享。
CVPR 2022 分享會聚焦了近期計(jì)算機(jī)視覺的核心方向與重要研究,為與會者們帶來了深度與廣度并存的分享,而講者們也通過彼此的思想交鋒獲得了研究認(rèn)知的刷新。歡迎大家持續(xù)關(guān)注,我們將于近期精選 CVPR 2022 的一些精彩工作,為大家?guī)斫榻B!
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。