曠視張祥雨:從基礎(chǔ)科研的「大」和「統(tǒng)一」,看視覺(jué)AI研究新趨勢(shì)
在 MegTech 2022 上,曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨表示:“大”和 “統(tǒng)一” 是視覺(jué) AI 基礎(chǔ)研究的新趨勢(shì)。
基礎(chǔ)模型科研是 AI 創(chuàng)新突破的基石,每一代基礎(chǔ)模型的突破都極大程度地促進(jìn)了視覺(jué) AI 的發(fā)展。7 月 15 日,2022 曠視技術(shù)開放日(MegTech 2022)在京舉行,曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨在會(huì)上分享了他對(duì)基礎(chǔ)模型科研的深入思考及基礎(chǔ)模型組的最新科研成果。
張祥雨表示,「“大”和 “統(tǒng)一” 是當(dāng)今視覺(jué) AI 基礎(chǔ)研究的新趨勢(shì)。同時(shí),“在致力于解決人工智能最本質(zhì)難題的道路上,曠視將秉持原創(chuàng)、實(shí)用和本質(zhì)的科研價(jià)值觀,重點(diǎn)深耕通用圖像大模型、視頻理解大模型等四個(gè)主要方向?!?/span>
曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨在曠視技術(shù)開放日上發(fā)表演講
發(fā)揮 “大” 的威力,推進(jìn)大模型、大算法與大應(yīng)用協(xié)同發(fā)展
“大”主要指 AI 大模型,即利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達(dá)能力,使得 AI 模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場(chǎng)景。張祥雨指出,「“大”是提高 AI 系統(tǒng)性能的最重要捷徑之一。這主要是因?yàn)?,AI 視覺(jué)系統(tǒng)通常要面對(duì)復(fù)雜的應(yīng)用場(chǎng)景和多種任務(wù),提高模型性能的最直接途徑就是提高模型本身的表達(dá)能力,也就是所謂的“大”?!?/span>
但在做 “大” 的過(guò)程中,隨著模型參數(shù)量和數(shù)據(jù)量的增多,邊際效應(yīng)遞減情形卻時(shí)有發(fā)生。如張祥雨所言,“大并不一定代表著好,更大的模型會(huì)帶來(lái)更大的計(jì)算開銷,我們的收益將會(huì)非常有限?!?換言之,片面追求大參數(shù)量、大計(jì)算量和大數(shù)據(jù)量,并不一定能夠得到性能更強(qiáng)的模型。視覺(jué) AI 基礎(chǔ)研究不僅需往 “大” 的方向努力,更要讓 “大” 模型的優(yōu)勢(shì)能發(fā)揮出來(lái),這是當(dāng)今 AI 視覺(jué)研究主要的趨勢(shì)和挑戰(zhàn)之一。
AI 視覺(jué)研究面對(duì)著如何讓 “大” 模型優(yōu)勢(shì)發(fā)揮出來(lái)的挑戰(zhàn)
為此,曠視以創(chuàng)新算法充分發(fā)揮大數(shù)據(jù)、大算力威力,持續(xù)拓展 AI 認(rèn)知邊界,重新定義 “大” 的內(nèi)涵:即大模型、大算法與大應(yīng)用。
- 大模型。要研究的不僅是如何實(shí)現(xiàn)“大”,更重要的是如何發(fā)揮大模型背后的威力;
- 大算法。大模型需要大量基礎(chǔ)設(shè)施、算法、算力做支持,要成功地將這些大模型、大算法、大算力及大數(shù)據(jù)整合起來(lái),就要求研究者提出創(chuàng)新算法以充分發(fā)揮大模型的作用;
- 大應(yīng)用。大模型做出來(lái)以后,究竟能干什么?如何提高 AI 模型的生產(chǎn)效率?提高模型性能?
“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì),打造簡(jiǎn)單、強(qiáng)大、通用系統(tǒng)
近年來(lái),包括基礎(chǔ)模型研發(fā)、視覺(jué)基礎(chǔ)應(yīng)用、AI 算法演化等在內(nèi)的研究領(lǐng)域都衍生出一系列算法,而這些算法正在底層走向統(tǒng)一。例如,在基礎(chǔ)模型方面,過(guò)去有各種各樣的 CNN 和 ViT 被提出來(lái)。但近年的研究表明,通過(guò)特定的優(yōu)化算法能夠在訓(xùn)練過(guò)程中增加先驗(yàn),使得 CNN、ViT、MLP 都取得相似的性能,這就為“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì)奠定了基礎(chǔ)。
“統(tǒng)一”的好處是顯而易見的。如果能用統(tǒng)一算法、統(tǒng)一模型來(lái)表示和建模各種數(shù)據(jù)、各種任務(wù),研究界將可以得到簡(jiǎn)單、強(qiáng)大且通用的系統(tǒng)。張祥雨解釋稱,「一旦模型統(tǒng)一,AI 加速器的設(shè)計(jì)就會(huì)非常簡(jiǎn)單,一個(gè)模型可以適用于各種設(shè)備和各種任務(wù),這可以極大地節(jié)省模型適配成本,且硬件計(jì)算平臺(tái)廠商只用支持少量算子就能把大部分任務(wù)跑起來(lái)。」
但實(shí)現(xiàn) “統(tǒng)一” 的挑戰(zhàn)亦是顯著的。比如,要實(shí)現(xiàn)在多個(gè)任務(wù)上共享一個(gè)模型、一個(gè)算法,就必須加深對(duì)系統(tǒng)及模型的認(rèn)識(shí)以抽象出共性,才能使 “統(tǒng)一” 模型達(dá)到專為所有系統(tǒng)單獨(dú)設(shè)計(jì)的模型所具有的性能。
為此,曠視認(rèn)為“統(tǒng)一”AI 系統(tǒng)設(shè)計(jì)要從以下三方面著手:
- 要統(tǒng)一架構(gòu)。主要是指基礎(chǔ)模型架構(gòu),也包括基本的計(jì)算架構(gòu);
- 要統(tǒng)一算法。用盡可能統(tǒng)一的算法來(lái)支持各種任務(wù)、數(shù)據(jù)和平臺(tái),從紛繁的 AI 調(diào)參中解放出來(lái);
- 要統(tǒng)一認(rèn)知。唯有從算法中抽取共性,理解本質(zhì),才能構(gòu)建統(tǒng)一的、高性能的視覺(jué) AI 系統(tǒng)。
立足四大重點(diǎn)方向,曠視秉持原創(chuàng)、實(shí)用與本質(zhì)科研價(jià)值觀
基于 “大” 和“統(tǒng)一”是當(dāng)今視覺(jué) AI 基礎(chǔ)研究新趨勢(shì)的判斷,張祥雨在演講中指出,曠視基礎(chǔ)模型科研工作重點(diǎn)關(guān)注如下四個(gè)主要方向:
通用圖像大模型。在這項(xiàng)研究中,曠視主要著眼于構(gòu)建通用、統(tǒng)一、高性能的圖像視覺(jué)大模型,解決如何高效變 “大” 的問(wèn)題。如上所述,“大”不意味著好,故需要研究讓 “大” 真正服務(wù)于 “性能提升、孵化應(yīng)用” 的創(chuàng)新方法。
視頻理解大模型。基于此方向,曠視期望在視頻理解與視頻建模問(wèn)題上攻克困擾業(yè)界已久的長(zhǎng)序列建模問(wèn)題,并找到更高效的視頻模型訓(xùn)練、監(jiān)督和應(yīng)用方法。
計(jì)算攝影大模型。當(dāng)前,計(jì)算攝影常通過(guò)圖像退化模式進(jìn)行建模,實(shí)現(xiàn)高質(zhì)量圖像生成。這種建模思路不能使用、整合大數(shù)據(jù)的威力,也無(wú)法實(shí)現(xiàn)多模組、多設(shè)備、多數(shù)據(jù)之間的通用。因此,曠視希望找到計(jì)算攝影大模型研究的新范式,從大數(shù)據(jù)中找到充分的真實(shí)圖像先驗(yàn)信息,進(jìn)而指導(dǎo)我們生成更加高清、高質(zhì)量的圖像。
基礎(chǔ)模型科研需要堅(jiān)持長(zhǎng)期主義
自動(dòng)駕駛感知大模型。在這項(xiàng)研究中,曠視主要著眼于研究簡(jiǎn)單、高效、統(tǒng)一且易于使用的自動(dòng)駕駛模型的優(yōu)化、訓(xùn)練和部署方法。
演講尾聲,張祥雨再次闡釋了曠視基礎(chǔ)模型科研始終秉持的科研價(jià)值觀,“堅(jiān)持長(zhǎng)期主義,堅(jiān)持原創(chuàng)、實(shí)用和本質(zhì)的價(jià)值觀。”他認(rèn)為,只有立足原創(chuàng),才能突破現(xiàn)有技術(shù)的認(rèn)知邊界;只有做到實(shí)用,才能把科研成果真正轉(zhuǎn)化為產(chǎn)品,轉(zhuǎn)化為實(shí)際可以落地的價(jià)值;只有發(fā)現(xiàn)本質(zhì),才能從紛繁的表象中看到模型背后的創(chuàng)新點(diǎn),更好地實(shí)現(xiàn) “大” 且“統(tǒng)一”的基礎(chǔ)模型研發(fā)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。