英特爾居然也來搞GTA5美化MOD了……?
——
文|杜晨 編輯|Vicky Xiao 圖片來源 | Intel Labs 論文、視頻截圖
最近有玩家做了這么一張梗圖:PS2平臺有三款《俠盜獵車手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平臺……惡搞沒惡意,搞搞別生氣。這張梗圖能夠傳播,也是因為 GTA5 實在是電子游戲領(lǐng)域的常青樹:自從2013年在 PS3/Xbox360 平臺發(fā)布,包括單機和在線模式 DLC 的總銷量已經(jīng)突破1.4億份……
這邊開發(fā)公司R星遲遲不發(fā)新作,那邊電腦游戲平臺的CPU/顯卡硬件和顯示技術(shù)已經(jīng)更新了好幾代。因此,GTA5 美化 MOD 也成為了玩家熱衷的修改方向。從真實汽車模型,到更大范圍的地圖和視覺效果修改,多種多樣的 MOD 顯著增強了 GTA5 的生命力,讓這款已經(jīng)快要10歲的游戲仍能令玩家感到新意。開發(fā) MOD 的大多是國外大神,因為涉及到違反用戶協(xié)議的灰色地帶,MOD 開發(fā)工作通常是個人非營利性質(zhì)的。不過最近,我們非常詫異地發(fā)現(xiàn):竟然英特爾也在“官方”開發(fā) GTA5 美化 MOD!
↑ 可能略微有點標題黨……實際情況是:英特爾實驗室耗時多年研發(fā)了 EPE (Enhancing Photorealisim Enhancement),一項基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的合成圖像逼真性算法。它能夠逐幀優(yōu)化 GTA5 輸出的原始畫面,配合多種第三方街景數(shù)據(jù)庫,生成不同風格的擬真游戲畫面。最近英特爾實驗室 (Intel Labs) 發(fā)布了一篇論文,介紹了他們在深度學(xué)習(xí)圖像逼真度提升方面的最新進展。而他們的實驗過程,采用的就是 GTA5 的圖像。英特爾的研究員設(shè)計了一套多模塊的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),對 GTA5 和第三方城市街景圖像庫的數(shù)據(jù)進行學(xué)習(xí)。玩家大神制作的 MOD,主要依靠事先調(diào)換圖形素材、更新渲染引擎、增加光追支持等;而英特爾的思路是:直接用未修改的游戲的原始視頻和數(shù)據(jù)輸出,輸入到深度學(xué)習(xí)系統(tǒng)里,實時演算出優(yōu)化后的圖像。論文作者 Vladlen Koltun 介紹這套系統(tǒng)的工作方式:它可以接入到游戲上,你可以把它理解為 GTA5 的圖像后處理系統(tǒng)。論文作者之一的 Koltun,是英特爾智慧系統(tǒng)部門的首席科學(xué)家。他在歐洲圖形學(xué)大會 Eurographics 2021 上透露,EPE 算法在英特爾實驗室費時兩年時間研發(fā),效果此前從未在外部公開過。“(EPE)屬于那種需要長時間投入,幾個月內(nèi)都不會產(chǎn)出結(jié)果,研究時長以年為單位的那種研究,”Koltun 表示,“在(圖像合成逼真性)的問題上,想要做出一點能拿得出手的結(jié)果并不難,找?guī)讖埿Ч玫恼掌诺秸撐睦锞屯炅?;但要發(fā)明一種真的能用的方案 (something that really, really works),是非常艱難的?!?br />接下來讓我們深入了解一下,英特爾實驗室的這套 “GTA5 美化 MOD”的具體工作方式。
老“游戲”,新“玩法”
GTA5 已經(jīng)是一款快10年的老游戲了,但無論是在單機還是在線模式中,玩家總能發(fā)明出各種有趣或稀奇古怪的新玩法……同樣,畫面美化 MOD 也是一個伴隨 GTA5 存在了很多年的領(lǐng)域了,“民間”的技術(shù)方向也就那么幾種。而這次,英特爾實驗室用了新“玩法”,在畫面逼真性上實現(xiàn)了前所未有的突破。EPE 算法的訓(xùn)練原理如下圖:簡單來說,EPE 整合了三個獨立的神經(jīng)網(wǎng)絡(luò),處理三種不同的數(shù)據(jù)源:GTA5 自帶渲染引擎輸出的 buffer 緩沖數(shù)據(jù),游戲直出畫面,以及第三方街景數(shù)據(jù)庫的圖像。1)GTA5 游戲自帶的渲染引擎,能夠輸出一組名為 G-buffer 的數(shù)據(jù),其中包括畫面中物體的種類、和玩家視角攝像頭之間的距離、表面材質(zhì)、光滑程度、反照率、光照數(shù)據(jù)等等。這些數(shù)據(jù),輸入到一套卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)流當中,提取出各類數(shù)據(jù)的遮罩圖,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò);然后經(jīng)過一系列專門設(shè)計的殘差模塊,輸出不同規(guī)模的張量特征數(shù)據(jù)。2)借助前一步的訓(xùn)練結(jié)果,訓(xùn)練一個圖像增強神經(jīng)網(wǎng)絡(luò),然后把游戲直出畫面,輸入這個神經(jīng)網(wǎng)絡(luò)里,得到增強后的圖像:3)真正的圖像翻譯工作發(fā)生在這一步:游戲直出畫面、增強圖像,和第三方街景數(shù)據(jù)庫的相似圖像,一起輸入到一個感知辨別器(神經(jīng)網(wǎng)絡(luò)),經(jīng)過一系列計算,生成感知特征圖、標簽圖,以及相關(guān)的插值等數(shù)據(jù),最終“翻譯”合成為一張圖。這一部分也采用了對抗模型的設(shè)計,經(jīng)過持續(xù)的訓(xùn)練,最終輸出的圖片能夠準確還原游戲直出畫面當中的物體構(gòu)成,并且完美轉(zhuǎn)移外部數(shù)據(jù)庫圖像的風格。比如,下圖為英特爾實驗室用 GTA5 和 Cityscapes 數(shù)據(jù)庫結(jié)合生成的畫面風格。由于 Cityscapes 的圖像數(shù)據(jù)大多來自于德國,具有獨特的畫面風格,所以你可以看出來,“美化”出來的結(jié)果似乎偏綠,有些陰冷;并且,由于德國植被更加茂盛,你可以看到 GTA5 里圣安地列斯(原型為洛杉磯)光禿、干燥、偏黃的山丘,渲染出了濃密的綠色植被。如果你對 EPE 的工作原理感興趣,可以看這個解說視頻:技術(shù)創(chuàng)新
根據(jù)硅星人的理解,這篇論文提出的圖像翻譯方法有幾個創(chuàng)新之處。正如前述,傳統(tǒng)的 GTA5 美化 MOD 的實現(xiàn)思路,都需要對游戲文件進行重度修改,有可能造成文件損壞,而且很難在多人在線模式下使用,以及也涉及違反游戲使用協(xié)議的灰色地帶。
而 EPE 的思路不同之處,在于它直接在游戲輸出畫面的基礎(chǔ)上進行美化,不涉及游戲文件修改,也就不違反使用協(xié)議。(當然前面也提到,在訓(xùn)練過程中它確實也需要”監(jiān)聽“游戲系統(tǒng)運行時渲染引擎輸出的數(shù)據(jù)。
當然,EPE 也不是第一個采用深度學(xué)習(xí)思路進行 GTA5 畫面優(yōu)化的技術(shù)。在此之前,UC Berkeley 和 Adobe 研究院共同開發(fā)的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大學(xué)、UCB、商湯共同開發(fā)的 TSIT (Two-Stream Image-to-image Translation) ——這兩個算法都是此前世界領(lǐng)先的圖像翻譯算法。但至少在 GTA5 上,這兩個算法都存在嚴重的圖像失真情況。比如,CUT 在渲染尺寸較小、和周遭環(huán)境相對獨立的物體(比如樹木、告示牌、行人等)時會出現(xiàn)重影,而且時序穩(wěn)定性不佳;而 TSIT 算法渲染的結(jié)果,會在畫面上部的天空區(qū)域中出現(xiàn)嚴重失真,增加一些不存在的植被,英特爾實驗室的科學(xué)家認為,這些算法失真的情況,可能是由訓(xùn)練時采用的第三方數(shù)據(jù)庫所導(dǎo)致的。比如攝像頭的角度太低導(dǎo)致遠景中的樹木占滿屏幕上部。如下圖所示,在 Cityscapes 數(shù)據(jù)庫的很多照片里,植被的區(qū)域很大,而通常 GTA5 畫面中的植被很小。 甚至在 Cityscapes 數(shù)據(jù)庫中,由于數(shù)據(jù)采集車上有一個奔馳車標,其它算法在渲染的時候也會誤以為這個車標也是道路特征的一部分:在訓(xùn)練 EPE 的時候,英特爾的團隊故意縮小了神經(jīng)網(wǎng)絡(luò)的視野范圍,讓它可以聚焦于畫面中特定的物體。EPE 在 GTA5 圖像逐幀美化的真實度、時序穩(wěn)定性等方面達到了目前最先進的水平,顯著優(yōu)于 CUT、TSIT 等基于深度學(xué)習(xí)的圖像到圖像翻譯算法:因為算法的設(shè)計,它還有一點“即插即用”的感覺,可以接入各種各樣的外部數(shù)據(jù)庫,實現(xiàn)不同風格的美化結(jié)果。比如 Mapillary Vistas,是一個來自全世界各地的街景圖像數(shù)據(jù)庫,風格更加多樣,色彩更鮮明。這種風格也可以通過 EPE 算法翻譯到 GTA5 的畫面里,效果更加接印象中圣安地列斯的樣子:下圖左邊為游戲直出畫面,右邊為采用 Mapillary Vistas 作為目標風格的美化結(jié)果,可以看出畫面色彩飽和度有很大提升;為了降低游戲渲染壓力而在遠景加入的迷霧,也得到了優(yōu)化。
網(wǎng)友評價:什么?這居然不是真的?
5月11日,英特爾實驗室把 EPE 的介紹視頻發(fā)到了 YouTube上。只用了半個月,這個視頻的觀看量已經(jīng)超過了270萬……大部分網(wǎng)友評價都是從非專業(yè)角度出發(fā)的,但都對團隊演示的渲染結(jié)果表示震驚……網(wǎng)友 Fat Tabby 留言:如果你給我看這個視頻并且跟我說是行車記錄儀拍出來的,我應(yīng)該會相信你。網(wǎng)友 G Luong 表示:這才是真正的圖像擬真。其它所有的畫面美化 MOD 其實只是增加反射,并且讓每一條路都變得很潮濕而已。
也有好幾位眼尖的玩家發(fā)現(xiàn),如果按照 Cityscapes 的風格進行美化,出來的畫面風格其實倒是跟 GTA4(設(shè)定在 Liberty City,以紐約為原型,風格較為陰暗)。網(wǎng)友 OK DOK 表示,怪不得當初 GTA4 出來的時候,人們都驚訝于一款游戲居然能如此”真實“。網(wǎng)友 Cosine 說的很對:沒有那么炫酷的反射,沒有過飽和的顏色和超高的亮度,才是最”真實“的游戲。說來有趣,英特爾跟 GTA5 已經(jīng)是老朋友了——當然,指的不是游戲,而是研究層面。早在2016年,英特爾實驗室和德國達姆施塔特工業(yè)大學(xué)就在嘗試用 GTA5 做自動駕駛方面的研究。當時自動駕駛已經(jīng)成為新的技術(shù)趨勢,但出于現(xiàn)實成本等因素,不是所有人都能獲得大量真實道路的視覺數(shù)據(jù)用于研究。所以英特爾和該大學(xué)組建了團隊,試圖從 GTA5 等游戲中提取接近于真實道路情況的數(shù)據(jù),幫助自動駕駛技術(shù)訓(xùn)練。他們當時還發(fā)布了一篇論文 Playing for Data: Ground Truth from Computer Games——當年的那個團隊里,就有今天這篇 EPE 論文里的 Vladlen Koltun。所以今天我們可以說,這位英特爾智能系統(tǒng)部門的首席科學(xué)家,也是 GTA5 美化 MOD 領(lǐng)域的大神了!
你們說,Koltun 會不會也跟大家一樣,焦急等待著R星發(fā)布 GTA6 呢?當然,如果 GTA6 也能用上類似的深度學(xué)習(xí)圖像擬真技術(shù)的話,硅星人還是愿意再等一等的……——轉(zhuǎn)念一想,你們覺得 GTA6 還不發(fā)布,會不會真的是因為R星用了某種超級前沿的技術(shù),目前的主機性能——即使是 PS5——都還無法實現(xiàn)?
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。