研究人員分享如何利用 AI 技術(shù)解決水下圖片模糊和著色問題

作者：靈火K 時(shí)間：2019-12-31 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：生成式對(duì)抗網(wǎng)絡(luò)應(yīng)用廣泛。

你是否注意到，當(dāng)拍攝水下照片的時(shí)候圖像會(huì)出現(xiàn)比以往拍攝效果更嚴(yán)重的模糊并且失真的情況？這是因?yàn)楣馑p和反向散射等現(xiàn)象會(huì)對(duì)可見度產(chǎn)生不利影響。

本文引用地址：http://www.butianyuan.cn/article/201912/408807.htm

為了解決這個(gè)問題，中國(guó)哈爾濱工程大學(xué)的研究人員設(shè)計(jì)了一種機(jī)器學(xué)習(xí)算法，該算法可以生成逼真的水下圖像；另一種算法，則可以對(duì)這些圖像進(jìn)行深度訓(xùn)練，以達(dá)到恢復(fù)自然色彩并減少霧度的效果。他們說，這種方法在質(zhì)量和數(shù)量上都與最新技術(shù)相匹配，并且能夠在單個(gè)顯卡上以每秒 125 幀的速度進(jìn)行處理。

該團(tuán)隊(duì)指出，大多數(shù)水下圖像增強(qiáng)算法（例如那些調(diào)整白平衡的算法）都不是基于物理成像模型實(shí)現(xiàn)，這使其不適用于一些任務(wù)。相比之下，這種方法利用了生成式對(duì)抗網(wǎng)絡(luò)（ GAN ）（一種深度學(xué)習(xí)模型，模型通過框架中兩個(gè)模塊：生成模型和判別模型的互相博弈學(xué)習(xí)產(chǎn)生相當(dāng)好的輸出），以生成一組特定調(diào)查地點(diǎn)的圖像并在此基礎(chǔ)上引入第二種算法， U-Net 。

研究小組對(duì) GAN 進(jìn)行了一系列有標(biāo)記場(chǎng)景的訓(xùn)練，這些場(chǎng)景包括 3733 幅圖像和相應(yīng)的深度地圖，主要包括扇貝、海參、海膽和室內(nèi)海洋農(nóng)場(chǎng)內(nèi)的其他此類生物。他們還獲得了包括 NY Depth 在內(nèi)的公開數(shù)據(jù)集，其中包含了總共數(shù)千張水下照片。

訓(xùn)練后，研究人員將雙模型方法的結(jié)果與基線模型方法的結(jié)果進(jìn)行了比較。他們指出，前者技術(shù)的優(yōu)勢(shì)在于它在顏色恢復(fù)上是統(tǒng)一的，這使它能在很好恢復(fù)綠色色調(diào)圖像的同時(shí)，不破壞原始輸入圖像的底層結(jié)構(gòu)。通常情況下，這種方式在保持“適當(dāng)?shù)摹绷炼群蛯?duì)比度的同時(shí)，還能設(shè)法恢復(fù)顏色，而在這方面其他解決方案并不特別擅長(zhǎng)。

值得注意的是，這并不是第一個(gè)想到利用AI技術(shù)從損壞的圖片中重建畫面的研究團(tuán)隊(duì)。劍橋咨詢（ Cambridge Consultants ）公司的 AI 系統(tǒng) DeepRay 利用了一套訓(xùn)練有素的 GAN 來處理 10 萬(wàn)張靜止圖像的數(shù)據(jù)集，以消除不透明的玻璃窗格導(dǎo)致的失真。開源 DeOldify 項(xiàng)目使用了包括 GANs 在內(nèi)的一系列人工智能模型來對(duì)舊圖像和膠片進(jìn)行著色和恢復(fù)。

在其他方面，微軟亞洲研究院（ Microsoft Research Asia ）的科學(xué)家在 9 月份詳細(xì)介紹了一個(gè)用于自主視頻著色的端到端系統(tǒng)； NVIDIA 的研究人員去年描述了一個(gè)框架，該框架僅基于一個(gè)被注釋過得彩色視頻幀推斷顏色分類；今年 6 月，谷歌AI團(tuán)隊(duì)推出了一種無需人工監(jiān)督即可對(duì)灰度視頻進(jìn)行著色的算法。

venturebeat

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

原文章地址為研究人員分享如何利用 AI 技術(shù)解決水下圖片模糊和著色問題

新聞中心

研究人員分享如何利用 AI 技術(shù)解決水下圖片模糊和著色問題

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)