干貨匯總:一文讀懂計算機視覺,干貨滿滿記得收藏
前言
計算機視覺(Computer Vision),通常簡稱CV,是一個通過技術幫助計算機“看到”并“看懂”圖像的研究領域,例如使計算機理解照片或視頻的內容。
這篇文章將對計算機視覺進行整體介紹。本文章共分為六個部分,分別是:
·計算機視覺為什么重要
·什么是計算機視覺
·計算機視覺的基本原理
·計算機視覺的典型任務
·計算機視覺在日常生活中的應用場景
·計算機視覺面臨的挑戰(zhàn)
2
計算機視覺為什么重要
在生理學上,視覺(Vision)的產(chǎn)生都始于視覺器官感受細胞的興奮,并于視覺神經(jīng)系統(tǒng)對收集到的信息進行加工之后形成。我們人類通過視覺來直觀地了解眼前事物的形體和狀態(tài),大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看視頻以及無數(shù)其他任務。事實上,如果不是盲人這類特殊群體,絕大多數(shù)人對外界信息的獲取都是通過視覺完成的,而這個占比高達80%以上——這個比例并不是沒有根據(jù)的,著名實驗心理學家赤瑞特拉(Treicher)曾通過大量的實驗證實:人類獲取的信息的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對于人類來說,視覺無疑是最重要的一種感覺。
不僅人類是“視覺動物”,對于大多數(shù)動物來說,視覺也都起到十分重要的作用。通過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種信息,通過這些信息能夠得知,周圍的世界是怎樣的,以及如何和世界交互。
而在計算機視覺出現(xiàn)之前,圖像對于計算機來說是黑盒的狀態(tài)。一張圖像對于計算機來說只是一個文件、一串數(shù)據(jù)。計算機并不知道圖片里的內容到底是什么,只知道這張圖片是什么尺寸,占多少內存大小,什么格式的等等。
如果計算機、人工智能想要在現(xiàn)實世界發(fā)揮重要作用,就必須看懂圖片!因此,半個世紀以來,計算機科學家一直在想辦法讓計算機也擁有視覺,從而產(chǎn)生了“計算機視覺”這個領域。
網(wǎng)絡的迅速發(fā)展也令計算機視覺變得尤為重要。下圖是2020年以來網(wǎng)絡上新增數(shù)據(jù)量的****圖。灰色圖形是結構化數(shù)據(jù),藍色圖形是非結構化數(shù)據(jù)(大部分都是圖片和視頻)??梢院苊黠@的發(fā)現(xiàn),圖片和視頻的數(shù)量正在以指數(shù)級的速度瘋狂增長。
互聯(lián)網(wǎng)由文本和圖像組成。搜索文本相對簡單,但為了搜索圖像,算法需要知道圖像包含的內容。在很長的一段時間內,人類沒有足夠的技術來理解圖像和視頻的內容,只能依靠人工標注來獲取圖像或視頻的描述。如何能讓計算機更好地理解這些圖像信息,便是當今計算機技術面臨的一大挑戰(zhàn)。為了充分利用圖像或視頻數(shù)據(jù),需要讓計算機“查看”圖像或視頻,并理解內容。
3
什么是計算機視覺
4
計算機視覺的基本原理
5
計算機視覺的典型任務
- 圖像分類
圖像分類是根據(jù)圖像的語義信息對不同類別圖像進行區(qū)分,是計算機視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務的基礎。例如下圖,通過圖像分類,計算機識別到圖像中有人(person)、樹(tree)、草地(grass)、天空(sky)。
圖像分類在許多領域都有著廣泛的應用,如:安防領域的人臉識別和智能視頻分析等,交通領域的交通場景識別,互聯(lián)網(wǎng)領域基于內容的圖像檢索和相冊自動歸類,醫(yī)學領域的圖像識別等。
- 目標檢測
目標檢測任務的目標是給定一張圖像或是一個視頻幀,讓計算機找出其中所有目標的位置,并給出每個目標的具體類別。如下圖,以識別和檢測人為例,用邊框標記圖像中所有人的位置。
而在多類別目標檢測中,一般使用不同顏色的邊框對檢測到的不同物體的位置進行標記,如下圖所示。
- 語義分割
語義分割是計算機視覺中的基本任務,在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別。它將整個圖像分成像素組,然后對像素組進行標記和分類。例如,我們可能需要區(qū)分圖像中屬于汽車的所有像素,并把這些像素涂成藍色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍色)標簽。 ·實例分割實例分割是目標檢測和語義分割的結合,在圖像中將目標檢測出來(目標檢測),然后對每個像素打上標簽(語義分割)。對比上圖、下圖可見,如以人為目標,語義分割不區(qū)分屬于相同類別的不同實例(所有人都標為紅色),實例分割區(qū)分同類的不同實例(使用不同顏色區(qū)分不同的人)。
·目標追蹤目標跟蹤是指對圖像序列中的運動目標進行檢測、提取、識別和跟蹤,獲得運動目標的運動參數(shù),進行處理與分析,實現(xiàn)對運動目標的行為理解,以完成更高一級的檢測任務。
6
計算機視覺在日常生活中的應用場景
計算機視覺的應用場景非常廣泛,下面列舉幾個生活中常見的應用場景。 · 門禁、支付寶上的人臉識別
· 停車場、收費站的車牌識別
· 上傳視頻到網(wǎng)站或APP時的風險識別
· 抖音等APP上的各種自拍道具(需要先識別出人臉的位置)
7
計算機視覺面臨的挑戰(zhàn)
8
結語
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)