OpenVINO?工具包英特爾預(yù)訓(xùn)模型概述

作者：時間：2021-06-17 來源：英特爾

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　OpenVINO?工具包提供了一組預(yù)先訓(xùn)練好的模型，您可以將其用于學(xué)習(xí)和演示目的，或者用于開發(fā)深度學(xué)習(xí)軟件。

本文引用地址：http://www.butianyuan.cn/article/202106/426378.htm

　　GitHub上的回購中提供了最新版本。

　　可以通過Model Downloader下載模型(<OPENVINO_INSTALL_DIR&gt>/deployment_tools/open_model_zoo/tools/downloader).

　　提示:您還可以在OpenVINO?深度學(xué)習(xí)工作臺(DL工作臺)中下載和配置英特爾?預(yù)訓(xùn)練模型。DL Workbench是基于OpenVINO?構(gòu)建的平臺，提供基于web的圖形環(huán)境，使您能夠在各種Intel?架構(gòu)配置下優(yōu)化、微調(diào)、分析、可視化和比較深度學(xué)習(xí)模型的性能。在DL工作臺中，您可以使用大多數(shù)OpenVINO?工具箱組件。

　　從Docker開始進行一個簡單的安裝。

目標檢測模型

　　幾個檢測模型可以用來檢測一組最受歡迎的對象——例如，人臉、人、車輛。大多數(shù)網(wǎng)絡(luò)都基于固態(tài)硬盤，并提供合理的精度/性能權(quán)衡。檢測相同類型對象的網(wǎng)絡(luò)(例如，face-detection-adas-0001和face-detection-retail-0004)以較慢的性能為代價，提供更高精度/更廣泛適用性的選擇，因此您可以期望“更大”的網(wǎng)絡(luò)更好地檢測相同類型的對象。

目標識別模型

　　目標識別模型用于分類、回歸和字符識別。在各自的檢測器之后使用這些網(wǎng)絡(luò)(例如，人臉檢測之后的年齡/性別識別)。

再識別模型

　　精確跟蹤視頻中的對象是計算機視覺的一個常見應(yīng)用(例如，用于人數(shù)統(tǒng)計)。它通常被一系列事件復(fù)雜化，這些事件可以被描述為“相對長時間沒有物體”。例如，它可以由遮擋或幀外移動引起。在這種情況下，最好將對象識別為“以前見過”，而不管它在圖像中的當(dāng)前位置或自上次已知位置以來經(jīng)過的時間。

　　以下網(wǎng)絡(luò)可用于此類場景。他們拍攝一個人的圖像，并評估一個嵌入——在高維空間中表示這個人的外觀的向量。該向量可用于進一步評估:對應(yīng)于同一個人的圖像將具有“接近”L2度量(歐幾里德距離)的嵌入向量。

　　有多種模型可以在性能和準確性之間進行各種權(quán)衡(期望更大的模型性能更好)。

語義分割模型

　　語義分割是目標檢測問題的擴展。

　　語義分割模型不返回邊界框，而是返回輸入圖像的“繪制”版本，其中每個像素的“顏色”表示某個類別。

　　這些網(wǎng)絡(luò)比各自的目標檢測網(wǎng)絡(luò)大得多，但它們提供了更好的(像素級)目標定位，并且它們可以檢測形狀復(fù)雜的區(qū)域(例如，道路上的空閑空間)。

實例分割模型

　　實例分割是目標檢測和語義分割問題的延伸。與預(yù)測每個對象實例周圍的邊界框不同，實例分割模型為所有實例輸出像素級掩碼。

人體姿態(tài)估計模型

　　人體姿態(tài)估計任務(wù)是為輸入圖像或視頻中的每個人預(yù)測一個姿態(tài):由關(guān)鍵點和關(guān)鍵點之間的聯(lián)系組成的人體骨架。重點是身體關(guān)節(jié)，即耳朵，眼睛，鼻子，肩膀，膝蓋等。這種方法主要有兩類:自上而下和自下而上。首先檢測給定幀中的人、作物或重標檢測，然后運行每次檢測的姿態(tài)估計網(wǎng)絡(luò)。這些方法非常精確。第二種方法查找給定幀中的所有關(guān)鍵點，然后根據(jù)個人實例對它們進行分組，因此比前一種方法更快，因為網(wǎng)絡(luò)只運行一次。

圖像處理

　　深度學(xué)習(xí)模型在各種圖像處理任務(wù)中得到應(yīng)用，以提高輸出的質(zhì)量。

文本檢測

　　深度學(xué)習(xí)模型的文本檢測在各種應(yīng)用。

文本識別

　　深度學(xué)習(xí)模型在文本識別中的應(yīng)用。

文本定位

　　深度學(xué)習(xí)模型的文本定位(同時檢測和識別)。

動作識別模型

　　動作識別模型預(yù)測正在短視頻剪輯上執(zhí)行的動作(通過堆疊來自輸入視頻的采樣幀形成的張量)。一些模型(例如driver-action-recognition-adas-0002可以使用從單個剪輯片段預(yù)先計算的高級空間或時空特征(嵌入)，然后將它們聚合到一個時間模型中，以預(yù)測具有分類評分的向量。計算嵌入的模型稱為編碼器，而預(yù)測實際標簽的模型稱為解碼器。