博客專(zhuān)欄

EEPW首頁(yè) > 博客 > AI計(jì)算平臺(tái)設(shè)計(jì)方案:901-基于3U VPX的圖像數(shù)據(jù)AI計(jì)算平臺(tái)

AI計(jì)算平臺(tái)設(shè)計(jì)方案:901-基于3U VPX的圖像數(shù)據(jù)AI計(jì)算平臺(tái)

發(fā)布人:Hexiaoyan91 時(shí)間:2024-04-07 來(lái)源:工程師 發(fā)布文章

一、產(chǎn)品概述

      設(shè)備基于3U VPX的導(dǎo)冷結(jié)構(gòu),集成FPGA接口預(yù)處理卡,GPU板卡、飛騰ARM處理卡,實(shí)現(xiàn)光纖、差分電口或者Camera link的圖像接入,F(xiàn)PGA信號(hào)預(yù)處理,GPU AI計(jì)算,飛騰ARM的采集管理存儲(chǔ)。

二、系統(tǒng)組成

      系統(tǒng)組成包括:3U VPX機(jī)箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計(jì)算主板、1塊3U VPX飛騰處理器計(jì)算板。901-02[1].jpg

2.1基于XC7V690T的3U VPX信號(hào)處理板(274)274-01[1].jpg

  本板卡系我司自主研發(fā)的基于3U VPX導(dǎo)冷架構(gòu)的信號(hào)處理板,適用于高速圖像處理等。芯片采用工業(yè)級(jí)設(shè)計(jì)。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個(gè)HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機(jī)械設(shè)計(jì)依據(jù)VPX標(biāo)準(zhǔn)(VITA 46.0),支持導(dǎo)冷,能夠滿足用戶(hù)在特殊環(huán)境下的使用需求。

274-02[1].jpg

板卡功能

參數(shù)內(nèi)容

主處理器

Xilinx XC7V690T-2FFG1761I

板卡標(biāo)準(zhǔn)

VPX VITA 46.0

電氣規(guī)范

PCIe 2.0,3.0 X4

FMC接口

FMC  ANSI/VITA 57.1 – 2008 ,ASP-134486-01
     HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口

板載緩存

兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT

加載Flash

BPI加載模式,BPI Flash 2Gb

VPX接口

P1: GTX x16, 支持PCIe、SRIO協(xié)議
P2: LVDS x24,一路RS422,一路1000Base-T

仿真器接口

1x 6Pin JTAG接口,間距2.54mm

LED

兩個(gè),電源狀態(tài)指示燈,F(xiàn)PGA狀態(tài)指示燈(可編程)

復(fù)位方式

外復(fù)位

板卡尺寸

100mm x 160mm x20mm

板卡重量

(含散熱片)

板卡供電

+12V@4A

板卡功耗

48W

工作溫度

Industrial  -20℃到+70℃ 

光纖收發(fā)子卡、2711子卡、Cameralink子卡

901-03[1].jpg 

2.2 基于3U VPX的AGX Orin GPU計(jì)算主板(735)   、


901-15[1].jpg

    Jetson AGX Orin 采用 NVIDIA Ampere 架構(gòu) GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學(xué)習(xí)和視覺(jué)加速器。高速 IO、204GB/s 的內(nèi)存帶寬以及 32GB 的 DRAM 能夠饋送多個(gè)并發(fā) AI 應(yīng)用程序管道。采用 Jetson AGX Orin,您現(xiàn)在可以部署更大型、更復(fù)雜的模型,解決自然語(yǔ)言理解、3D 感知和多傳感器融合等問(wèn)題。Jetson Orin算力高達(dá)275 TOPS,是上一代多個(gè)并發(fā) AI推理管道性能的8倍,加上支持多個(gè)傳感器高速接口,可為新時(shí)代機(jī)器人提供理想的解決方案.

735-02[1].gif

GPU

2048-core NVIDIA Ampere architecture GPU with
     64 Tensor Cores

CPU

12-core Arm Cortex-A78AE v8.2 64-bit CPU
     3MB L2 + 6MB L3

顯存

64GB 256-bit LPDDR5   204.8GB/s

存儲(chǔ)

64GB eMMC 5.1

DLA最大頻率

1.6 GHz

AI性能

275 TOPS

DL加速器

2x NVDLA v2

視頻加速器

1x PVA v2

視頻編碼

2x 4K60 (H.265), 4x 4K30 (H.265)  
     8x 1080p60 (H.265), 16x 1080p30 (H.265)

視頻解碼

1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265)
     11x 1080p60 (H.265),22x 1080p30 (H.265)

PCle

x8 PCle Gen4

顯示接口

HDMI

網(wǎng)絡(luò)

RJ45 接口 (高達(dá)1 GbE) 

2.3 3U VPX飛騰處理器刀片計(jì)算機(jī)

825-01[1].jpg

2.3.1 產(chǎn)品概述 

     該產(chǎn)品是一款基于國(guó)產(chǎn)飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計(jì)算機(jī)。產(chǎn)品提供了4個(gè)x4 PCIe 3.0總線接口,同時(shí)可配置為1個(gè)x16或2個(gè)x8 PCIe3.0接口,因此具有很強(qiáng)的擴(kuò)展性,極大地滿足多負(fù)載多節(jié)點(diǎn)的應(yīng)用需求。產(chǎn)品結(jié)構(gòu)完全符合VITA 46.0規(guī)范,有很強(qiáng)的可靠性、可維護(hù)性、可管理性,并與軍用計(jì)算機(jī)的抗振動(dòng)、抗沖擊、抗寬溫環(huán)境急劇變化等惡劣環(huán)境特性進(jìn)行完美融合。

2.3.2 功能指標(biāo) 

 ● 3U 5HP VPX規(guī)格。 

 ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 

    FT-2000/4標(biāo)準(zhǔn)版,2.6GHz,16W 

    騰銳D2000/8標(biāo)準(zhǔn)版,2.3GHz,25W 

 ● 板載16GB雙通道DDR4內(nèi)存,頻率2400MHz。 

 ● 支持2個(gè)VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 

 ● 支持4個(gè)x4 PCIe3.0接口,可配置成1個(gè)x16 PCIe 3.0或2個(gè)x8 PCIe 3.0。 

 ● 前面板支持1路10/100/1000Mbps網(wǎng)絡(luò)接口,后出2路10/100/1000Mbps網(wǎng)絡(luò)信號(hào),其中1路后出網(wǎng)口與前面板網(wǎng)口二選一切換。 

 ● 板載1個(gè)mSATA接口,支持SATA3.0;后出2路SATA3.0信號(hào),用于擴(kuò)展存儲(chǔ)。 

 ● 前面板支持2個(gè)USB3.0接口;后出2路USB3.0接口信號(hào)。 

 ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 

 ● 提供1路RS232后出CPU管理串口。 

 ● 前面板帶復(fù)位按鍵和LED指示燈。 

 ● 單板管理功能(可選功能)。 

 ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統(tǒng)。 

(本項(xiàng)目使用ubuntu操作系統(tǒng))

三、軟件開(kāi)發(fā)內(nèi)容

3.1光纖收發(fā)整體流程設(shè)計(jì)901-04[1].gif


2路Q(chēng)SFP+光纖接口,一路作為發(fā)送端口,一路作為接收端口,每路接口作為4個(gè)X1通道互不影響。
    接收端:數(shù)據(jù)流從光纖接收端進(jìn)來(lái),存到FPGA的DDR中,然后通過(guò)PCIE導(dǎo)入到GPU中。
    發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過(guò)PCIE寫(xiě)入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過(guò)光纖發(fā)送端口發(fā)送出去。
    GPU接收的數(shù)據(jù)通過(guò)千兆網(wǎng)發(fā)送到飛騰主板中。


3.2 TLK2711收發(fā)整體流程設(shè)計(jì)

901-05[1].gif


 4路TLK2711接口,2路作為發(fā)送端口,2路作為接收端口,每路接口互不影響。
    接收端:數(shù)據(jù)流從TLK2711接收端進(jìn)來(lái),存到FPGA的DDR中,然后通過(guò)PCIE導(dǎo)入到GPU中。
    發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過(guò)PCIE寫(xiě)入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過(guò)TLK2711發(fā)送端口發(fā)送出去。
    GPU接收的數(shù)據(jù)通過(guò)千兆網(wǎng)發(fā)送到飛騰主板中。
3.3 FPGA流程框架



901-06[1].gif

901-07[1].gif

    如圖所示,F(xiàn)PGA程序可以大體劃分為PCIe端點(diǎn)控制器XDMA、DDR3讀寫(xiě)控制以及TLK2711收發(fā)控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯(lián)方式。XDMA0數(shù)據(jù)鏈路為飛騰主板主控?cái)?shù)據(jù)鏈路,XDMA1數(shù)據(jù)鏈路為Orin_GPU卡主控?cái)?shù)據(jù)鏈路。
      Orin_GPU卡主控?cái)?shù)據(jù)鏈路:tlk2711子卡的接收端口接收到圖像數(shù)據(jù)緩存到第一組ddr3中,大小為4GB,對(duì)0-4GB的ddr3空間讀寫(xiě),gpu把圖像數(shù)據(jù)讀出并作處理。鏈路數(shù)據(jù)流向分為數(shù)據(jù)發(fā)送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱(chēng)為PC):
      數(shù)據(jù)接收過(guò)程描述(FPGA-PC):圖像數(shù)據(jù)以1.6Gbps線速率通過(guò)rxp接口,wr_fifo把16bit數(shù)據(jù)位寬轉(zhuǎn)化為128bit數(shù)據(jù)位寬,fdma_ctrl的寫(xiě)ddr3模塊把數(shù)據(jù)寫(xiě)入到0-4GB的地址空間,通過(guò)定義的寄存器信號(hào)告訴主機(jī)軟件取出對(duì)應(yīng)地址空間的數(shù)據(jù),通過(guò)dma的C2H通道直接寫(xiě)入主機(jī)內(nèi)存。
      飛騰主板主控?cái)?shù)據(jù)鏈路:飛騰主板把圖像處理結(jié)果寫(xiě)入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數(shù)據(jù)通過(guò)tlk2711子卡的發(fā)送端口發(fā)送出去。(這里飛騰主板和Orin_GPU卡都稱(chēng)為PC)。
      數(shù)據(jù)發(fā)送過(guò)程描述(PC-FPGA):為了實(shí)現(xiàn)數(shù)據(jù)發(fā)送,主機(jī)軟件從主機(jī)內(nèi)存固定位置讀出圖像處理數(shù)據(jù)發(fā)送到DMA的H2C通道,寫(xiě)入到板載第二組DDR3的0-4GB的空間,主機(jī)軟件通過(guò)寄存器通知fdma_ctrl的讀ddr3模塊取出對(duì)應(yīng)地址ddr3的數(shù)據(jù),通過(guò)rd_fifo把數(shù)據(jù)128bit位寬變化到16bit后,給到tlk2711子卡的發(fā)送模塊,最后數(shù)據(jù)以1.6Gbps的線速率通過(guò)txp口發(fā)送出去。
3.4 軟件PCIE讀流程


901-08[1].gif

  軟件啟動(dòng)開(kāi)始接收,軟件通過(guò)寄存器使能FPGA開(kāi)始接收數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件開(kāi)始輪詢(xún)FPGA寫(xiě)入完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說(shuō)明FPGA已經(jīng)寫(xiě)入數(shù)據(jù),軟件讀取DDR中數(shù)據(jù),完成一次讀取數(shù)據(jù)交互流程。
之后重復(fù)單次流程,直到數(shù)據(jù)接收完整。
3.5 軟件PCIE寫(xiě)流程

901-09[1].gif

     軟件啟動(dòng)開(kāi)始發(fā)送數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件把數(shù)據(jù)寫(xiě)入DDR中, 通過(guò)寄存器使能FPGA開(kāi)始發(fā)送,軟件開(kāi)始輪詢(xún)FPGA讀取完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說(shuō)明FPGA已經(jīng)把DDR的數(shù)據(jù)取走,這樣就完成一次寫(xiě)入數(shù)據(jù)交互流程。之后重復(fù)單次流程,直到數(shù)據(jù)發(fā)送完整。
3.6飛騰GPU數(shù)據(jù)交互

901-10[1].gif

在背板設(shè)計(jì)中,飛騰主板和GPU千兆網(wǎng)互聯(lián)和RS232互聯(lián)。考慮傳輸速度,使用千兆網(wǎng)進(jìn)行傳輸。使用TCP/IP協(xié)議,飛騰處理器為T(mén)CP服務(wù)端,GPU為T(mén)CP客戶(hù)端主動(dòng)進(jìn)行鏈接請(qǐng)求。

901-11[1].gif

3.7 客戶(hù)端界面

901-12[1].jpg

  客戶(hù)端具有狀態(tài)信息顯示,控制四通道光纖數(shù)據(jù)發(fā)送或者雙通道TLK2711接口數(shù)據(jù)發(fā)生功能。上位機(jī)自動(dòng)識(shí)別FPGA子卡類(lèi)型,切換操作界面。
      
四通道光纖子卡界面

901-13[1].jpg

雙通道TLK2711子卡界面

901-14[1].jpg

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。




技術(shù)專(zhuān)區(qū)

關(guān)閉