干貨分享|NVIDIA GPU應用解決方案加速AI應用落地
前言:現今已是2023年了,科技在快速發(fā)展,特別是數字智能時代的到來,AI作為核心驅動力量為醫(yī)療行業(yè)、汽車行業(yè)以及AI等行業(yè)帶來了巨大轉變。
本文引用地址:http://butianyuan.cn/article/202302/442943.htm如在醫(yī)療行業(yè),應用認知計算技術AI能為人們的健康保駕護航,將人工智能應用到醫(yī)院平臺,能從各種渠道分析訪問者的健康狀況并提供保健相關的洞察力,并與訪問者進行雙向互動。對于患者而言,AI可以幫助自己預知發(fā)病時間,并及時尋求有效的解決方案;
如在汽車行業(yè),可以利用AI技術進行自動駕駛,改變我們的出行方式,創(chuàng)造更安全、更高效的出行方式;
如在AI行業(yè),人工智能可以自主學習大量而深厚的專業(yè)知識,開發(fā)者能通過人工智能對這些大量非結構化數據進行訓練、推理和學習。
……
我們都知道支撐AI應用需要完善的基礎架構,但是在AI解決方案部署過程中,從底層算力平臺到上層資源管理軟件,整個基礎架構需要集成CPU、GPU、存儲、網絡等多種硬件基礎設施,其中GPU是部署過程中的關鍵,因為GPU加速計算是近年來集群建設的主流方案,可以提供卓越的應用程序性能,將應用程序計算密集部分的工作負載轉移到GPU,同時仍由CPU運行其余程序代碼,可顯著提高應用程序的運行速度,建設一個GPU高性能計算集群可以提供一個GPU加速的人工智能實驗平臺,促進企業(yè)人工智能、大數據、深度學習、機器學習等算法方面的研究和應用。
此外,還需要pytorch、Tensorflow等AI框架,AI框架是為了更輕松、高效地研究和應用深度學習,目前主流的深度學習框架都很好的支持GPU加速,框架可專門為深度神經網絡(DNN)訓練所需的計算提供支持高度優(yōu)化GPU的代碼NVIDIA的框架經過調優(yōu)和測試,可提供非常出色的GPU性能,借助這些框架,用戶可以通過簡單的命令行或Python等腳本語言接口訪問代碼。許多功能強大的DNN都可通過這些框架來訓練和部署,而無需編寫任何GPU或復雜的編譯代碼。再通過docker容器技術,調度器等軟件進行統(tǒng)一的計算資源與數據庫管理和調度,可從GPU加速帶來的訓練速度提高中受益。
如果將能成功跑起來的AI應用比做一輛車,那么算法就是發(fā)動機,大數據是油,提供動力,而GPU計算力就是車輪,只有三者相匹配、融為一體,才能跑得快、跑得遠。
工欲善其事必先利其器, 機房建設是部署AI應用的基礎,也是整個基礎架構中最底層的部分,合理的機房建設可以滿足未來計算資源的擴容,可以提高計算資源的利用率,節(jié)省空間與能耗,機房基礎設施涉及服務器機柜、KVM切換器、UPS不間斷電源、精密空調、防靜電地板,新風系統(tǒng)、隔音的處理等等,機房基礎建設要考慮未來算力資源的擴充,提前根據算力平臺的功耗考慮供電系統(tǒng),根據設備的數量考慮機房空間。
另外機房基礎建設分為傳統(tǒng)機房和模塊化機房,傳統(tǒng)機房一般采用工業(yè)空調對機房整體空間制冷的方式,或者是采用精密空調架空地板下送風方式制冷方式,模塊化機房與傳統(tǒng)機房最大的區(qū)別在于能夠最大限度的利用制冷功率為設備散熱。因為其采用封閉冷通道方式,冷氣與熱氣隔離,整體提高制冷效率;空調與IT機柜并排間隔擺放,采用空調水平送風直接對機柜吹冷風,滿足其散熱需求,為客戶節(jié)約大量運營成本。其次,模塊化機房能夠快速部署。因其出廠前完成機柜的預安裝,現場只需接通外部電源,固定機柜等簡單操作即可使用,思騰合力包頭云計算中心即采用模塊化機房,位于包頭市稀土高新區(qū),總面積2400平米,地板承重800KG/㎡,抗震烈度等級8級,電力方面稀土變+沼潭變,雙市電保障,發(fā)電機冗余,滿負荷下可運行12小時,并與加油站簽署供油合同,UPS采用采用2N冗余UPS供電,滿載后備120分鐘,空調方面采用N+1列間精密空調,運營安全方面采用雙冗余華為6680防火墻,開啟IPS/IDS/防病毒功能,采用7x24小時不間斷全方位機房監(jiān)控,采用大數據動態(tài)感知系統(tǒng),實時分析預警。
在解決機房建設這個基礎問題后,硬件問題亦是重點。
要知道硬件資源層構成復雜,部署AI應用需要涉及算力、網絡、存儲等方面,標準的集群構建需要管理節(jié)點、計算節(jié)點、存儲節(jié)點和網絡節(jié)點、我們一般管理節(jié)點采用普通2U機架式服務器,顧名思義,它是承擔集群中管理的角色,計算節(jié)點即我們提供核心算力的部分,通常采用GPU服務器,為首的有NVIDIA A40 Tensor Core GPU。
NVIDIA A40是NVIDIA Ampere 架構GPU,速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,A40采用第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時運行光線追蹤和著色或降噪功能,從而大幅加快工作負載的運行速度,A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的訓練吞吐量達到上一代的 5 倍,而且無需更改代碼即可加速 AI 和數據科學模型的訓練。從硬件上支持結構稀疏度使推理吞吐量提升一倍;另外,A40具有超高速 GDDR6 顯存,單卡48GB,還可通過 NVLink 擴展到高達 96 GB,為數據科學家、工程師和創(chuàng)意專業(yè)人士提供所需的大容量顯存,讓他們能夠處理大型數據集以及數據科學和模擬等工作負載,PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍,因而提升了從 CPU 內存?zhèn)鬏敂祿乃俣?,能更好地支?AI、數據科學和 3D 設計等數據密集型任務,更快的 PCIe 性能還能加速 GPU 直接顯存訪問 (DMA) 傳輸,A40 向后兼容 PCI Express 第 3 代,這也提供了部署靈活性。
(圖 NVIDIA A40)
*與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有
思騰合力GPU服務器從2U2卡,2U4卡到4U4卡,4U8卡,4U10卡均有覆蓋,像IW4222-8GR這塊8卡GPU服務器,就是我們構建集群經常用到的一款服務器,它支持2顆第三代Intel? Xeon? Icelake系列可擴展處理器,TDP 270W,提供強大的X86處理平臺針對推理及訓練應用,帶寬翻倍的PCIe Gen4平臺上可支持8塊雙寬GPU卡,專為高密度GPU計算提供多方位的性能支持,支持高速網絡,存儲和其他IO擴展,8個U.2硬盤。為高端計算平臺提供高速傳輸和數據存儲能力。同時進一步優(yōu)化運維效率,擁有專業(yè)管理平臺能夠實現對市面主流的各類GPU實現識別,監(jiān)控,風扇調速支持,故障報警等功能;存儲節(jié)點即AI應用中存放數據的地方,AI應用對于數據量的需求非常龐大,而且對于讀寫性能、帶寬都要求很高,所以對存儲的容量、性能及安全性都有要求,存儲可以采用分布式存儲系統(tǒng),即數據分布到各個存儲節(jié)點上,并行讀寫,提供存儲性能,同時可以采用不同的冗余方式,比如雙副本、多副本、糾刪碼冗余技術等等,保證數據安全性,這塊我司具備4U24盤位、4U36盤位存儲服務器,也有自己的分布式存儲管理軟件,可提供集性能、容量、安全性與一體的分布式存儲系統(tǒng);網絡節(jié)點有3套:管理網絡、計算網絡和IPMI網絡,這里管理網絡一般采用千兆以太網,計算網絡一般采用萬兆光纖網絡或者IB網絡,IPMI網絡做遠程管理使用。
(圖 IW4222-8GR )
*與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有
NVIDIA A40 GPU 可使數據中心的性能和多工作負載能力獲得進化式飛躍。它集優(yōu)秀的專業(yè)圖形性能與強大的計算和 AI 加速能力于一體,可應對當今的設計、創(chuàng)意和科學挑戰(zhàn)。NVIDIA A40 能驅動新一代虛擬工作站和基于服務器的工作負載,并隨時隨地為專業(yè)人士提供光線追蹤渲染、模擬、虛擬制作等領域的先進功能。NVIDIA A40 對最新 vGPU 軟件的支持使復雜的圖形工作負載可以在虛擬環(huán)境中運行,且性能可與裸機媲美。
Citrix 產品管理副總裁 Calvin Hsu 表示:“Citrix Hypervisor8.2 和 Citrix Virtual Desktops 支持 NVIDIA 最新的 vGPU 軟件和 NVIDIA A40 ,盡管客戶需要處理的數據和工作負載不斷增加,我們依然可以繼續(xù)為其提供運行圖形密集型可視化應用程序的所需性能。 Citrix 和 NVIDIA 虛擬化技術的結合使用戶無論身在何處,都能夠訪問這些應用程序,并獲得與物理工作站相媲美的優(yōu)質體驗。”
紅帽產品管理總監(jiān) Steve Gordon 表示:“NVIDIA 最新一代 A40 GPU 和 NVIDIA vGPU 軟件的結合,以及紅帽企業(yè) Linux 和紅帽虛擬化的支持,能夠為用戶提供一個強大的平臺。無論在石油天然氣還是媒體娛樂行業(yè),都能滿足從 AI/ML 到可視化領域最嚴苛的工作負載。隨著組織轉型并越來越多地使用 Kubernetes 進行容器設計并作為其應用程序的關鍵構建模塊,我們認為紅帽可能是容器化和虛擬化工作負載的終點?!?/span>
上面介紹了很多關于硬件資源層的知識,筆者再分享下構建好集群硬件后,關于平臺軟件的部署的問題
我們在開篇講到部署AI應用需要pytorch、Tensorflow等AI框架,如果沒有平臺軟件統(tǒng)一管理,就需要使用者自己安裝應用環(huán)境,包括CUDA、AI框架、docker等,再進行環(huán)境的調試,在AI部署中,軟件環(huán)境調試非常耗費時間,并且不是所有使用者都熟悉各種軟件環(huán)境,此外,沒有軟件平臺做統(tǒng)一管理,會造成資源分配不均,容易產生計算資源的浪費,比如大多數高校發(fā)現GPU 計算資源被初學者占用,往往導致真正科研計算任務匱乏計算資源,基于 Docker 環(huán)境的計算管理環(huán)境常常發(fā)生計算資源搶占現象,讓管理者應接不暇各種投訴,這里思騰合力有自主開發(fā)的SCM人工智能云平臺軟件,集成了主流的AI框架,可實現計算資源池化,按需分配給一個或多個用戶使用。SCM云平臺可對 GPU 高性能計算資源進行統(tǒng)一的管理和調度,有效滿足用戶在深度學習等科研及教學方面的需求,用戶可以快速的在平臺上進行數據處理、算法設計、模型訓練、模型驗證、模型部署等工作,而不用關心底層復雜的集群構建與調度機制以及深度學習框架的安裝部署、性能調優(yōu)等問題,在充分簡化深度學習訓練方面工作的同時有效提高資源利用率。
其實分享到這里,我們的AI應用的全套裝備差不多就齊全了,下面以實際案例,讓我們在看看一個AI應用究竟是如何落地的。
案例1:國內某知名智能汽車設計及制造商AI駕駛基礎架構建設,定位于深圳,成立于2014年,是一家專注未來出行的科技公司。他們一直堅持飽和式研發(fā)投入,構建全棧自研的核心能力,如今已經成為中國領先的智能電動汽車公司之一。
背景:在研發(fā)的過程中,尤其是深度神經網絡建模及訓練,需要大量計算力,因為汽車自動駕駛是需要很多大量數據進行訓練,讓這個汽車能夠去進行圖象圖形的識別,然后應用在汽車當中,讓我們的汽車能夠智能化的去自動駕駛。
需求痛點:
1 模型和算法出現算力瓶頸,訓練出成熟的模型周期太長;
2 難分配:存在的所有資源都是以物理形式存在,沒有辦法很好的進行合理資源分配,導致算法研究存在一定問題。低效率:正在運行中的項目作業(yè)只能靠人為干預檢查是否正常運行,費時費力。不靈活:大量的算力資源無法通過軟件進行靈活調配,無法支撐算力需求極高的任務;
3 難定位:在多個線程的項目同時運行時,一旦有其中之一出錯,難以精準定位報錯任務。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,使用6節(jié)點思騰合力IW4213-4G,加速計算卡為NVIDIA A40,配合NVIDIA 深度學習SDK與NVIDIA DRIVE? 軟件堆棧進行問題的解決。
部署效果:
GPU作為底層平臺,很好的起到了加速應用的作用,幫助深度學習的研發(fā)人員更快的訓練出成熟的模型,其次,用戶可以根據需求選擇不同的平臺,深度學習研發(fā)人員需要在算法、統(tǒng)計方面精益求精,都需要一個生態(tài)環(huán)境的支持,GPU已經構建了CUDA、cuDNN及DIGITS等工具,支持硬件兼容,GPU高性能解決方案讓研發(fā)人員能夠排除意外干擾,專注于深度學習的研究項目中。
案例2:國內某知名醫(yī)院AI醫(yī)療算力平臺建設,醫(yī)院位于北京市昌平區(qū),由高校與北京市共建共管的大型綜合性公立醫(yī)院,建設和運營過程中得到了臺塑企業(yè)的無私捐助和援建。
背景:基于現代先進的醫(yī)療科研發(fā)展趨勢,醫(yī)院作為新型醫(yī)院,對于病例、病因的數據處理需求很大?;颊叩尼t(yī)療影像數據十分龐大,原有設備已無法滿足大量的數據推理,模型訓練,新型醫(yī)院需要對患者肺部的切片醫(yī)療影像進行病理匹配、判斷,減少醫(yī)療事故的發(fā)生。
需求痛點:
1 對于病例、病因的數據處理需求很大,很多數據沒有及時的建立相應的數據庫進行存放。
2 設備數量不足,無法滿足龐大的醫(yī)療影像數據進行數據訓練、數據推理與模型訓練等。
3 無法對未知的病部切片進行推理分析,無法在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,1節(jié)點IW2200-2G計算服務器,1節(jié)點IW4200-8G計算服務器,1節(jié)點IR2200推理服務器,1節(jié)點管理服務器,1節(jié)點存儲服務器,加速計算卡為NVIDIA A40,計算網絡采用萬兆光纖組網,軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。
部署效果:
AI與醫(yī)療的融合可以有效的解決資源不均衡的痛點,AI的強大在于可以通過大量的數據深度學習之后,能夠預測和看到人類肉眼看不到的東西,比如通過影像切片預測病變的發(fā)生。通過AI經過上千病例的訓練,能在影像中看到醫(yī)生肉眼看不到的疾病發(fā)展征象,從而給出醫(yī)生更精準的判斷提示,算力平臺的建設可加快AI模型的訓練與推理。
案例3:北京某知名AI科技公司智能視覺處理平臺建設,公司位于北京市海淀區(qū),是一家以圖像處理與智能視覺為核心的AI技術服務提供商。
背景:公司是以圖像處理與智能視覺為核心的AI技術服務提供商,聚焦活體采集、人臉識別、人形檢索等應用,以高性能圖像處理和視頻結構化技術為基礎,整合人、物識別與追跡以及場景感知,需要GPU集群加速數據處理過程。
需求痛點:
1.人臉識別、人臉比對云服務的算法訓練周期太長,影響客戶體驗的同時,丟失了部分商業(yè)市場。
2人形檢索與人物追跡、車牌識別等算法精確度不足,時長出現識別錯誤的信息。
3高性能圖像處理和視頻結構化技術在實際的應用場景中,對項目落地的要求太高,端到端的AI算法訓練難以開展。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統(tǒng)一部署,1節(jié)點思騰合力IR2200管理服務器,2節(jié)點思騰合力IW4200-8G計算服務器,1節(jié)點思騰合力IS4200-24存儲服務器,加速計算卡為NVIDIA A40,計算網絡采用56G Mellanox IB組網與千兆以太網管理,軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。
部署效果:
通過思騰合力搭建的GPU集群環(huán)境,配套云平臺軟件,可實現端到端的AI算法訓練,加速了人臉識別、人臉比對云服務、人形檢索與人物追跡、車牌識別等算法的落地。
NVIDIA GPU應用在實際的項目中需要多重因素協(xié)調配合,對于一些非計算機專業(yè)人員,基礎設施的開發(fā)、搭建、調試往往要耗費數月時間,期間透明性低,測試頻繁,效率低下,嚴重限制人工智能技術在行業(yè)中的應用,比如Tensorflow、Caffe 等眾多的計算框架以及 CNN、RNN 等復雜的網絡模型,即便是資深工程師也需要花費大量的時間成本學習和應用,主流計算框架采用 CPU+GPU 的異構計算平臺,其管理和調度融合了高性能計算、大數據和云計算等多領域技術,實現難度較大,諸如思騰合力這類解決方案提供者,可以幫助大家完成從基礎設施到云管理平臺的構建,通過其研發(fā)的SCM人工智能云平臺軟件,面向大規(guī)模異構計算基礎設施管理,解決上述問題。
這篇文章就暫時先到這里,希望各位開發(fā)者、技術負責人、業(yè)務管理者們能夠找到適合自身的解決方案,在AI企業(yè),醫(yī)療、金融、教育、汽車等行業(yè)中更好的使用NVIDIA GPU的應用,充分提升GPU資源利用效率,降低部署AI應用的總體擁有成本,提升AI研發(fā)創(chuàng)新效率!
評論