博客專欄

EEPW首頁 > 博客 > 特斯拉公布Dojo超算路線圖!披露全家福,首個ExaPOD明年見

特斯拉公布Dojo超算路線圖!披露全家福,首個ExaPOD明年見

發(fā)布人:芯東西 時間:2022-10-11 來源:工程師 發(fā)布文章
特斯拉超級計算機的愿景,是構建一個統(tǒng)一的加速器。

作者 |  ZeR0
編輯 |  漠影
芯東西10月1日消息,今日上午,在第二屆特斯拉AI Day上,特斯拉分享了其自研Dojo超級計算機系統(tǒng)的更多技術進展,并公布未來路線圖。

圖片

據(jù)介紹,特斯拉首款人形機器人“擎天柱”的大腦就將采用Dojo超級計算機系統(tǒng)。在去年的首屆特斯拉AI Day上,特斯拉展示了其首款AI訓練芯片Dojo D1,以及基于該芯片構建的完整Dojo集群ExaPOD,用于執(zhí)行AI訓練任務,為其上路車輛龐大的視頻處理需求提供支撐。當前特斯拉已經(jīng)擁有基于英偉達GPU的大型超算,以及一個存儲30PB視頻素材的數(shù)據(jù)中心。

圖片

特斯拉技術專家稱,特斯拉的車隊在日常行駛中積累了很多視頻片段,每個視頻有多幀圖像,需要14億幀才能訓練一個神經(jīng)網(wǎng)絡,需要使用10萬個GPU工時。而特斯拉自研的Dojo超算,能夠提升30%的網(wǎng)絡訓練速度。Dojo首席系統(tǒng)工程師Bill Chang說,特斯拉超級計算機的愿景是構建一個統(tǒng)一的加速器。

圖片

會上,Dojo團隊展示了通過Dojo實現(xiàn)Stable Diffusion在火星上運行Cybertruck的圖像。據(jù)介紹,只用4個Dojo機柜就能取代由4000個GPU組成的72個GPU機架。Dojo能將通常需要幾個月的工作減少到了1周。

圖片

自去年特斯拉AI Day至今,Dojo開發(fā)迎來了一系列里程碑,包括安裝第一個Dojo機柜、進行2.2mW負載測試等,現(xiàn)在特斯拉正以每天打造一個Tile的速度推進工作。特斯拉還宣布其第一個ExaPOD預計將在2023年第一季度完工,計劃在帕洛阿爾托總建造7臺ExaPOD。

圖片


01.快速試錯,看重熱膨脹系數(shù)


特斯拉一直試圖優(yōu)化Dojo設計的可擴展性,并以“快速試錯”的心態(tài)來克服挑戰(zhàn)。

圖片

Dojo加速器具有單個可擴展計算平面、全局尋址快速存儲器和統(tǒng)一的高帶寬+低延遲。

圖片

Bill Chang特別談到電壓調(diào)節(jié)模塊,它具有高性能、高密度(0.86A/mm2)、復雜集成性。

圖片

其電壓調(diào)節(jié)模塊在24個月內(nèi)更新了14個版本。熱膨脹系數(shù)(CTE)很重要,因此特斯拉與供應商合作提供電力解決方案。其CTE降低了50%以上,Dojo的性能是初始擴展的3倍。

圖片

在Bill Chang看來,解決每個級別的密度是實現(xiàn)系統(tǒng)性能的關鍵,所有系統(tǒng)組件必須集成到電源模塊中。其集成解決方案包括用軟終端電容器來減少振動等。

圖片

特斯拉還展示了一組過去兩年間從交付定制冷液分配單元(CDU)到安裝第一臺集成Dojo機柜、再到2.2MW機組負載測試的照片。

圖片


02.秀Dojo系統(tǒng)全家福,首個ExaPOD明年完工


下圖是Dojo超級計算機系統(tǒng),包括D1芯片、訓練Tile和ExaPOD集群。

圖片

D1采用臺積電7nm制程工藝,在645mm2的面積上塞了500億顆晶體管,BF16、CFP8算力可達362TFLOPS,F(xiàn)P32算力可達22.6TFLOPS,TDP(熱設計功耗)為400W。相比之下,同樣采用臺積電7nm制程工藝、TDP達400W的英偉達旗艦計算卡A100 GPU,面積為826mm2,晶體管數(shù)量達542億顆,F(xiàn)P32峰值算力為19.5TFLOPS。基于D1芯片,特斯拉推出晶圓上系統(tǒng)級方案,通過應用臺積電InFO_SoW封裝技術,將所有25顆D1裸片都集成到一個訓練Tile上,每個Dojo訓練Tile消耗15kW。特斯拉Dojo訓練Tile中有計算、I/O、功率和液冷模塊。

圖片

Dojo System Tray有高速連接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可達到54TFLOPS,功耗100+kW。

圖片

Dojo接口處理器是一個具有高帶寬內(nèi)存的PCIe卡,利用特斯拉自家TTP接口。

圖片

特斯拉傳輸協(xié)議TTP還可以橋接到標準以太網(wǎng),TTPOE可將標準以太網(wǎng)轉(zhuǎn)換至Z平面拓撲,擁有高Z平面拓撲連接性。

圖片

Dojo主機接口的介紹如下:

圖片

據(jù)介紹,在10機柜系統(tǒng)中,Dojo ExaPOD集群將突破E級算力。其BF16/CFP8峰值算力達到1.1EFLOPS(百億億次浮點運算),并擁有1.3TB高速SRAM和13TB高帶寬DRAM。

圖片


03.對打英偉達A100,顯著降本增效


接下來是Dojo ExaPOD的軟件棧。

圖片

其軟件性能由硬件性能、利用率和加速器占用率的綜合加成決定。其中利用率涉及編譯器,加速器占用率涉及Ingest Pipeline功能。

圖片

在軟件方面,整個系統(tǒng)可以被視為一個整體。

圖片

借助Dojo編譯器,用戶可將Dojo大型分布式系統(tǒng)視作一個加速器。

圖片

現(xiàn)場,特斯拉首席工程師Rajiv Kurian分享了在Dojo上運行Stable Diffusion,根據(jù)“火星上Cybertruck”的提示創(chuàng)建由AI生成的圖像。他打趣道,看起來它在匹配特斯拉設計團隊之前還有很長的路要走。

圖片

Dojo編譯器的歸一化Batch Norm結果如下,相比GPU有數(shù)量級的延遲優(yōu)勢。

圖片

同樣跑經(jīng)典圖像分類模型ResNet-50,Dojo可以實現(xiàn)比英偉達A100更高的幀率。

圖片

跑自動標注算法、預測汽車周圍所有物體空間占用率的神經(jīng)網(wǎng)絡模型Occupancy Networks時,相比英偉達A100,Dojo能實現(xiàn)性能的倍增。

圖片

結果,以前要用6個GPU Box的計算開銷,現(xiàn)在不到1個GPU Box就能搞定。

圖片

72個GPU機架才能跑完的自動標注算法,現(xiàn)在只要4臺Dojo Cabinet機柜就能做到。

圖片

圖片


04.結語:特斯拉不止是一家汽車制造商


此前在為特斯拉AI Day預熱時,馬斯克已經(jīng)發(fā)推文預告說此次活動的目的是為了招募人工智能和機器人領域的工程師,因此內(nèi)容會非常硬核。結果也如其所述,本屆AI Day儼然是特斯拉前沿技術能力的集中展示,從人形機器人的核心技術,到全自動駕駛(FSD)的各種先進算法,再到Dojo超算的軟硬件系統(tǒng),干貨相當豐富。從這些在人工智能、自動駕駛、機器人及計算硬件相關的技術布局,可以看到特斯拉在押注高精尖技術上的布局之深之廣,這也將是特斯拉吸引更多高端工程人才的絕佳金字招牌。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 特斯拉

相關推薦

技術專區(qū)

關閉