特斯拉公布Dojo超算路線圖！披露全家福，首個ExaPOD明年見

發(fā)布人：芯東西時間：2022-10-11 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

特斯拉超級計算機(jī)的愿景，是構(gòu)建一個統(tǒng)一的加速器。

作者 | ZeR0
編輯 | 漠影
芯東西10月1日消息，今日上午，在第二屆特斯拉AI Day上，特斯拉分享了其自研Dojo超級計算機(jī)系統(tǒng)的更多技術(shù)進(jìn)展，并公布未來路線圖。

據(jù)介紹，特斯拉首款人形機(jī)器人“擎天柱”的大腦就將采用Dojo超級計算機(jī)系統(tǒng)。在去年的首屆特斯拉AI Day上，特斯拉展示了其首款A(yù)I訓(xùn)練芯片Dojo D1，以及基于該芯片構(gòu)建的完整Dojo集群ExaPOD，用于執(zhí)行AI訓(xùn)練任務(wù)，為其上路車輛龐大的視頻處理需求提供支撐。當(dāng)前特斯拉已經(jīng)擁有基于英偉達(dá)GPU的大型超算，以及一個存儲30PB視頻素材的數(shù)據(jù)中心。

特斯拉技術(shù)專家稱，特斯拉的車隊在日常行駛中積累了很多視頻片段，每個視頻有多幀圖像，需要14億幀才能訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，需要使用10萬個GPU工時。而特斯拉自研的Dojo超算，能夠提升30%的網(wǎng)絡(luò)訓(xùn)練速度。Dojo首席系統(tǒng)工程師Bill Chang說，特斯拉超級計算機(jī)的愿景是構(gòu)建一個統(tǒng)一的加速器。

會上，Dojo團(tuán)隊展示了通過Dojo實現(xiàn)Stable Diffusion在火星上運行Cybertruck的圖像。據(jù)介紹，只用4個Dojo機(jī)柜就能取代由4000個GPU組成的72個GPU機(jī)架。Dojo能將通常需要幾個月的工作減少到了1周。

自去年特斯拉AI Day至今，Dojo開發(fā)迎來了一系列里程碑，包括安裝第一個Dojo機(jī)柜、進(jìn)行2.2mW負(fù)載測試等，現(xiàn)在特斯拉正以每天打造一個Tile的速度推進(jìn)工作。特斯拉還宣布其第一個ExaPOD預(yù)計將在2023年第一季度完工，計劃在帕洛阿爾托總建造7臺ExaPOD。

01.快速試錯，看重?zé)崤蛎浵禂?shù)

特斯拉一直試圖優(yōu)化Dojo設(shè)計的可擴(kuò)展性，并以“快速試錯”的心態(tài)來克服挑戰(zhàn)。

Dojo加速器具有單個可擴(kuò)展計算平面、全局尋址快速存儲器和統(tǒng)一的高帶寬+低延遲。

Bill Chang特別談到電壓調(diào)節(jié)模塊，它具有高性能、高密度（0.86A/mm2）、復(fù)雜集成性。

其電壓調(diào)節(jié)模塊在24個月內(nèi)更新了14個版本。熱膨脹系數(shù)（CTE）很重要，因此特斯拉與供應(yīng)商合作提供電力解決方案。其CTE降低了50%以上，Dojo的性能是初始擴(kuò)展的3倍。

在Bill Chang看來，解決每個級別的密度是實現(xiàn)系統(tǒng)性能的關(guān)鍵，所有系統(tǒng)組件必須集成到電源模塊中。其集成解決方案包括用軟終端電容器來減少振動等。

特斯拉還展示了一組過去兩年間從交付定制冷液分配單元（CDU）到安裝第一臺集成Dojo機(jī)柜、再到2.2MW機(jī)組負(fù)載測試的照片。

02.秀Dojo系統(tǒng)全家福，首個ExaPOD明年完工

下圖是Dojo超級計算機(jī)系統(tǒng)，包括D1芯片、訓(xùn)練Tile和ExaPOD集群。

D1采用臺積電7nm制程工藝，在645mm2的面積上塞了500億顆晶體管，BF16、CFP8算力可達(dá)362TFLOPS，F(xiàn)P32算力可達(dá)22.6TFLOPS，TDP（熱設(shè)計功耗）為400W。相比之下，同樣采用臺積電7nm制程工藝、TDP達(dá)400W的英偉達(dá)旗艦計算卡A100 GPU，面積為826mm2，晶體管數(shù)量達(dá)542億顆，F(xiàn)P32峰值算力為19.5TFLOPS。基于D1芯片，特斯拉推出晶圓上系統(tǒng)級方案，通過應(yīng)用臺積電InFO_SoW封裝技術(shù)，將所有25顆D1裸片都集成到一個訓(xùn)練Tile上，每個Dojo訓(xùn)練Tile消耗15kW。特斯拉Dojo訓(xùn)練Tile中有計算、I/O、功率和液冷模塊。

Dojo System Tray有高速連接、密集集成等特性，75mm高度能支持135kg。其BF16/CFP8峰值算力可達(dá)到54TFLOPS，功耗100+kW。

Dojo接口處理器是一個具有高帶寬內(nèi)存的PCIe卡，利用特斯拉自家TTP接口。

特斯拉傳輸協(xié)議TTP還可以橋接到標(biāo)準(zhǔn)以太網(wǎng)，TTPOE可將標(biāo)準(zhǔn)以太網(wǎng)轉(zhuǎn)換至Z平面拓?fù)?，擁有高Z平面拓?fù)溥B接性。

Dojo主機(jī)接口的介紹如下：

據(jù)介紹，在10機(jī)柜系統(tǒng)中，Dojo ExaPOD集群將突破E級算力。其BF16/CFP8峰值算力達(dá)到1.1EFLOPS（百億億次浮點運算），并擁有1.3TB高速SRAM和13TB高帶寬DRAM。

03.對打英偉達(dá)A100，顯著降本增效

接下來是Dojo ExaPOD的軟件棧。

其軟件性能由硬件性能、利用率和加速器占用率的綜合加成決定。其中利用率涉及編譯器，加速器占用率涉及Ingest Pipeline功能。

在軟件方面，整個系統(tǒng)可以被視為一個整體。

借助Dojo編譯器，用戶可將Dojo大型分布式系統(tǒng)視作一個加速器。

現(xiàn)場，特斯拉首席工程師Rajiv Kurian分享了在Dojo上運行Stable Diffusion，根據(jù)“火星上Cybertruck”的提示創(chuàng)建由AI生成的圖像。他打趣道，看起來它在匹配特斯拉設(shè)計團(tuán)隊之前還有很長的路要走。

Dojo編譯器的歸一化Batch Norm結(jié)果如下，相比GPU有數(shù)量級的延遲優(yōu)勢。

同樣跑經(jīng)典圖像分類模型ResNet-50，Dojo可以實現(xiàn)比英偉達(dá)A100更高的幀率。

跑自動標(biāo)注算法、預(yù)測汽車周圍所有物體空間占用率的神經(jīng)網(wǎng)絡(luò)模型Occupancy Networks時，相比英偉達(dá)A100，Dojo能實現(xiàn)性能的倍增。

結(jié)果，以前要用6個GPU Box的計算開銷，現(xiàn)在不到1個GPU Box就能搞定。

72個GPU機(jī)架才能跑完的自動標(biāo)注算法，現(xiàn)在只要4臺Dojo Cabinet機(jī)柜就能做到。

04.結(jié)語：特斯拉不止是一家汽車制造商

此前在為特斯拉AI Day預(yù)熱時，馬斯克已經(jīng)發(fā)推文預(yù)告說此次活動的目的是為了招募人工智能和機(jī)器人領(lǐng)域的工程師，因此內(nèi)容會非常硬核。結(jié)果也如其所述，本屆AI Day儼然是特斯拉前沿技術(shù)能力的集中展示，從人形機(jī)器人的核心技術(shù)，到全自動駕駛（FSD）的各種先進(jìn)算法，再到Dojo超算的軟硬件系統(tǒng)，干貨相當(dāng)豐富。從這些在人工智能、自動駕駛、機(jī)器人及計算硬件相關(guān)的技術(shù)布局，可以看到特斯拉在押注高精尖技術(shù)上的布局之深之廣，這也將是特斯拉吸引更多高端工程人才的絕佳金字招牌。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

特斯拉公布Dojo超算路線圖！披露全家福，首個ExaPOD明年見

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

特斯拉公布Dojo超算路線圖！披露全家福，首個ExaPOD明年見

相關(guān)推薦

技術(shù)專區(qū)

特斯拉公布Dojo超算路線圖！披露全家福，首個ExaPOD明年見