D1 芯片對標英偉達 A100。D1采用臺積電 7nm 制程,面積約為 645mm2,包含 500 億顆晶體管,BF16、CFP8 算力可達 362TFLOPS,F(xiàn)P32 算力可達 22.6TFLOPS。特斯拉D1芯片對標英偉達 A100,英偉達 A100 同樣采用臺積電 7nm 制程,面積為 826mm2,晶體管數(shù)量達 542 億顆,F(xiàn)P32 峰值算力為 19.5TFLOPS。
D1 芯片依次組成 Tranining tile、Tray、機柜、ExaPOD。特斯拉并未將 SoC 從晶圓上切下來,而是將所有 SoC 連接。25 個 D1 芯片組成了一個 Training Tile 多晶片模組(MCM),每個 D1 芯片功耗 400W,一個 Training Tile 功耗為 15kW。此外,6 個 Training Tile 組成一個 tray,再由兩個 Tray 組成一個機柜,10 個機柜組成 ExaPOD,BF16/CFP8 峰值算力達到 1.1EFLOPS(百億億次浮點運算),并擁有 1.3TB 高速 SRAM 和 13TB 高帶寬 DRAM。
Dojo 的設(shè)計思想是通過較高的對稱性來實現(xiàn) scale out 能力。在單個 Training tile 上,由于并未將芯片切下,為了提高效率和降低成本,特斯拉并未在片上集成 DRAM 等器件,這與許多通用 GPU 有所不同。集群節(jié)點之間以 2D mesh 連接,邊緣則通過 Interface-processors負責內(nèi)存池數(shù)據(jù)搬運。
顯而易見,D1 芯片需要高速的互聯(lián)來實現(xiàn),臺積電 SoW 封裝技術(shù)提供了這一條件。InFO_SoW 取消了襯底和 PCB 的使用,使得多個芯片陣列使解決方案獲得晶圓級優(yōu)勢,以獲得低延時、高帶寬等優(yōu)勢。此外除了異構(gòu)芯片集成外,其 wafer-field 處理能力還支持基于小芯片的設(shè)計,以實現(xiàn)更大的成本節(jié)約和設(shè)計靈活性。
在部分模型上,Dojo 能實現(xiàn)相對 A100 更高的性能。例如在圖像分類模型 ResNet-50 上,Dojo 可以實現(xiàn)比英偉達 A100 更高的幀率。而在用于預(yù)測汽車周圍物體所占空間的神經(jīng)網(wǎng)絡(luò)模型 Occupancy Networks 上,相比英偉達 A100,Dojo 能實現(xiàn)性能的倍增。
特斯拉將大力投資基礎(chǔ)設(shè)施,2024 年有望達 100Exa-Flops 算力。特斯拉目前 AI 基礎(chǔ)設(shè)施較少,僅約 4000 個 V100 和約 16000 個 A100。而 Microsoft 和 Meta 等公司擁有超過 10萬個 GPU。據(jù)特斯拉規(guī)劃,2024 年有望達 100Exa-Flops 算力。
特斯拉擁有海量數(shù)據(jù)庫,數(shù)據(jù)價值亟待挖掘。Model3 傳包含 8 個攝像頭,1 個毫米波雷達,12 個超聲波雷達,位置分別為:1-車牌的上方裝有一個攝像頭;2-超聲波傳感器(如果配備)位于前后保險杠中;3-各門柱均裝有一個攝像頭;4-后視鏡上方的擋風玻璃上裝有三個攝像頭;5-每塊前翼子板上裝有一個攝像頭;6-雷達(如果配備)安裝在前保險杠后面。特斯拉車型銷量形勢良好,通過傳感器件建立了龐大的數(shù)據(jù)庫,但受限于硬件限制,無法充分挖掘數(shù)據(jù)價值,Dojo 量產(chǎn)有望突破瓶頸。
自建 AI 基礎(chǔ)設(shè)施,AI 或賦能特斯拉快速成長。特斯拉 Dojo 性能強大,我們認為,除加速自身智駕進程外,或可拓展至其他應(yīng)用領(lǐng)域,如機器人等。此外,特斯拉也可能成為一家云服務(wù)提供商,向相關(guān)廠商提供自身算力或模型服務(wù)。
-
傳感器
+關(guān)注
關(guān)注
2552文章
51331瀏覽量
755478 -
AI
+關(guān)注
關(guān)注
87文章
31338瀏覽量
269749 -
毫米波雷達
+關(guān)注
關(guān)注
107文章
1052瀏覽量
64458
原文標題:Dojo對標A100性能強勁,AI應(yīng)用場景拓展
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論