看DeepSeek-v3的感受是, 算法和Infra的非常緊密結(jié)合. 其實(shí)很多大模型團(tuán)隊(duì)的算法和Infra是非常割裂的, 完全同時(shí)懂算法和Infra的人并不多, DeepSeek這個(gè)團(tuán)隊(duì)就是其中之一, DeepSeek團(tuán)隊(duì)中應(yīng)該有不少OI競(jìng)賽獲獎(jiǎng)選手, 其實(shí)對(duì)于我們這些搞過OI的人, 對(duì)于計(jì)算上的優(yōu)化策略基本上都是手到擒來,很多時(shí)候把處理器的體系結(jié)構(gòu)也研究的很深, 所以同時(shí)做算法和Infra是非常自然的一件事情, 而如今很多算法崗的新人大多數(shù)人的代碼能力是非常有限的....
當(dāng)然渣B稍微再得瑟一下, 比DeepSeek他們還更懂更底層的芯片以及它們的互聯(lián), Maybe再多懂一點(diǎn)數(shù)學(xué)... 昨天還跟一朋友講了一個(gè)冷玩笑, FP8訓(xùn)練這些Quantization不就是Quant變?cè)?"za"tion)么,^o^.
1. 算力不再應(yīng)當(dāng)只是約束,而是一個(gè)可以聯(lián)合優(yōu)化的變量
其實(shí)很多年前, 阿里媽媽團(tuán)隊(duì)就在推薦系統(tǒng)引入深度學(xué)習(xí)時(shí)做過大量的算法和算力Infra協(xié)同的工作, 非常認(rèn)同周國睿老師的一句話:“算力不再應(yīng)當(dāng)只是約束,而是一個(gè)可以聯(lián)合優(yōu)化的變量”
今年年初還把這一系列的算法和算力的協(xié)同發(fā)展整理了一下, 可以參考
《談?wù)?a href="http://wenjunhu.com/tags/ai/" target="_blank">AI落地容易的業(yè)務(wù)-搜廣推》
其實(shí)再來說說量化交易這一塊, 它和搜廣推很類似的也是需要在一個(gè)時(shí)間約束下做到算力和算法的平衡, 對(duì)于很多高頻交易策略其實(shí)就更難了, 涉及到一系列硬件上和算法算力的協(xié)同了, 有些時(shí)候還可以犧牲穩(wěn)定性為代價(jià), 舉個(gè)例子有些高頻交易的團(tuán)隊(duì)還在用家用CPU超頻的方式來獲得更快的運(yùn)算速度, 另一個(gè)例子在很多網(wǎng)卡上連一個(gè)寄存器都要省....
對(duì)于DeepSeek/幻方有了這樣的主營業(yè)務(wù)做大模型時(shí),整個(gè)團(tuán)隊(duì)的火力自然是滿滿的...當(dāng)然渣B這樣的參與了國內(nèi)幾乎所有交易所的交易網(wǎng)絡(luò)設(shè)計(jì)有合規(guī)問題和自身的職業(yè)操守就沒有去趟高頻這塊...
另一方面渣B對(duì)現(xiàn)在的大模型Transformer架構(gòu)還是有更多的不認(rèn)同, 它一定不是通往AGI的終態(tài), 因?yàn)檫@樣的依賴極大算力的ScalingLaw的算法本質(zhì)上應(yīng)該是一個(gè)錯(cuò)誤, 所以渣B更多的時(shí)間是在底層優(yōu)化算力和頂層算法背后的數(shù)學(xué)原理上花了更多的精力.
在底層算力方面, 主要是GPU微架構(gòu)的分析和Tensor運(yùn)算相關(guān)的工作以及AI加速器高速互聯(lián)等
《GPU架構(gòu)演化史》
《Tensor運(yùn)算》
《AI加速器互聯(lián)》
在數(shù)學(xué)方面(嗯,學(xué)習(xí)J神“數(shù)學(xué)方面”), 渣B一直有一個(gè)暴論:這一次人工智能革命的數(shù)學(xué)基礎(chǔ)是:范疇論/代數(shù)拓?fù)?代數(shù)幾何這些二十世紀(jì)的數(shù)學(xué)第一登上商用計(jì)算的舞臺(tái)。, 因此一直也在做一些專題的研究
《大模型的數(shù)學(xué)基礎(chǔ)》
最近看到一些論文, 例如TOPOS的視角來看待多模態(tài)大模型, 還有一些Grothendieck圖神經(jīng)網(wǎng)絡(luò)一類的東西, 似乎看到一些光了,但是這些東西是這個(gè)世界上為數(shù)不多英雄主義的存在, 一張紙一支筆的浪漫.
當(dāng)然很多人懷疑這些代數(shù)上的東西以及GNN本身的一些稀疏計(jì)算的效率問題似乎跟AGI毫無關(guān)系. 但事實(shí)上它們可能是人腦里最精彩的存在. 昨天也到MTP時(shí)有一個(gè)觀點(diǎn):
MTP讓我想到了Zen5的2-Ahead Branch Predictor 非常有趣的工作, 其實(shí)對(duì)于o3這樣的模型, 本質(zhì)上是token as an intruction.
原來GPT是一個(gè)順序執(zhí)行結(jié)果predic next token 類似于 pc++, 然后在棧上(historical tokens as stack)操作. 順序預(yù)測(cè)下一個(gè)token
o1/o3 Large Reasoning Model 無論是MoE或者是強(qiáng)化學(xué)習(xí)一類的PRM, 實(shí)質(zhì)上是在Token Predict上做了Divergence, 例如跳轉(zhuǎn)/循環(huán)/回溯 等, PRM可以看作是一個(gè)CPU分支預(yù)測(cè)器. 從體系架構(gòu)上漸漸的可以讓大模型做到類似于圖靈完備的處理能力.
基于這個(gè)觀點(diǎn), 那么當(dāng)前的GPU的TensorCore/Cuda Core實(shí)際上就構(gòu)成了一個(gè)執(zhí)行引擎, 外面還需要一系列控制, 分支預(yù)測(cè), 譯碼器, LSU來配合, 對(duì)于基礎(chǔ)設(shè)施帶來的演進(jìn)還是有很多有趣的話題可以去探索的
另外一個(gè)暴論:當(dāng)前的Transformer模型本身作為一種生成Token的數(shù)據(jù)路徑, 而Grothendieck圖神經(jīng)網(wǎng)絡(luò)一類的東西和相關(guān)的代數(shù)結(jié)構(gòu)本身作為模型的控制路徑, 這是跑通LRM的一條路
2. 硬件和體系架構(gòu)的演進(jìn)
DeepSeek-v3的實(shí)現(xiàn)也非常優(yōu)雅, 例如考慮H800被閹割的影響, 訓(xùn)練沒有采用TP并行. 然后針對(duì)MoE的AlltoAll做了極致的優(yōu)化, 例如PXN和IBGDA等, 還有warp specialization以及dualpipe等.
相反我們看看Meta那群人, AlltoAll去年的OCP還在叫喚著Call for Action, 然后Llama3的MoE聽李沐講了一個(gè)八卦他們訓(xùn)練失敗了...也難怪要多花10倍的錢...
回到DS團(tuán)隊(duì)提到的一些未來硬件的需求, 例如當(dāng)前H800的132個(gè)SM中被分配了20個(gè)SM用于通信, 需要通信協(xié)處理器,以及為了減少應(yīng)用程序編程的復(fù)雜性,希望這種硬件能夠從計(jì)算單元的角度統(tǒng)一ScaleOut和ScaleUp網(wǎng)絡(luò)。通過這種統(tǒng)一接口, 計(jì)算單元可以通過提交基于簡(jiǎn)單原語的通信請(qǐng)求.
其實(shí)這些東西渣B幾年前就全部講清楚并做了一系列POC. 在2018年的時(shí)候, 看到Transformer出來以及模型開始越來越大通信成為瓶頸時(shí), 渣B當(dāng)時(shí)在Cisco就在做AI Infra相關(guān)的預(yù)研, 第一個(gè)把深度學(xué)習(xí)模型引入到Cisco路由器中做一系列Performance Assurance和Security Assurance相關(guān)的業(yè)務(wù).
然后2020年的時(shí)候和第四范式的一些研討后, 然后設(shè)計(jì)和實(shí)現(xiàn)了NetDAM. 到如今你會(huì)發(fā)現(xiàn)Tesla TTPoE也是在做同樣的事情.
《NetDAM專題》
時(shí)至今日, 你會(huì)發(fā)現(xiàn)DeepSeek對(duì)未來硬件的演進(jìn), 都在這一套框架內(nèi)完全實(shí)現(xiàn).
首先, 它對(duì)GPU側(cè)是一個(gè)標(biāo)準(zhǔn)的內(nèi)存接口, 通過在NetDAM上的一片內(nèi)存, 基于內(nèi)存語義把ScaleOut(Inter-Host)和ScaleUP(Intra-host)的通信完全融合了. 然后DS提到的Read/Write/multicast/reduce這些也是NetDAM一開始就做的功能, 例如RoCE需要多次訪問GPU內(nèi)存并引入CPU控制流
而NetDAM直接進(jìn)行了卸載:
而對(duì)于DS后面提到的一系列量化和Scale相關(guān)的近內(nèi)存計(jì)算, 本質(zhì)上在NetDAM上是最好的附著點(diǎn). 例如很多人說Mellanox延遲低, NetDAM直接bypass PCIe延遲輕松秒殺
但是這個(gè)世界并不是完美的, 因?yàn)槿丝倸w是有屁股的. 例如思科當(dāng)時(shí)的重心全部放在了Silicon One上, Intel守著自己的UPI在CXL上扣扣搜搜的, 而同樣Nvidia在B200這一代雖然把IB和NVSwitch融合在一起做交換芯片, 但最終在未來還是分開了...
而如今呢?當(dāng)一切的事情越來越清晰的時(shí)候, 或許這些廠商們會(huì)明白這個(gè)問題了...
-
芯片
+關(guān)注
關(guān)注
456文章
50907瀏覽量
424432 -
算法
+關(guān)注
關(guān)注
23文章
4615瀏覽量
93005 -
大模型
+關(guān)注
關(guān)注
2文章
2477瀏覽量
2828
原文標(biāo)題:談?wù)凞eepSeek-v3提到的基礎(chǔ)設(shè)施演進(jìn)
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論