Graphcore:英國的寒武紀(jì)為何觸礁?
2015年,兩名來自英國的創(chuàng)業(yè)者Simon Knowles和Nigel Toon正在為他們的人工智能(AI)芯片項目尋找資金。
負(fù)責(zé)技術(shù)的Simon Knowles于1980年代畢業(yè)于劍橋大學(xué),早期在英國政府研究實驗室研究神經(jīng)網(wǎng)絡(luò),創(chuàng)辦的第一家公司Element 14即成為90年代的獨(dú)角獸,并在2000年以6.4億美元的價格出售給博通。而Nigel Toon則是商業(yè)人才,在1990年代加入美國科技企業(yè)Altera,并在Altera擔(dān)任歐洲業(yè)務(wù)的副總裁與總經(jīng)理。
2002年,兩人合伙創(chuàng)辦了一家叫做Icera的3G modem(蜂窩調(diào)制解調(diào)器)芯片公司,并于2011年成功地以3.7億美元的價格賣給英偉達(dá)。從風(fēng)投角度來看,二人的履歷應(yīng)該是最受追捧的團(tuán)隊模板:背景光鮮,能力互補(bǔ),連續(xù)創(chuàng)業(yè),成功套現(xiàn)。
但尷尬的是,專用AI芯片賽道并不被主流VC認(rèn)可,兩人甚至一度找不到投資人開會。
這跟當(dāng)時人工智能賽道的熱鬧截然相反。2015年的ImageNet大賽,所有排名靠前的玩家都在使用GPU進(jìn)行圖像識別,距離AlexNet模型第一次利用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型奪冠已經(jīng)過去了三年,行業(yè)內(nèi)掀起AI熱潮。
但實際上,AI在當(dāng)時只是個業(yè)內(nèi)自嗨的小眾熱點(diǎn)。Simon和Nigel尋求融資時,一半的投資人問“什么是AI芯片?”另一半投資人認(rèn)可AI的前景,但對其上游的芯片設(shè)計卻不感冒,原因是“認(rèn)為英偉達(dá)的GPU可以覆蓋行業(yè)需求?!保?]
眼看新項目就要胎死腹中,殊不知AI芯片已經(jīng)走到了黎明時刻。
這一年,谷歌已秘密研發(fā)出一款專注于AI領(lǐng)域中機(jī)器學(xué)習(xí)算法的芯片,并將其用在內(nèi)部的云計算數(shù)據(jù)中心中,以取代英偉達(dá)的GPU。2016年5月,這款自研芯片公諸于世,就是大名鼎鼎的TPU。這名字一出來,內(nèi)行外行都看懂了:GPU并不是AI芯片的唯一選擇,新的處理器設(shè)計可能存在市場空間。
TPU的推出也給兩位創(chuàng)業(yè)者帶來了信心。一個月后,Knowles和Toon的AI芯片公司:Graphcore正式成立,由Nigel Toon擔(dān)任CEO,Simon Knowles擔(dān)任CTO。
Graphcore火速籌到的A輪3200萬美元,于2016年10月到位。在隨后的四年里,其融資進(jìn)程也是一路狂飆:2020年12月,E輪融資落地。Graphcore四年間共獲投7.1億美元,市值27.7億美元,一躍成為融資和估值最高的AI硬件初創(chuàng)公司,投資者包括三星、微軟、戴爾等科技巨頭,也包括紅杉資本、柏基投資(Baillie Gifford)等頂級風(fēng)投。
成功“上岸”的Simon Knowles自然是吃水不忘挖井人,特地給谷歌AI業(yè)務(wù)的負(fù)責(zé)人Jeff Dean寫了一封感謝郵件,內(nèi)容是[1]:“同志,謝謝你?。═hanks, mate.)”
如果站在今天的時間點(diǎn),Jeff Dean可能會回復(fù)一句:別高興的太早。
01. 產(chǎn)品:專為AI加速而生的芯片
Graphcore的核心產(chǎn)品叫做IPU(Intelligence Processing Unit)。
IPU誕生的背景是,隨著芯片制程的迭代,半導(dǎo)體行業(yè)的兩大定律:摩爾定律和登納德縮放比例定律(Dennard Scaling)在逐漸失效。
摩爾定律說的是:集成電路上可以容納的晶體管數(shù)目在大約每經(jīng)過18個月到24個月便會增加一倍。登納德縮放比例定律認(rèn)為隨著晶體管密度的增加,單個晶體管的功耗會下降,因此芯片的功耗需求會保持不變。
這兩條定律都曾在過去幾十年被行業(yè)視為金科玉律,GPU和CPU的發(fā)展都受益于此。但今天的情況是,芯片上晶體管很難再增加,而芯片的功耗需求也變得越來越高,芯片本身就越來越燙。
因此,就像香港的房屋一樣,在面積有限的情況下想要提高生活質(zhì)量,勢必要在布局結(jié)構(gòu)上大動干戈,市場上關(guān)于“架構(gòu)創(chuàng)新”的呼聲越來越大。專用計算芯片(ASIC)的需求應(yīng)運(yùn)而生,因為針對具體應(yīng)用場景的優(yōu)化,可以比通用計算帶來更高的能效比。
ASIC的特點(diǎn)是徹底犧牲通用性,換取在特定應(yīng)用上的極致效率。舉一個通俗的例子比喻:
GPU是能提供漢堡、披薩、包子、面條等所有食物類目的綜合餐廳,優(yōu)點(diǎn)是什么都會做,缺點(diǎn)特別出彩的產(chǎn)品,出餐效率也一般。而ASIC是專做披薩或漢堡的美食專門店,味道極好,出餐效率也特別高,缺點(diǎn)則是想轉(zhuǎn)型做其他產(chǎn)品,就沒那么容易了。
TPU就是典型的ASIC,它專為谷歌的超級業(yè)務(wù):云計算數(shù)據(jù)中心而生。事實上,谷歌自研TPU的原因之一,就是因為GPU會“燒”。
不過,和ASIC相比,IPU有更大的野心。
按照Nigel Toon的話來說,Graphcore不屬于CPU、GPU和ASIC中的任何一類,而是一款全新的,專為AI加速而生的處理器:既有極高的運(yùn)算能力以處理高性能計算業(yè)務(wù)(HPC),又和GPU一樣可編程,以滿足不同的場景需求。[3]
Graphcore的IPU主要有三個特點(diǎn):
圖片來源:Graphcore官網(wǎng)
1. 計算核心有多達(dá) 1400 多個處理器內(nèi)核,每個內(nèi)核可運(yùn)行 6 個線程。
內(nèi)核數(shù)量的意義在于體現(xiàn)芯片的計算能力,二者呈正相關(guān)。每個內(nèi)核里都有一個計算單元(ALU),業(yè)界有一個非常典型的比喻:CPU就是一名會高等數(shù)學(xué)的大學(xué)生,會解復(fù)雜題型,而GPU和IPU是成百上千個中學(xué)生,精通加減乘除。
在AI深度學(xué)習(xí)所需要的恰恰是大量簡單特定的運(yùn)算,也就是“加減乘除”。在這種情況下,成百上千個中學(xué)生加在一起的效率,比一個優(yōu)秀的大學(xué)生更高。
而IPU和GPU的核心區(qū)別在于,處理器核采用了不同的架構(gòu)。延續(xù)上文的比喻,兩支中學(xué)生團(tuán)隊使用不同的計算方法。
GPU使用的SIMD架構(gòu)通常用于處理器執(zhí)行大量計算的問題,這些計算需要處理器并行執(zhí)行相同命令,就像劃船比賽中,所有隊員做同樣的事,共同提高團(tuán)隊效率。
而 IPU使用的MIMD則將復(fù)雜算法分割為無關(guān)的、獨(dú)立的部分,每個部分分配給一個不同的處理器來并發(fā)處理的解決方案,好比足球比賽中,隊員們雖然有同樣的進(jìn)球目標(biāo),但是每個人承擔(dān)的職責(zé)不同。[4]
因此,IPU用到的MIMD架構(gòu)能夠處理更復(fù)雜的操作。
圖左:SIMD架構(gòu)的工作方式(GPU);圖右:MIMD架構(gòu)的工作方式(IPU)
2. IPU 采用處理器片內(nèi)分布式存儲架構(gòu),而 GPU 采用顯存或高寬帶顯存 HBM,是片外的大型存儲。
與 GPU 的存儲架構(gòu)中直接連接動態(tài)隨機(jī)存儲器(DRAM)相比,處理器的內(nèi)存由IPU的本地靜態(tài)隨機(jī)存儲器(SRAM)組成,每個內(nèi)核(tile)都執(zhí)行只在本地內(nèi)存上進(jìn)行的計算。[5]
這樣可以避免了頻繁訪問外部存儲資源,大幅度提升頻寬、降低延遲和功耗,在特定情境下甚至可能會有近 50 倍的增幅。[6]
圖片來源:Citadel Securities Technical Report
3. 在跨芯片多核通信調(diào)度設(shè)計上, Graphcore IPU 設(shè)計了 BSP(Bulk Synchronous Parallel)的軟硬件結(jié)合算法,讓芯片內(nèi) 1000 多個內(nèi)核,以及多芯片可以跨 IPU 連接。
而GPU 是以多核多線程呈現(xiàn),開發(fā)者需要處理不同線程之間的通信與數(shù)據(jù)同步問題。簡而言之,對軟件工程師或者開發(fā)者來說,采用BSP后的AI芯片非常易于編程。[8]
IPU的架構(gòu) 圖片來源:Graphcore官網(wǎng)
02. 定位:和英偉達(dá)的競爭和差異化
在技術(shù)負(fù)責(zé)人Simon Knowles眼里,與英偉達(dá)展開全面競爭,實在不算一件聰明的事。
在接受海外博客節(jié)目The Robot Brains Podcast的采訪時,他分享了自己的創(chuàng)業(yè)準(zhǔn)則:絕不試圖生產(chǎn)大公司現(xiàn)有產(chǎn)品的強(qiáng)化版。[9]——因為大公司有龐大的市場基礎(chǔ),初創(chuàng)企業(yè)在同一產(chǎn)品上很難與之抗衡。
Simon的觀點(diǎn)是:AI會存在于人類未來技術(shù)的任何領(lǐng)域,而所有行業(yè)的需求不可能由同一個架構(gòu)來支持。而對于Graphcore來說,IPU只需要在特定領(lǐng)域表現(xiàn)得比GPU好,在這個爆炸式增長的市場中分到一杯羹就足夠了。
正如上文所提及,由于MIMD架構(gòu)下的芯片能夠處理更復(fù)雜的操作,IPU對于目前在CPU和GPU上無法最佳運(yùn)行的高性能計算任務(wù)具有吸引力。其中有關(guān)“稀疏數(shù)據(jù)”的處理就是它最主要的應(yīng)用方向。
稀疏數(shù)據(jù)是指在數(shù)據(jù)集中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù),比如在電商平臺,相對海量商品而言,每個消費(fèi)者購買的只是小部分產(chǎn)品,所以單個消費(fèi)者的購買記錄就是一個稀疏數(shù)據(jù)。
在現(xiàn)實生活中,就常常要在海量的復(fù)雜信息中尋找指定關(guān)鍵信息,因此有關(guān)稀疏數(shù)據(jù)的計算非常普遍,而IPU能夠獨(dú)立和并行地執(zhí)行許多非常不同的計算,恰符合稀疏計算的特點(diǎn)。
其中,分子就是稀疏數(shù)據(jù)結(jié)構(gòu)最典型的應(yīng)用案例。分子排列不規(guī)律,行為復(fù)雜,而且很小。而IPU大規(guī)模并行結(jié)構(gòu)的特征,恰恰適合操作不規(guī)則的數(shù)據(jù)結(jié)構(gòu)。[9]
具體到行業(yè),IPU在化學(xué)材料和醫(yī)療領(lǐng)域都能得到應(yīng)用,還曾被證明可用于輔助研究冠狀病毒。
2020年5月,微軟機(jī)器學(xué)習(xí)科學(xué)家Sujeeth Bharadwaj就曾將Graphcore IPU內(nèi)置于微軟Azure操作系統(tǒng)中,并在胸部X光片中識別新冠[11]。他說:“Graphcore芯片可以在30分鐘內(nèi)完成在英偉達(dá)傳統(tǒng)芯片上需要5個小時才能完成的工作?!?/p>
在商業(yè)模式上,Graphcore不直接對外銷售芯片,而是將IPU內(nèi)置于叫“pods”的系統(tǒng)中,打包出售給下游的云計算和服務(wù)器廠商。
微軟作為Graphcore的投資人之一,在2019年第一款I(lǐng)PU產(chǎn)品發(fā)布時就已成為其最早使用的客戶。而另外一個大股東戴爾也鼎力支持,第一批用上了IPU。
除了自家投資人捧場,Graphore的主要客戶是歐洲的廠商。作為歐洲唯一的AI獨(dú)角獸,難免要打著“國貨之光”的招牌向歐洲鄉(xiāng)親拉票。
2018年The Wired采訪人工智能大師Geoff Hinton,Hinton幫Graphcore做了一次超級公關(guān),他對記者說:“我認(rèn)為我們需要轉(zhuǎn)向不同類型的計算機(jī)。幸運(yùn)的是,我這里有一個?!比缓笊焓诌M(jìn)入他的錢包,拿出一個又大又亮的芯片,這個芯片就是Graphcore的IPU。
2021年,Graphcore與法國超級計算機(jī)制造商Atos和超級計算機(jī)芯片設(shè)計公司SiPearl都展開了合作,還在英國愛丁堡大學(xué)的EPCC超級計算中心安裝了基于IPU的Bow Pod系統(tǒng)。[12]
2022年6月,Graphcore又與德國框架供應(yīng)商Aleph Alpha簽署協(xié)議,共同研究下一代多模態(tài)語言和視覺模型的預(yù)培訓(xùn)、微調(diào)和推斷。與德國合作后,歐盟還特地強(qiáng)調(diào),歐洲供應(yīng)商需要這樣一條供應(yīng)鏈,而不是依賴英偉達(dá)(Nvidia)等美國公司的人工智能[13]。
一個自主可控的“歐洲英偉達(dá)”,這個夢想無比性感。那些當(dāng)年想做“歐洲Google”、“歐洲蘋果”、“歐洲亞馬遜”的人也曾經(jīng)這樣幻想過。
03. 觸礁:Graphcore面臨的問題
Simon說[9]:“如果你打算開發(fā)一種新型處理器,真的需要有一個20年的長遠(yuǎn)視角?!辈贿^,就算在技術(shù)層面規(guī)劃了未來20年。但在商業(yè)層面,卻未必過得好眼下這兩年。
2022年10月,英國《泰晤士報》突然爆出,Graphcore和微軟的合作已經(jīng)泡湯了[14]。此前,IPU被內(nèi)置于微軟Azure平臺上, 而現(xiàn)在可以明確的是,目前微軟Azure平臺上所用的AI芯片基本都來自英偉達(dá),而且已經(jīng)自己下場做AI芯片了。
圖片來源:The Times
2023年4月18日,著名科技媒體The Information爆料:微軟正在秘密研發(fā)自己的AI芯片,代號雅典娜(Athena)[18]。
雅典娜芯片由臺積電代工,采用5nm先進(jìn)制程。據(jù)悉,微軟從2019年就開始研發(fā)這款芯片,目前已在測試階段。雅典娜的首個目標(biāo)是為Open AI提供算力引擎,以替代昂貴的英偉達(dá)A100/H100,節(jié)省成本。而下一步,可能就將劍指Azure云服務(wù),瓜分英偉達(dá)的蛋糕。
缺少大客戶的采購,Graphcore的業(yè)績一路低迷,外媒報道,2021年,Graphcore銷售額僅為500萬美元,稅前虧損1.835億美元。賬目顯示,截至2021年底,現(xiàn)金、現(xiàn)金等價物和短期投資為3.27億美元。[15]
這導(dǎo)致英美的頂級風(fēng)投都拋售了Graphcore的股份,Baillie Gifford減記對其1660萬美元的投資,減記幅度達(dá)58%,紅杉資本也有類似的減持操作[16]。這給Graphcore帶來的直接影響是估值暴跌10億美元,與巔峰時期的28億美元相比,減少了35%。
Graphcore的困境揭示了一個殘酷的事實:初創(chuàng)公司挑戰(zhàn)英偉達(dá)帝國,是一件如登天一樣難的事情。
一方面,英偉達(dá)通過CUDA平臺、TensorCore、NVLink等技術(shù)來不斷鞏固GPU的護(hù)城河,尤其是CUDA生態(tài),連Intel和AMD這種大廠都難以逾越,中小客戶幾乎沒有放棄英偉達(dá)、押注新玩家的可能。
而對于想降低成本、增加對英偉達(dá)談判能力的大廠,他們基本上都有能力組織資源自研AI芯片,Google、微軟、亞馬遜、特斯拉都已經(jīng)入局,國內(nèi)華為、阿里、百度也都在開發(fā)自己的AI芯片,華為昇騰910已經(jīng)被用來組建超算平臺。
盡管IPU的誕生源于處理器設(shè)計空間具有新的“可能性”,但在眼下混沌又激烈的AI軍備競賽中,芯片客戶更需要“確定性”。
有投資人曾對外媒UK Tech News表示,“人們對英偉達(dá)的關(guān)注度很高——人們希望使用他們的技術(shù),因為這是安全的賭注。要把人們的注意力從這上面轉(zhuǎn)移開,是一個非常非常艱巨的挑戰(zhàn)?!保?6]
投資者也在用腳投票。截至2022年12月5日,2022 年全球半導(dǎo)體初創(chuàng)企業(yè)的風(fēng)險投資達(dá)到 78 億美元,這與2021年創(chuàng)紀(jì)錄的 145 億美元的投資額相比下降了 46%,即便是與2020年103億美元相比也下降了24%。
Graphcore的融資神話止步在2020年末。但見GPU笑,哪聞IPU哭。
今年,ChatGPT火爆,英偉達(dá)狂飆。而Graphcore的CEO Nigel Toon卻心灰意冷地向英國政府發(fā)出一封公開信,希望政府“抵制外國大型科技公司的誘惑,它們正試圖排擠我們的英國公司。”
更具體一些,他直接點(diǎn)名道姓了英偉達(dá)。Toon說:“除非預(yù)算的很大一部分明確指定給英國供應(yīng)商,否則這筆資金承諾將很快被美國芯片制造商英偉達(dá)(Nvidia)等數(shù)字巨頭消耗掉?!?/p>
Toon認(rèn)為,英偉達(dá)等公司憑借其主導(dǎo)市場份額的優(yōu)勢,一直在以低成本提供gpu,以激勵英國研究人員使用這些gpu,這種方式塑造了人工智能從業(yè)者和研究人員的習(xí)慣,并排斥了其他硬件供應(yīng)商。因此,他呼吁英國政府,將耗資9億英鎊的新超級計算機(jī)項目使用Graphcore芯片。
一家誕生于老牌資本主義國家的公司,竟然主動呼吁貿(mào)易保護(hù)、封禁對手,說明事情已經(jīng)到了絕望的地步。
04. 尾聲
除了Graphcore之外,這些還涌現(xiàn)出不少中小AI芯片公司,比如Cerebras、Habana Labs、Mythic等。其中Habana Labs的結(jié)局可能算得上最好——被Intel以20億美金收購。
中小AI芯片公司所面臨的問題跟Graphcore類似:英偉達(dá)帝國堅不可摧,大客戶自研暗流涌動,人工智能行業(yè)一日千里,技術(shù)路線像六月的天氣一樣變化多端,能從英偉達(dá)碗里奪食的可能只有像Google和微軟這樣的大廠。
半導(dǎo)體行業(yè)的金科玉律是:規(guī)模效應(yīng),芯片產(chǎn)量越大,芯片價格越低。英偉達(dá)和Graphcore等設(shè)計公司雖然沒有重資產(chǎn)的Foundry產(chǎn)線,巨額的研發(fā)費(fèi)用同樣也是一種“重資產(chǎn)”,出貨1萬片和出貨100萬片的企業(yè)成本相差懸殊。
中國的寒武紀(jì)本紀(jì)相比英國的“寒武紀(jì)”,一個優(yōu)勢就是英偉達(dá)的最先進(jìn)芯片如A100和H100根本賣不進(jìn)來,只能賣閹割過后的A800。Nigel Toon夢寐以求的“貿(mào)易保護(hù)”,這中國廠商這里反而能輕松獲得。
但拋開這點(diǎn)優(yōu)勢,國內(nèi)AI芯片公司所面臨的問題和Graphcore并無二致。即使是殘血的A800,在今年春節(jié)后也被國內(nèi)大廠瘋狂搶購。OV小米可以無障礙地購買高通最新款消費(fèi)級芯片,國內(nèi)AI大廠卻不行,因此他們自研AI芯片的決心會比Google和微軟更大。
因此,無論是國內(nèi)還是國外,各種“xPU”們想來分英偉達(dá)的羹,都沒那么容易。
-
芯片
+關(guān)注
關(guān)注
455文章
50816瀏覽量
423672 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238511 -
寒武紀(jì)
+關(guān)注
關(guān)注
11文章
186瀏覽量
73893
原文標(biāo)題:Graphcore:英國的寒武紀(jì)為何觸礁?
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論