“計(jì)算革命在計(jì)算機(jī)歷史上只發(fā)生過(guò)三次,第一次是 70 年代的 CPU,第二次是 90 年代的 GPU,而 Graphcore 就是第三次革命,他們的芯片(IPU,智能處理單元)是這個(gè)世界偉大新架構(gòu)的一種。”說(shuō)這話的是 ARM 公司創(chuàng)始人、英國(guó)半導(dǎo)體之父赫爾曼·豪瑟(Hermann Hauser)。 他口中的 Graphcore,是來(lái)自英國(guó)的 AI 芯片公司。這家公司創(chuàng)辦于2016年,在芯片領(lǐng)域有著多年經(jīng)驗(yàn)的奈杰爾·圖恩(Nigel Toon)擔(dān)任聯(lián)合創(chuàng)始人和 CEO,曾創(chuàng)辦過(guò)兩家處理器公司的西蒙·諾爾斯(Simon Knowles)擔(dān)任聯(lián)合創(chuàng)始人和 CTO。
這家分公司遍布多個(gè)國(guó)家和地區(qū)的公司,于 2019 年進(jìn)入中國(guó)。9 月 19 日,DeepTech 和 Graphcore 高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤,就相關(guān)問(wèn)題進(jìn)行了交流。
他表示,Graphcore 的主要技術(shù)是以 IPU 處理器、為 IPU 打造的Poplar 軟件?;?IPU 處理器和 Poplar 軟件棧,Graphcore 的產(chǎn)品最后以用在IPU服務(wù)器中的PCIe 卡、IPU 系統(tǒng)產(chǎn)品 IPU-Machine和 IPU-POD 的形式呈現(xiàn)給用戶。 Graphcore 已經(jīng)取得了一些階段性進(jìn)展。截止目前,IPU 已達(dá)到一萬(wàn)多片的發(fā)貨規(guī)模,并服務(wù)于全球超過(guò) 100 家的機(jī)構(gòu),其主要應(yīng)用在互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)中心、高校和科研機(jī)構(gòu)等。同時(shí),IPU 也在支撐醫(yī)療、金融、生命科學(xué)、汽車、金融和計(jì)算領(lǐng)域方面的應(yīng)用。 2019 年初,AI 教父杰夫·欣頓(Geoff Hinton)在接受記者采訪的時(shí)候,被問(wèn)未來(lái)什么樣的計(jì)算系統(tǒng)會(huì)更像大腦?他的回答是:“我認(rèn)為我們需要轉(zhuǎn)向不同類型的計(jì)算機(jī)。幸運(yùn)的是,我這里有一個(gè)...” 欣頓伸手進(jìn)入他的錢包,拿出一個(gè)又大又亮的硅片——一個(gè) Graphcore IPU 芯片。IPU帶來(lái)可持續(xù)發(fā)展路徑
2016 年,全球 AI 產(chǎn)業(yè)進(jìn)入高速發(fā)展階段。在過(guò)去,大概每隔三個(gè)月,模型參數(shù)規(guī)模就會(huì)提高一倍。2018 年 10 月,谷歌的 BERT 模型有 3.3 億個(gè)參數(shù)。2019 年3 月,OPEN AI 的大型語(yǔ)言模型 GPT-2 達(dá)到 15.5 億個(gè)參數(shù)。2020 年,GPT-3 達(dá)到 1750億個(gè)參數(shù)。GPT-3 模型完成一次完整訓(xùn)練,要耗費(fèi)千萬(wàn)美金級(jí)別的花銷。這樣的密集計(jì)算,很難帶來(lái)持續(xù)發(fā)展。那么,是否有可持續(xù)發(fā)展的路徑? 在論文《EfficientNet:對(duì)卷積神經(jīng)網(wǎng)絡(luò)的模型縮放的重新思考》(EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks)中,論文作者通過(guò)平衡神經(jīng)網(wǎng)絡(luò)的深度、寬度、圖片分辨率,再通過(guò)找到平衡點(diǎn)、并把底層卷積改變之后,找到了大幅減小參數(shù)數(shù)量的方法,與此同時(shí)準(zhǔn)確度也得到提升。盧濤認(rèn)為,這是未來(lái)的代表方向之一。 2020 年上半年,微軟機(jī)器學(xué)習(xí)科學(xué)家 Sujeeth Bharadwaj 分享了 IPU訓(xùn)練 CXR 模型的卓越性能,IPU 在運(yùn)行微軟COVID-19 影像分析算法 EfficientNet 和SONIC時(shí)表現(xiàn)亮眼,在 30 分鐘內(nèi)完成了英偉達(dá)傳統(tǒng)芯片需 5 個(gè)小時(shí)的訓(xùn)練工作量。
圖 | 微軟用IPU和GPU訓(xùn)練用于新冠算法模型的對(duì)比 從 Graphcore 的角度來(lái)看,不管是 CPU 還是 GPU,都不是針對(duì) AI 應(yīng)用而生。CPU 是標(biāo)量處理器,它主要做模擬性判斷,用于幫助程序員針對(duì)固定模式進(jìn)行編程。CPU 特別適合的架構(gòu)是通過(guò)大量的模擬處理器開(kāi)發(fā)手機(jī) App 和外包服務(wù)器。GPU 是針對(duì)圖像處理而生,相比 CPU 來(lái)說(shuō) GPU 在并行度和向量機(jī)上都有很大提升。 概括來(lái)說(shuō),GPU 主要應(yīng)用在主流 AI 平臺(tái),它并不是為 AI 而生的處理器。Graphcore 進(jìn)行大量分析后發(fā)現(xiàn),AI 計(jì)算具有高度并行、低密度計(jì)算等特點(diǎn),不管做圖像處理模型、還是語(yǔ)言處理模型,都會(huì)在底層表達(dá)成一個(gè)計(jì)算圖。盧濤認(rèn)為,真正面向未來(lái)的 AI 處理器,必須是針對(duì)計(jì)算圖來(lái)進(jìn)行處理,而 Graphcore 的IPU 正是以計(jì)算圖為核心的智能處理器。
三項(xiàng)變革性技術(shù):計(jì)算、數(shù)據(jù)、通信
進(jìn)入中國(guó)后,Graphcore 一直努力接近開(kāi)發(fā)者,盧濤在 9 月 19 日中關(guān)村論壇的演講結(jié)尾,特意提到該公司在中文網(wǎng)站 graphcore.cn、微信和知乎的開(kāi)發(fā)者創(chuàng)新社區(qū),并鼓勵(lì)更多開(kāi)發(fā)者來(lái)到上述平臺(tái),獲取 Graphcore 的資源和支持來(lái)進(jìn)行創(chuàng)新。 對(duì)此做法,他解釋稱,Graphcore 希望將權(quán)利移交給創(chuàng)新者。那么,首先要給創(chuàng)新者提供新的平臺(tái),讓他有新的可能性。如果開(kāi)發(fā)者的算法不適合 GPU,并不一定代表你的算法無(wú)效,而是你需要一個(gè)新平臺(tái)?;诖?,Graphcore 提供了非常先進(jìn)的AI 處理器、以及大規(guī)模 IPU 集群系統(tǒng)。 2020 年 7 月 15 日,Graphcore 發(fā)布基于 7nm 的第二代 IPU 處理器——GC200,以及用于 Mk2m IPU 和 IPU 系統(tǒng)產(chǎn)品的技術(shù):計(jì)算、數(shù)據(jù)、通信。
GC200 基于臺(tái)積電 7nm 工藝,有 594 億個(gè)晶體管,是當(dāng)前單一芯片最大規(guī)模的處理器。GC200 仍然延續(xù)了第一代的“同構(gòu)眾核”架構(gòu),所不同的是,制造工藝從16nm,提升為最新的 7nm。 GC200 的處理器片上存儲(chǔ)也從 300MB 提升到 900MB,晶體管數(shù)量超出英偉達(dá)2020 年 5 月發(fā)布最新旗艦 A100。GC200 的處理器核心從上一代的 1217 提升到1472,能執(zhí)行 8832 個(gè)單獨(dú)的并行線程,系統(tǒng)性能提升 8 倍以上。在數(shù)據(jù)處理方面,GC200 延續(xù)之前的高帶寬高容量表現(xiàn),這對(duì)于應(yīng)對(duì)一些復(fù)雜 AI 模型及算法很有幫助,官方表示它可支持具有數(shù)千億個(gè)參數(shù)的最大模型。 此外,Graphcore 還首次提出 IPU-EXCHANGE-MEMORY,這是一種交換式的儲(chǔ)存架構(gòu)。Graphcore在M2000每個(gè)IPU-Machine里面通過(guò)IPU-Exchange-Memory技術(shù),提供了將近超過(guò)100倍的帶寬以及大約10倍的容量,這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助的。 針對(duì) AI 計(jì)算集群,Graphcore 打造了 IPU-Fabric 技術(shù),這是為 AI 橫向擴(kuò)展而生的通信技術(shù),它的優(yōu)點(diǎn)是彈性大、低時(shí)延。有了 IPU-Fabric 之后,用戶可以輕松構(gòu)建出高彈性低時(shí)延的計(jì)算平臺(tái)。M2000是 Graphcore 推出的基于 GC200 的刀片型服務(wù)器,每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系統(tǒng)產(chǎn)品部署的最小單元,基于它可以很方便地創(chuàng)建各種規(guī)模的集群。
圖| IPU-Fabric(來(lái)源:Graphcore)
Graphcore 協(xié)同 IPU 從零打造了一個(gè)以圖為抽象編程模型的軟件Poplar。通過(guò)這套軟件SDK,不管是使用浪潮還是戴爾的服務(wù)器,更或者是使用單個(gè) M2000 以及大規(guī)模計(jì)算系統(tǒng) IPU-POD,Graphcore 都能使用同一套軟件進(jìn)行編程。 Graphcore 還在 Poplar 層面上,提供了很多軟件庫(kù)。以ML框架為例,其可以支持標(biāo)準(zhǔn)的 PyTorch、TensorFlow 與 ONNX 等。同時(shí),Graphcore 認(rèn)為,對(duì)一個(gè)系統(tǒng)而言,運(yùn)維和管理也非常重要。為此,Graphcore 基于開(kāi)源做了集群管理套件。 在整個(gè)處理器研發(fā)過(guò)程中,Graphcore 認(rèn)為開(kāi)放非常重要。盧濤表示,開(kāi)源是因?yàn)閯?chuàng)新需要對(duì)底層有很多可見(jiàn)度。Graphcore 認(rèn)為要把權(quán)利移交給開(kāi)發(fā)者,并于2020 年 7 月開(kāi)源了所有的計(jì)算圖庫(kù)源代碼和機(jī)器學(xué)習(xí)算法模型。 在構(gòu)建社區(qū)方面,Graphcore 在金山云上構(gòu)建了一個(gè)開(kāi)發(fā)者云,其主要面向商業(yè)用戶、高校、科研機(jī)構(gòu)和個(gè)人研究者。盧濤表示,這一且都是為了幫助創(chuàng)新者,可以在在機(jī)器智能中實(shí)現(xiàn)下一波突破,以及幫助用戶實(shí)現(xiàn)在 CPU、GPU 上沒(méi)有辦法實(shí)現(xiàn)的創(chuàng)新。 Graphcore 至今成立了四年多的時(shí)間,期間已得到紅杉資本的支持,也獲得了寶馬、博世、微軟、三星、DELL 等企業(yè)的投資。經(jīng)過(guò)幾年的發(fā)展,Graphcore 已經(jīng)發(fā)展為遍布全球的機(jī)構(gòu)。 對(duì)于加入中國(guó),該公司創(chuàng)始人奈杰爾·圖恩(Nigel Toon)表示:“有遠(yuǎn)見(jiàn)的中國(guó)公司已經(jīng)開(kāi)始著手布局自己在 AI 領(lǐng)域的藍(lán)圖。也許這就是為什么 Graphcore 在中國(guó)找到了熱情,并如此深度的參與。Graphcore 已經(jīng)開(kāi)始為一些頗有建樹(shù)的中國(guó)公司提供技術(shù)支持,并將助力推動(dòng)中國(guó)那些發(fā)展最快、最具創(chuàng)新性的 AI 初創(chuàng)企業(yè)?!? 盧濤也對(duì) DeepTech 表示,中國(guó)的企業(yè)非常擅長(zhǎng)把創(chuàng)新進(jìn)行大批量的快速落地部署,Graphcore 覺(jué)得中國(guó)是最大的市場(chǎng)之一。在快速落地部署中,Graphcore 也可以進(jìn)一步打磨自己的產(chǎn)品。此外,IPU 也能幫助用戶釋放出更多潛能,今天在CPU 和 GPU 上做不好的事情,在 IPU 上可能會(huì)釋放極大潛力。
-End-
原文標(biāo)題:一家英國(guó)明星芯片公司“悄然”入華!叫板英偉達(dá)A100,設(shè)定中國(guó)為其最大市場(chǎng)
文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
芯片
+關(guān)注
關(guān)注
455文章
50818瀏覽量
423722 -
晶體管
+關(guān)注
關(guān)注
77文章
9693瀏覽量
138203
原文標(biāo)題:一家英國(guó)明星芯片公司“悄然”入華!叫板英偉達(dá)A100,設(shè)定中國(guó)為其最大市場(chǎng)
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論