正如約翰·齊曼(J.Ziman)所言:“不同規(guī)模、不同層次的各種技術(shù)形成相互共生、寄生與競(jìng)爭(zhēng)的生態(tài)關(guān)系,使得任何技術(shù)的生存與發(fā)展不是孤立的事件”。芯片架構(gòu)的革命也隨著IC業(yè)浪潮的演進(jìn)“合成”向前,從32位到64位,從單核到多核,從同構(gòu)到異構(gòu),每一次架構(gòu)革命都讓芯片產(chǎn)生質(zhì)的飛躍。而在智能互聯(lián)的AIoT時(shí)代,異構(gòu)計(jì)算芯片成為當(dāng)仁不讓的主角。
畢竟,在經(jīng)歷了“數(shù)字化、互聯(lián)網(wǎng)化、移動(dòng)互聯(lián)網(wǎng)化”的洗禮之后,“人工智能化”時(shí)代的海量計(jì)算需求、算法迭代讓傳統(tǒng)的通用CPU“難堪重任”,應(yīng)運(yùn)而生的異構(gòu)計(jì)算芯片“晉級(jí)”成為支撐先進(jìn)和更復(fù)雜AIoT應(yīng)用的必然選擇。作為一種將不同指令集和架構(gòu)的計(jì)算單元(如傳統(tǒng)的CPU、GPU、DSP還有創(chuàng)新的TPU、DLA等)融合在一起、實(shí)現(xiàn)高效協(xié)同運(yùn)行的計(jì)算技術(shù),業(yè)界有人認(rèn)為,將傳統(tǒng)架構(gòu)的芯片比作汽油引擎的話,那么異構(gòu)計(jì)算芯片就是混合動(dòng)力甚至新能源引擎。
整裝待發(fā)
不論是什么樣的技術(shù)路線圖,都必須在關(guān)鍵時(shí)間節(jié)點(diǎn)上更新。而這一“引擎”的橫空出世”其實(shí)是市場(chǎng)與技術(shù)相互碰撞的結(jié)果。
異構(gòu)計(jì)算的顯著優(yōu)勢(shì)在于實(shí)現(xiàn)了性能、成本和功耗均衡的技術(shù),同時(shí)也是讓最適合的專用硬件去做最適合的事如密集計(jì)算或外設(shè)管理等,從而達(dá)到性能和成本的最優(yōu)化。這樣“各成其就”的異構(gòu)芯片,理所當(dāng)然自帶光芒。
英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)在上周的英特爾媒體分享會(huì)上表示,異構(gòu)計(jì)算不是一個(gè)新詞,其實(shí)上世紀(jì)80年代就有了,即超過(guò)一種以上的硬件架構(gòu)設(shè)計(jì)組合。而這種組合有兩種形式,比如將CPU、GPU、FPGA等組成一個(gè)一體化設(shè)計(jì)的SoC,將達(dá)到最高的能效比,但需要量大面廣,才值得投入;另一種是這些獨(dú)立的芯片通過(guò)板級(jí)連接實(shí)現(xiàn)異構(gòu)計(jì)算,其優(yōu)勢(shì)在于靈活,但板與板之間連接的功耗、帶寬都大打折扣。
與之相呼應(yīng)的是,近幾年來(lái)不僅眾多IP廠商在加強(qiáng)異構(gòu)芯片IP研發(fā),主流芯片廠商也均加大新一代異構(gòu)芯片的出新頻率,異構(gòu)芯片開始大行其道,或?qū)⒂瓉?lái)新的爆發(fā)期。有預(yù)計(jì)說(shuō),在高性能計(jì)算、人工智能等應(yīng)用領(lǐng)域,異構(gòu)計(jì)算芯片市場(chǎng)規(guī)模將突破千億美元。
這一風(fēng)向標(biāo)對(duì)產(chǎn)業(yè)帶來(lái)的影響或是全方位的,一方面眾多芯片廠商加強(qiáng)橫向擴(kuò)展,運(yùn)用資本力量大肆整合全面出擊,構(gòu)筑異構(gòu)芯片領(lǐng)域的護(hù)城河;另一方面,異構(gòu)陣營(yíng)涇渭分明,各大廠商合縱連橫,同時(shí)一些新生力量亦角逐其中,有望改寫產(chǎn)業(yè)未來(lái)格局。
軟硬件挑戰(zhàn)
異構(gòu)計(jì)算雖不是全新的概念,但最早的異構(gòu)融合還基于CPU和GPU,而真正崛起要從2001年用GPU實(shí)現(xiàn)通用矩陣計(jì)算開始。而且,其“外延”已延伸至CPU、DSP、GPU、ASIC、FPGA等各種計(jì)算單元、使用不同類型指令集、不同體系架構(gòu)的“整合”,讓各種核心有效地協(xié)同合作。
顯然,這激起了“連鎖”反應(yīng),由于設(shè)計(jì)難度大、生態(tài)系統(tǒng)需重構(gòu)等挑戰(zhàn),在過(guò)去很長(zhǎng)一段時(shí)間仍處在不斷演進(jìn)當(dāng)中。畢竟從編程方式、軟硬件架構(gòu)到生態(tài)系統(tǒng),異構(gòu)計(jì)算仍面臨著諸多挑戰(zhàn)。
其硬件實(shí)現(xiàn)就不簡(jiǎn)單。首先,不同芯片之間的互聯(lián)布線,要求性能高、速度快,同時(shí)功耗要低。其次,要通過(guò)混搭方式,將不同種類的、不同技術(shù)的芯片封裝在一起,支持互聯(lián),保持高帶寬和高頻率,分外復(fù)雜。最后,選擇大批量生產(chǎn)的工藝,快速驗(yàn)證等等,決定了在硬件上從選擇用什么樣的基底,到用什么材料實(shí)現(xiàn)互聯(lián),都需通盤和全面考量。
為了讓異構(gòu)計(jì)算發(fā)揮最大性能優(yōu)勢(shì),還需要對(duì)硬件設(shè)計(jì)特定的算法以及軟件優(yōu)化,才能夠最大化硬件能力,即軟硬結(jié)合。做到真正的軟硬結(jié)合,軟件環(huán)境的優(yōu)化亦是重中之重,如何打造完善的軟硬件體系,讓“眾選手”各展所長(zhǎng)、協(xié)同合作,并進(jìn)而提供良好的生態(tài)體系,來(lái)支撐異構(gòu)計(jì)算體系的全面應(yīng)用亦是一大挑戰(zhàn)。
可以說(shuō),無(wú)論是總線及接口、編程工具、存儲(chǔ)管理、應(yīng)用軟件技術(shù)等,在諸如異構(gòu)多核架構(gòu)指令集、微架構(gòu)、工具鏈設(shè)計(jì)等環(huán)節(jié)仍需投入大量資金和時(shí)間。
三大陣營(yíng)的心機(jī)
顯然作為新AI時(shí)代的“利器”,異構(gòu)計(jì)算將重塑產(chǎn)業(yè)格局,各方勢(shì)力各藏心機(jī),激烈角逐。
目前,全球異構(gòu)計(jì)算領(lǐng)域呈現(xiàn)三足鼎立的態(tài)勢(shì),分別是以AMD、高通、ARM、三星、北京華夏芯等為主體的全球異構(gòu)計(jì)算系統(tǒng)HSA聯(lián)盟,以IBM、Google、英偉達(dá)為主體的OpenPOWER聯(lián)盟和英特爾最新提出的超異構(gòu)計(jì)算愿景。
這三大體系均在全力推進(jìn):HSA聯(lián)盟強(qiáng)調(diào)生態(tài)共建,資源共享,主推OpenCL的異構(gòu)編程框架。自從2012年成立以來(lái),圍繞異構(gòu)計(jì)算發(fā)展中最迫切需要解決的編程語(yǔ)言、技術(shù)標(biāo)準(zhǔn)、知識(shí)產(chǎn)權(quán)等問(wèn)題已經(jīng)做了大量卓有成效的工作,包括發(fā)布了新一代異構(gòu)計(jì)算技術(shù)規(guī)范、搭建開放的異構(gòu)計(jì)算平臺(tái)、推出了一系列專用工具和較為完善的面向人工智能的開發(fā)環(huán)境等等。
而AMD 3A平臺(tái)、ARM Coretex處理器和Mali圖形核心、Imagination PowerVR圖形核心、德州儀器OMAP處理器平臺(tái)等都將成為HSA基金會(huì)的基石。
而OpenPower聯(lián)盟利用Power8等芯片在高性能計(jì)算領(lǐng)域的技術(shù)優(yōu)勢(shì)和IBM產(chǎn)品的應(yīng)用生態(tài)基礎(chǔ),在高性能計(jì)算領(lǐng)域占有優(yōu)勢(shì)。自2013年IBM在聯(lián)合Google、NVIDIA、TYAN、Mellanox成立以來(lái),目前已有數(shù)百位成員,中國(guó)成員除了浪潮、新云東方等硬件供應(yīng)商外,也有騰訊、阿里、網(wǎng)易這樣的互聯(lián)網(wǎng)巨頭。據(jù)悉在OpenPower研發(fā)平臺(tái)上,已有10萬(wàn)+應(yīng)用,以及10萬(wàn)+經(jīng)過(guò)行業(yè)認(rèn)證的產(chǎn)品,包括軟件、服務(wù)管理和解決方案。特別是其基于CAPI總線的全新加速器解決方案,使Power服務(wù)器完全支持CAPI+FPGA,開啟了第二代異構(gòu)計(jì)算。
雖然英特爾在以一已之力對(duì)抗,但在英特爾轉(zhuǎn)型制定了“以數(shù)據(jù)為中心”的發(fā)展戰(zhàn)略之后,一切創(chuàng)新與變革都以此為軸心。而在AI時(shí)代風(fēng)起云涌之際,“全武行”的英特爾也祭出了“超異構(gòu)計(jì)算”的旗幟,在異構(gòu)計(jì)算技術(shù)路徑發(fā)展方面已然自成一派。
超異構(gòu)計(jì)算的“超”
超異構(gòu)計(jì)算的橫空出世,緣于英特爾對(duì)數(shù)據(jù)洪流引發(fā)的變革,有了更加“系統(tǒng)”的思考,認(rèn)為在智能聯(lián)所帶來(lái)的數(shù)據(jù)洪流推動(dòng)下,為應(yīng)對(duì)未來(lái)數(shù)據(jù)的多樣化、數(shù)據(jù)量的爆發(fā)式增長(zhǎng)以及處理方式的多樣性,單純發(fā)展先進(jìn)工藝或封裝或架構(gòu)改善已不足以滿足未來(lái)多元化的計(jì)算需求。
以AI為例,產(chǎn)業(yè)應(yīng)用對(duì)AI計(jì)算需求躍升至“無(wú)所不能”,涉及多種計(jì)算加速、可擴(kuò)展性、訓(xùn)練速度快、能效比高、開發(fā)難度小、可加快上市等,在這一發(fā)展態(tài)勢(shì)下,傳統(tǒng)的異構(gòu)計(jì)算將失去“用武之地”。宋繼強(qiáng)解釋說(shuō),一體化的SoC雖然體積小、能效比高,但擴(kuò)展性差,增加功能則需重新設(shè)計(jì),再走一整套流片流程,上市時(shí)間較慢;而分體式板卡雖然比較靈活,時(shí)間也快,但整體價(jià)格偏高,能效比也不高。
正所謂不破不立,超異構(gòu)計(jì)算成為解決“左右為難”的利器。宋繼強(qiáng)解讀超異構(gòu)計(jì)算的三大要素時(shí)認(rèn)為,一是有多種架構(gòu)、多功能芯片,無(wú)論是CPU/GPU,還是FPGA、ASIC、Modem內(nèi)存等;二是需要多節(jié)點(diǎn)+先進(jìn)封裝技術(shù)的整合,不論是10nm的高端芯片還是40nm、65nm的芯片都能通過(guò)2.5D或3D封裝“成全”;在“硬”功能實(shí)現(xiàn)之后,三是統(tǒng)一的異構(gòu)計(jì)算軟件,英特爾開發(fā)了通用的one API,一套API就可讓用戶方便地開發(fā)并承接超異構(gòu)集成帶來(lái)的利好。
超異構(gòu)計(jì)算將以制程與封裝、架構(gòu)、內(nèi)存與存儲(chǔ)、互連、安全、軟件為六大支柱,互相關(guān)聯(lián),緊密耦合。
具體來(lái)看,在制程和封裝層面,一方面英特爾10納米工藝仍繼續(xù)推動(dòng)著發(fā)展,另一方面先進(jìn)封裝2.5D、3D成為推手。兩年前英特爾開發(fā)的“嵌入式多芯片互連橋接(EMIB)”2.5D封裝技術(shù),成為其異構(gòu)計(jì)算策略的一大關(guān)鍵技術(shù)。而英特爾不斷精進(jìn),在去年年底架構(gòu)日活動(dòng)上展示了名為“Foveros”的3D封裝技術(shù),開辟了新的先河。2.5D和3D封裝解決了傳統(tǒng)封裝面積大、帶寬不足等問(wèn)題,并可讓連接的芯片不只是邏輯芯片和內(nèi)存,還能把邏輯芯片和邏輯芯片相連,同時(shí)實(shí)現(xiàn)立體堆疊,讓體積減少、功耗降低、帶寬提升。
而隨著海量的數(shù)據(jù)推動(dòng)計(jì)算架構(gòu)快速演進(jìn)并呈指數(shù)級(jí)擴(kuò)展,未來(lái)十年架構(gòu)創(chuàng)新將是創(chuàng)新的主要驅(qū)動(dòng)力。英特爾可提供多樣化的計(jì)算架構(gòu)包括標(biāo)量(Scalar)、矢量(Vector)、矩陣(Matrix)和空間(Spatial),分別應(yīng)用于CPU、GPU、AI和FPGA。
而英特爾的矩陣戰(zhàn)略實(shí)現(xiàn)了“端到端”。英特爾有通用CPU集成AI加速,可將深度學(xué)習(xí)性能提升十倍以上。在專用AI芯片方面,有面向訓(xùn)練的高性能GPU和專門做神經(jīng)網(wǎng)絡(luò)加速學(xué)習(xí)的NNP-L;推理側(cè)也是兩路并發(fā),面向邊緣端的推理芯片要求功耗更低、性能更強(qiáng),英特爾有VPU、EYEQ以及嵌入式EYEQ、FPGA等;而數(shù)據(jù)中心推理的芯片則有GPU、FPGA。如此通過(guò)將制程封裝和架構(gòu)設(shè)計(jì)組合在一起,來(lái)有效提升“積木式組合”的穩(wěn)定度,滿足定制化和靈活化的需求。
而在內(nèi)存與存儲(chǔ)、互連、安全、軟件層面,英特爾也齊頭并進(jìn)。通過(guò)重塑內(nèi)存層級(jí)結(jié)構(gòu),來(lái)破解內(nèi)存和存儲(chǔ)方面的帶寬“瓶頸”,提升數(shù)據(jù)管道的運(yùn)行速度和系統(tǒng)性能;全面的互連產(chǎn)品包括在祼片間實(shí)現(xiàn)互連,從而助力實(shí)現(xiàn)大規(guī)模的異構(gòu)計(jì)算;在安全至上的數(shù)據(jù)層面,英特爾著力從端到端全面提升安全性。同時(shí)英特爾也深諳“硬件+軟件”配合才能給出最好的加速功能,在軟件方面創(chuàng)建了統(tǒng)一的OneAPI軟件架構(gòu),以進(jìn)一步簡(jiǎn)化并延伸整個(gè)堆棧中的應(yīng)用開發(fā)。
這六大支柱也相當(dāng)于“六大護(hù)法”:以先進(jìn)制程技術(shù)進(jìn)行設(shè)計(jì),顛覆性內(nèi)存層次結(jié)構(gòu)提供支持,通進(jìn)先進(jìn)封裝集成到系統(tǒng)中,使高速的互連技術(shù)進(jìn)行超大規(guī)模部署,提供統(tǒng)一的軟件開發(fā)接口以及安全功能。
有了“六大護(hù)法”加持,一路狂飆的英特爾釋放了超異構(gòu)計(jì)算的最大優(yōu)勢(shì),既可靈活地運(yùn)用各節(jié)點(diǎn)芯片的功能,又解決了內(nèi)存、連接、功耗以及安全、開發(fā)等問(wèn)題,這些創(chuàng)舉遠(yuǎn)遠(yuǎn)跳出了以往單純異構(gòu)計(jì)算的“窠臼”,將為異構(gòu)計(jì)算的下一步發(fā)展全面“加速”,亦讓“自成體系”英特爾站在了異構(gòu)計(jì)算的“超”起點(diǎn)。
未來(lái)對(duì)決
萬(wàn)物智聯(lián)時(shí)代作為解決計(jì)算能力和功耗瓶頸的有效途徑之一,異構(gòu)計(jì)算如今可謂正逢其時(shí)。
就異構(gòu)計(jì)算的發(fā)展過(guò)程來(lái)看,異構(gòu)計(jì)算從單純挖掘并行潛力、到具有加速器的異構(gòu)計(jì)算、再到針對(duì)特定應(yīng)用定制的計(jì)算平臺(tái)、到多種平臺(tái)的高效融合,在這一過(guò)程中,異構(gòu)計(jì)算的演進(jìn)也伴隨著起伏。
而無(wú)論誰(shuí)是異構(gòu)芯片的“軸心”,首要的仍是封裝的“不破不立”。不得不說(shuō),英特爾超異構(gòu)計(jì)算的概念,配合制程與封裝、架構(gòu)、內(nèi)存、互連、安全、軟件“六脈神劍”,在伴隨著異構(gòu)計(jì)算的“新陳代謝”和發(fā)展模式的過(guò)程中,破解了總是如影隨形的關(guān)聯(lián)制約性,可謂意義重大,使得芯片設(shè)計(jì)從2D平鋪轉(zhuǎn)向3D堆疊,為高性能、高密度和低功耗異構(gòu)芯片制程奠定了堅(jiān)實(shí)的基礎(chǔ),亦為IC業(yè)的發(fā)展和突破打開了一扇新的大門,提供了更廣泛的靈活性和可塑性。
毫無(wú)疑問(wèn),在傳統(tǒng)芯片架構(gòu)向異構(gòu)計(jì)算演進(jìn)、軟硬件生態(tài)面臨顛覆性變革之際,各大陣營(yíng)的開放、眾創(chuàng)、共贏的異構(gòu)生態(tài)體系,將成為異構(gòu)計(jì)算芯片對(duì)決的重要衡量。異構(gòu)計(jì)算已走到臺(tái)前,未來(lái)是百家爭(zhēng)鳴還是一家獨(dú)大?讓我們等待好戲開場(chǎng)。
-
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269107 -
異構(gòu)計(jì)算
+關(guān)注
關(guān)注
2文章
101瀏覽量
16299
原文標(biāo)題:英特爾超異構(gòu)計(jì)算愿景,實(shí)現(xiàn)新“超越”
文章出處:【微信號(hào):Intelzhiin,微信公眾號(hào):知IN】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論