人工智能應(yīng)用的新需求給FPGA帶來了歷史性的發(fā)展機(jī)遇,F(xiàn)PGA強(qiáng)大的并行計(jì)算能力、高能耗比、靈活的編程等優(yōu)勢,決定其將在人工智能舞臺中將發(fā)揮重要作用。但同時(shí)人工智能強(qiáng)大的數(shù)據(jù)運(yùn)算能力、傳輸存儲能力等特性也對成本和功耗能效等提出新要求,如何處理這些問題需要從工藝來著手,核心架構(gòu)的研發(fā)創(chuàng)新以及多種工具的支持,先進(jìn)制程工藝都可以讓芯片性能得到提高,而且功耗更低。并且一旦開始大規(guī)模的生產(chǎn)此類芯片,其制造成本就會大大下降,從而獲取更高的盈利。可以說先進(jìn)的制造工藝和核心架構(gòu)能讓FPGA搶占利潤更為豐厚的AI市場。目前,大部分的FPGA芯片都是基于28nm和20nm工藝,但隨著AI、5G等新應(yīng)用需求,16nm、7nm等更先進(jìn)制程的FPGA芯片將在2019年逐步放量,帶來FPGA市場的一輪新的競爭。同時(shí)也為擁有新工藝技術(shù)實(shí)力的公司帶來新機(jī)遇,有望在FPGA長期寡頭壟斷的市場里撞出新火花。而Achronix就是這其中的后起之秀,其FPGA的硬件加速器器件和高性能嵌入式FPGA半導(dǎo)體知識產(chǎn)權(quán)(eFPGA IP)憑借出色的工藝近年來取得的快速發(fā)展。
近日,記者在采訪Achronix市場營銷副總裁Steve Mensor時(shí)獲悉,其第四代新的Speedcore Gen4 eFPGA架構(gòu)已經(jīng)推出,采用臺積電7nm工藝節(jié)點(diǎn),主要針對新興人工智能/機(jī)器學(xué)習(xí)和高數(shù)據(jù)帶寬應(yīng)用的爆炸式需求,將于2019年上半年投入量產(chǎn)。
Steve表示:“Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA(eFPGA)??蛻敉ㄟ^定制其邏輯、RAM和DSP資源需求,Achronix接下來就會為其配置滿足其需求的Speedcore IP,Speedcore查找表(LUT)、RAM單元模塊和DSP64單元模塊可以像樂高積木一樣進(jìn)行組合,以便為特定的應(yīng)用創(chuàng)建優(yōu)化的可編程功能。在Speedcore IP的交付包中,也包括一個(gè)對Speedcore IP進(jìn)行編程的ACE設(shè)計(jì)工具個(gè)性化版本。與之前一代的Speedcore 嵌入式FPGA(eFPGA)產(chǎn)品相比,Speedcore Gen4的性能提速60%、功耗降低50%、芯片面積縮小65%;新的機(jī)器學(xué)習(xí)處理器(MLP)單元模塊為人工智能/機(jī)器學(xué)習(xí)(AI / ML)應(yīng)用提供高出300%的性能?!苯酉聛鞸teve為記者詳細(xì)介紹了Speedcore Gen4新架構(gòu)主要通過哪些創(chuàng)新來實(shí)現(xiàn)能效的顯著提升的。
架構(gòu)性創(chuàng)新是提高系統(tǒng)性能的核心
與上一代Speedcore產(chǎn)品相比,新的Speedcore Gen4架構(gòu)采用7nm工藝制程,在邏輯單元模塊中的布線布局、矩陣乘法、查找表等方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,從而可將系統(tǒng)整體性能提高60%。
新增強(qiáng)的邏輯模塊
其中的路由架構(gòu)也借由一種獨(dú)立的專用總線路由結(jié)構(gòu)得到了增強(qiáng)。新的總線路由是高性能專用總線分組路由通道,總線路由與標(biāo)準(zhǔn)路由通道分離,以確保無擁塞。在內(nèi)存和MLP之間運(yùn)行的總線優(yōu)化,創(chuàng)建巨型分布式運(yùn)行時(shí)可配置交換網(wǎng)絡(luò)。這為高帶寬和低延遲應(yīng)用提供了最佳的解決方案,并在業(yè)界首次實(shí)現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。
高速核心下一代布線架構(gòu)
矩陣向量乘法將行劃分成塊,大型矩陣通常將與矩陣的一行相關(guān)聯(lián)的單個(gè)乘積和劃分成多個(gè)循環(huán)。例如: 將32個(gè)乘積的和分為8個(gè)乘積的四個(gè)部分和,累積四個(gè)連續(xù)的部分和,以計(jì)算每行的積的總和。第一個(gè)輸出的總和在第四個(gè)時(shí)鐘周期結(jié)束時(shí)完成。對接下來的四個(gè)時(shí)鐘周期進(jìn)行相同的處理,以計(jì)算和組合與第二輸出相關(guān)聯(lián)的四個(gè)部分和。
基于循環(huán)寄存器的塊矩陣矢量乘法,循環(huán)寄存器允許向量數(shù)據(jù)被存儲和重用。在并行操作中顯示多個(gè)MAC操作的例子,讀取矢量的四個(gè)子塊并將數(shù)據(jù)寫入循環(huán)寄存器文件。
新型縱向連接和MLP級串聯(lián)路徑
其中查找表的所有方面都得到了增強(qiáng),以支持使用最少的資源來實(shí)現(xiàn)各種功能,從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個(gè)LUT的寄存器數(shù)量加倍、支持7位函數(shù)和一些8位函數(shù)、以及為移位寄存器提供的專用高速連接。使用LUTS構(gòu)建附加乘法器,使得有價(jià)值的低精度乘法通過最有效的FPGA來實(shí)現(xiàn)。
基于GE4LUT的乘法器:比其他FPGA架構(gòu)更有效
另外,核心架構(gòu)的研發(fā)創(chuàng)新同時(shí)能滿足多種工具的支持也是非常重要的。Achronix的ACE設(shè)計(jì)工具中包括了Speedcore Gen4 eFPGAs的預(yù)先配置示例實(shí)例,它們可支持客戶針對性能、資源使用率和編譯時(shí)間去評估Speedcore Gen4的結(jié)果質(zhì)量;Achronix現(xiàn)已可提供支持Speedcore Gen4的ACE設(shè)計(jì)工具。Speedcore采用了一種模塊化的架構(gòu),它可根據(jù)客戶的要求輕松配置其大小。Achronix使用其Speedcore Builder工具來即刻創(chuàng)建新的Speedcore實(shí)例,以便滿足客戶對其快速評估的要求。
最佳的人工智能/機(jī)器學(xué)習(xí)加速器
正是基于以上新架構(gòu)的技術(shù),使得Speedcore Gen4對人工智能/機(jī)器學(xué)習(xí)應(yīng)用的高密度和針對性計(jì)算產(chǎn)生了顯著增加的需求。與以前的Achronix FPGA產(chǎn)品相比,新的Achronix機(jī)器學(xué)習(xí)處理器(MLP)利用了人工智能/機(jī)器學(xué)習(xí)處理的特定屬性,并將這些應(yīng)用的性能提高了300%。這是通過多種架構(gòu)性創(chuàng)新來實(shí)現(xiàn)的,這些創(chuàng)新可以同時(shí)提高每個(gè)時(shí)鐘周期的性能和操作次數(shù)。
新的Achronix機(jī)器學(xué)習(xí)處理器(MLP)是一個(gè)完整的人工智能/機(jī)器學(xué)習(xí)計(jì)算引擎,支持定點(diǎn)和多個(gè)浮點(diǎn)數(shù)格式和精度。每個(gè)機(jī)器學(xué)習(xí)處理器包括一個(gè)循環(huán)寄存器文件(Cyclical Register File),它用來存儲重用的權(quán)重或數(shù)據(jù)。各個(gè)機(jī)器學(xué)習(xí)處理器與相鄰的機(jī)器學(xué)習(xí)處理器單元模塊和更大的存儲單元模塊緊密耦合,以提供最高的處理性能、每秒最高的操作次數(shù)和最低的功率分集。這些機(jī)器學(xué)習(xí)處理器支持各種定點(diǎn)和浮點(diǎn)格式,包括Bfloat16、16位、半精度、24位和單元塊浮點(diǎn)。用戶可以通過為其應(yīng)用選擇最佳精度來實(shí)現(xiàn)精度和性能的均衡。
為了補(bǔ)充機(jī)器學(xué)習(xí)處理器并提高人工智能/機(jī)器學(xué)習(xí)的計(jì)算密度,Speedcore Gen4查找表(LUT)可以實(shí)現(xiàn)比任何獨(dú)立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨(dú)立FPGA芯片在21個(gè)查找表可以中實(shí)現(xiàn)6x6乘法器,而Speedcore Gen4僅需在11個(gè)LUT中就可實(shí)現(xiàn)相同的功能,并可在1 GHz的速率上工作。
解決帶寬爆炸問題 目標(biāo)市場的現(xiàn)在與未來
那么采用臺積電7nm工藝節(jié)點(diǎn)的Speedcore Gen4,主要針對新興人工智能/機(jī)器學(xué)習(xí)和高數(shù)據(jù)帶寬應(yīng)用的爆炸式需求外,還有哪些目標(biāo)市場呢?Steve向《華強(qiáng)電子》表示,計(jì)算加速度,網(wǎng)絡(luò)加速,5G基礎(chǔ)設(shè)施, 智能駕駛這些都是他們的目標(biāo)市場。這些應(yīng)用程序具有相同的要求:高性能、低功耗、低延遲、可編程硬件加速器。過去幾年,存儲和網(wǎng)絡(luò)主導(dǎo)了FPGA用戶群,但未來幾年,計(jì)算端的需求將遠(yuǎn)遠(yuǎn)超過存儲和網(wǎng)絡(luò),并都將沿著穩(wěn)定的增長線繼續(xù)發(fā)展,在機(jī)器學(xué)習(xí),高性能計(jì)算,數(shù)據(jù)分析等領(lǐng)域,F(xiàn)PGA將更有用武之地。Steve尤其看好網(wǎng)絡(luò)加速和5G市場的應(yīng)用前景,比如在5G基礎(chǔ)設(shè)施方面的壓縮/減壓,非結(jié)構(gòu)化數(shù)據(jù)匹配 ,數(shù)據(jù)庫加速,適應(yīng)前沿標(biāo)準(zhǔn)的協(xié)議適應(yīng)性,基帶和分裂L1加速,基于人工智能的波束形成,放大器預(yù)失真,移動邊緣計(jì)算這些細(xì)分市場都對高性能FPGA有著強(qiáng)烈的需求。
在網(wǎng)絡(luò)加速方面,固定和無線網(wǎng)絡(luò)帶寬的急劇增加,加上處理能力向邊緣等進(jìn)行重新分配,以及數(shù)十億物聯(lián)網(wǎng)設(shè)備的出現(xiàn),將給傳統(tǒng)網(wǎng)絡(luò)和計(jì)算基礎(chǔ)設(shè)施帶來壓力。這種新的處理范式意味著每秒將有數(shù)十億到數(shù)萬億次的運(yùn)算。傳統(tǒng)云和企業(yè)數(shù)據(jù)中心計(jì)算資源和通信基礎(chǔ)設(shè)施無法跟上數(shù)據(jù)速率的指數(shù)級增長、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò)和連接要求。傳統(tǒng)的多核CPU和SoC無法在沒有輔助的情況下獨(dú)立滿足這些要求,因而它們需要硬件加速器,通常是可重新編程的硬件加速器,用來預(yù)處理和卸載計(jì)算,以便提高系統(tǒng)的整體計(jì)算性能。經(jīng)過優(yōu)化后的Speedcore Gen4 eFPGA已經(jīng)可以滿足這些應(yīng)用需求。
另外,對于FGPA成本這個(gè)問題,Steve也給出了肯定的答復(fù),采用新架構(gòu)新工藝的最新Speedcore eFPGA IP,和上一代產(chǎn)品基本持平,不會增加用戶成本。對于已量產(chǎn)的Speedcore架構(gòu),Achronix可在6周內(nèi)為客戶配置并提供Speedcore eFPGA IP和支持文件。采用臺積電7nm工藝節(jié)點(diǎn)的Speedcore Gen4將于2019年上半年投入量產(chǎn),Achronix還將于2019年下半年提供用于臺積電16nm和12nm工藝節(jié)點(diǎn)的Speedcore Gen4 eFPGA IP。
但Speedcore Gen4已經(jīng)有市場實(shí)例,Micron日前推出GDDR6存儲器就是采用Achronix臺積電7nm工藝技術(shù)的FPGA芯片,實(shí)現(xiàn)了高達(dá)16 Gb / s的吞吐量。GDDR6針對包括機(jī)器學(xué)習(xí)等諸多要求嚴(yán)苛的應(yīng)用進(jìn)行了優(yōu)化,這些應(yīng)用需要數(shù)萬兆比特(multi-terabit)存儲寬帶,從而使Achronix在提供FPGA方案時(shí),其成本能夠比其他使用可比存儲解決方案的FPGA低出一半。
評論
查看更多