在半導(dǎo)體行業(yè),有一個(gè)傳奇定律:摩爾定律,自提出以來,半導(dǎo)體產(chǎn)業(yè)界在這個(gè)規(guī)則指導(dǎo)下迅猛發(fā)展,在短短半個(gè)世紀(jì)內(nèi)把集成電路制造工藝的特征尺寸從微米量級(jí)縮小到納米量級(jí)。如今,業(yè)界對(duì)摩爾定律的質(zhì)疑聲此起彼伏,尤其格芯宣布推出7nm FinFET項(xiàng)目后,英特爾開始延緩7nm工藝的研究進(jìn)程,摩爾定律將會(huì)走向何處?會(huì)否消失?我們不得而知,唯一可以確定的是,摩爾定律正在持續(xù)放緩,這給半導(dǎo)體產(chǎn)業(yè)的走向帶來了很多不確定性,也給eFPGA帶來了更多的機(jī)遇。
Achronix在FPGA領(lǐng)域深耕多年,擁有自己的FPGA開發(fā)技術(shù),在FPGA領(lǐng)域總是不斷創(chuàng)新,這也能在用于人工智能、機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)硬件加速應(yīng)用的第四代Speedcore eFPGA IP中得到體現(xiàn),為業(yè)界樹立了領(lǐng)先性能、功耗和成本的標(biāo)準(zhǔn),Speedcore嵌入式FPGA IP成為業(yè)界唯一經(jīng)過流片驗(yàn)證過的嵌入式FPGA技術(shù)。近日,Achronix推出其第四代嵌入式FPGA產(chǎn)品SpeedcoreGen4 eFPGAIP,以支持客戶將FPGA功能集成到他們的SoC之中。該eFPGA獨(dú)立器件將在明年上半年量產(chǎn),采用臺(tái)積電(TSMC)最新7nm工藝。據(jù)悉,他們也是第一家向SoC開發(fā)公司提供量產(chǎn)eFPGA IP的公司。
Achronix市場營銷副總裁Steve Mensor
Achronix市場營銷副總裁Steve Mensor稱,相較于上一代產(chǎn)品,Speedcore Gen4將性能提高了60%、功耗降低了50%、芯片面積減少65%,同時(shí)保留了原有的Speedcore eFPGA IP的功能,即可將可編程硬件加速功能引入廣泛的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)應(yīng)用,實(shí)現(xiàn)接口協(xié)議橋接/轉(zhuǎn)換、算法加速和數(shù)據(jù)包處理,提供了以前僅在ASIC中才能實(shí)現(xiàn)的硬件加速平衡。同時(shí),新的機(jī)器學(xué)習(xí)處理器(MLP)單元模塊可為人工智能/機(jī)器學(xué)習(xí)(AI/ML)應(yīng)用提供高出300%的性能。
“不同應(yīng)用對(duì)于計(jì)算的要求不同,如果需要通用靈活性,CPU最合適,如果是專用場景,ASIC最強(qiáng),但在應(yīng)用上不靈活。GPU和FPGA是最適合AI計(jì)算應(yīng)用,只不過,GPU更適合云端計(jì)算,而FPGA則是邊緣計(jì)算。”Steve Mensor介紹道。在Speedcore Gen4架構(gòu)中,Achronix將機(jī)器學(xué)習(xí)處理器(MLP)添加到Speedcore可提供的資源邏輯庫單元模塊中。MLP模塊是一種高度靈活的計(jì)算引擎,它與存儲(chǔ)器緊密耦合,從而為人工智能和機(jī)器學(xué)習(xí)(AI / ML)和高數(shù)據(jù)帶寬應(yīng)用的爆炸式需求,提供了支持。
除以上優(yōu)勢(shì)之外,Speedcore Gen在解決帶寬爆炸問題、最佳的人工智能/機(jī)器學(xué)習(xí)加速器、架構(gòu)性創(chuàng)新提高系統(tǒng)性能也是Speedcore Gen4的亮點(diǎn)之處。
解決帶寬爆炸問題
固定和無線網(wǎng)絡(luò)帶寬的急劇增加,加上處理能力向邊緣等進(jìn)行重新分配,以及數(shù)十億物聯(lián)網(wǎng)設(shè)備的出現(xiàn),將給傳統(tǒng)網(wǎng)絡(luò)和計(jì)算基礎(chǔ)設(shè)施帶來壓力。這種新的處理范式意味著每秒將有數(shù)十億到數(shù)萬億次的運(yùn)算。傳統(tǒng)云和企業(yè)數(shù)據(jù)中心計(jì)算資源和通信基礎(chǔ)設(shè)施無法跟上數(shù)據(jù)速率的指數(shù)級(jí)增長、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò)和連接要求。傳統(tǒng)的多核CPU和SoC無法在沒有輔助的情況下獨(dú)立滿足這些要求,因而它們需要硬件加速器,通常是可重新編程的硬件加速器,用來預(yù)處理和卸載計(jì)算,以便提高系統(tǒng)的整體計(jì)算性能。經(jīng)過優(yōu)化后的Speedcore Gen4 eFPGA已經(jīng)可以滿足這些應(yīng)用需求。
Speedcore Gen4是最佳的人工智能/機(jī)器學(xué)習(xí)加速器
除了計(jì)算和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的通用要求之外,人工智能/機(jī)器學(xué)習(xí)還對(duì)高密度和針對(duì)性計(jì)算產(chǎn)生了顯著增加的需求。與以前的Achronix FPGA產(chǎn)品相比,新的Achronix機(jī)器學(xué)習(xí)處理器(MLP)利用了人工智能/機(jī)器學(xué)習(xí)處理的特定屬性,并將這些應(yīng)用的性能提高了300%。這是通過多種架構(gòu)性創(chuàng)新來實(shí)現(xiàn)的,這些創(chuàng)新可以同時(shí)提高每個(gè)時(shí)鐘周期的性能和操作次數(shù)。
新的Achronix機(jī)器學(xué)習(xí)處理器(MLP)是一個(gè)完整的人工智能/機(jī)器學(xué)習(xí)計(jì)算引擎,支持定點(diǎn)和多個(gè)浮點(diǎn)數(shù)格式和精度。每個(gè)機(jī)器學(xué)習(xí)處理器包括一個(gè)循環(huán)寄存器文件(Cyclical Register File),它用來存儲(chǔ)重用的權(quán)重或數(shù)據(jù)。各個(gè)機(jī)器學(xué)習(xí)處理器與相鄰的機(jī)器學(xué)習(xí)處理器單元模塊和更大的存儲(chǔ)單元模塊緊密耦合,以提供最高的處理性能、每秒最高的操作次數(shù)和最低的功率分集。這些機(jī)器學(xué)習(xí)處理器支持各種定點(diǎn)和浮點(diǎn)格式,包括Bfloat16、16位、半精度、24位和單元塊浮點(diǎn)。用戶可以通過為其應(yīng)用選擇最佳精度來實(shí)現(xiàn)精度和性能的均衡。
為了補(bǔ)充機(jī)器學(xué)習(xí)處理器并提高人工智能/機(jī)器學(xué)習(xí)的計(jì)算密度,Speedcore Gen4查找表(LUT)可以實(shí)現(xiàn)比任何獨(dú)立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨(dú)立FPGA芯片在21個(gè)查找表可以中實(shí)現(xiàn)6x6乘法器,而Speedcore Gen4僅需在11個(gè)LUT中就可實(shí)現(xiàn)相同的功能,并可在1 GHz的速率上工作。
架構(gòu)性創(chuàng)新提高系統(tǒng)性能
與上一代Speedcore產(chǎn)品相比,新的Speedcore Gen4架構(gòu)實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,從而可將系統(tǒng)整體性能提高60%。其中查找表的所有方面都得到了增強(qiáng),以支持使用最少的資源來實(shí)現(xiàn)各種功能,從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個(gè)LUT的寄存器數(shù)量加倍、支持7位函數(shù)和一些8位函數(shù)、以及為移位寄存器提供的專用高速連接。
其中的路由架構(gòu)也借由一種獨(dú)立的專用總線路由結(jié)構(gòu)得到了增強(qiáng)。此外,在該路由結(jié)構(gòu)中還有專用的總線多路復(fù)用器,可有效地創(chuàng)建分布式的、運(yùn)行時(shí)可配置的交換網(wǎng)絡(luò)。這為高帶寬和低延遲應(yīng)用提供了最佳的解決方案,并在業(yè)界首次實(shí)現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。
-
半導(dǎo)體
+關(guān)注
關(guān)注
334文章
27589瀏覽量
220651 -
摩爾定律
+關(guān)注
關(guān)注
4文章
636瀏覽量
79140 -
人工智能
+關(guān)注
關(guān)注
1792文章
47525瀏覽量
239257
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論