(文章來(lái)源:EEworld)
隨著人工智能、機(jī)器學(xué)習(xí)等應(yīng)用場(chǎng)景快速發(fā)展演進(jìn),對(duì)芯片的算力、安全性等性能也提出了更高的訴求。據(jù)市場(chǎng)調(diào)研公司Semico?Research數(shù)據(jù)顯示,2018年FPGA市值約為10億美元,在未來(lái)4年內(nèi),人工智能應(yīng)用中FPGA的市場(chǎng)規(guī)模將增長(zhǎng)3倍,達(dá)到52億美元。要知道,這個(gè)增長(zhǎng)是非常驚人的,畢竟過(guò)去多年,F(xiàn)PGA市場(chǎng)的年均增長(zhǎng)率也才8%-9%。目前人工智能、機(jī)器學(xué)習(xí)等應(yīng)用場(chǎng)景的FPGA市場(chǎng)約為25%,預(yù)計(jì)兩年后將達(dá)到72%。如此龐大的市場(chǎng)空間,則需要性能更高、更加靈活的AI 算法解決方案。
關(guān)于塊浮點(diǎn)數(shù)(BFP)已經(jīng)出現(xiàn)一段時(shí)間了,但是現(xiàn)在才開始被看作是執(zhí)行機(jī)器學(xué)習(xí)操作的一種非常有用的技術(shù)。值得指出的是,這與bfloat不是一回事。BFP結(jié)合了定點(diǎn)運(yùn)算的效率,并提供了全浮點(diǎn)運(yùn)算的動(dòng)態(tài)范圍。在研究BFP中使用的方法時(shí),我想起了幾個(gè)用于簡(jiǎn)化數(shù)學(xué)問(wèn)題的“技巧”。首先想到的是所謂的日本乘法,它使用簡(jiǎn)單的圖形方法來(lái)確定產(chǎn)品。另一個(gè),當(dāng)然,是曾經(jīng)流行但現(xiàn)在幾乎被遺忘的計(jì)算尺。
在即將到來(lái)的網(wǎng)絡(luò)研討會(huì)上,Achronix的戰(zhàn)略和規(guī)劃高級(jí)總監(jiān)Mike Fitton解釋了關(guān)于在人工智能/ML工作負(fù)載的FPGA中使用BFP的相關(guān)問(wèn)題,BFP依賴于標(biāo)準(zhǔn)化的不動(dòng)點(diǎn)隨機(jī)數(shù),因此計(jì)算中使用的“塊”數(shù)字都具有相同的指數(shù)值。在乘法的情況下,只需要對(duì)尾數(shù)進(jìn)行定點(diǎn)乘法,對(duì)指數(shù)進(jìn)行簡(jiǎn)單的加法。令人驚訝的是,與傳統(tǒng)的浮點(diǎn)運(yùn)算相比,BFP提供了更快的速度和更低的功耗。當(dāng)然,整數(shù)運(yùn)算更精確,使用的功耗也更低,但是它們?nèi)狈FP的動(dòng)態(tài)范圍。根據(jù)Mike BFP的說(shuō)法,他為人工智能/ML工作負(fù)載提供了一個(gè)最佳位置,而網(wǎng)絡(luò)研討會(huì)將為他的結(jié)論提供支持?jǐn)?shù)據(jù)。
AI/ML訓(xùn)練和推理的需求與dsp中信號(hào)處理通常需要的需求大不相同。它適用于內(nèi)存訪問(wèn),也適用于數(shù)學(xué)單元實(shí)現(xiàn)。Mike詳細(xì)討論了這一點(diǎn),并展示他們構(gòu)建到Speedster7t中的新機(jī)器學(xué)習(xí)處理器(MLP)單元如何對(duì)BFP提供本機(jī)支持,還支持廣泛的完全可配置的整數(shù)和浮點(diǎn)精度。實(shí)際上,它們的MLP非常適合傳統(tǒng)的工作負(fù)載,并且在AI/ML方面也很出色,沒(méi)有任何區(qū)域損失。每個(gè)MAC塊最多有32個(gè)倍增器。
Achronix MLP具有緊密耦合的內(nèi)存,方便了AI/ML工作負(fù)載。每個(gè)MLP有一個(gè)本地72K位塊RAM和一個(gè)2K位寄存器文件。MLP的數(shù)學(xué)塊可以配置為級(jí)聯(lián)內(nèi)存和操作數(shù),而無(wú)需使用FPGA路由資源。
Achronix公司推出了創(chuàng)新性的、全新的FPGA系列產(chǎn)品——Speedster 7t系列。Achronix稱,Speedster 7t系列是基于一種高度優(yōu)化的全新架構(gòu),以其所具有的如同ASIC一樣的性能、可簡(jiǎn)化設(shè)計(jì)的FPGA靈活性和增強(qiáng)功能,從而遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的FPGA解決方案。
Speedster7t也非常有趣,因?yàn)樾酒系母邤?shù)據(jù)速率網(wǎng)絡(luò)(NoC)可以用來(lái)移動(dòng)數(shù)據(jù)之間的MLP和/或其他塊或芯片上的數(shù)據(jù)接口。NoC可以在不消耗寶貴的FPGA資源的情況下移動(dòng)數(shù)據(jù),并且避免了FPGA結(jié)構(gòu)內(nèi)部的瓶頸。NoC有多個(gè)管道,256位寬,2GHz運(yùn)行,數(shù)據(jù)速率為512G。它們可以直接將數(shù)據(jù)從外圍設(shè)備(如400G以太網(wǎng))移動(dòng)到GDDR6內(nèi)存中,而不需要使用任何FPGA資源。
Achronix將提出一個(gè)令人信服的理由,說(shuō)明為什么在他們的架構(gòu)中本地實(shí)現(xiàn)BFP(包括許多開創(chuàng)性的特性)對(duì)于AI/ML和其他更傳統(tǒng)的FPGA應(yīng)用程序(如數(shù)據(jù)聚合、IO橋接、壓縮、加密、網(wǎng)絡(luò)加速等)來(lái)說(shuō)是非常有吸引力的選擇。
對(duì)于AI加速來(lái)說(shuō),相較于我們常見的CPU、GPU等通用型芯片以及可編程的FPGA來(lái)說(shuō),ASIC芯片的計(jì)算能力和計(jì)算效率都直接根據(jù)特定的算法的需要進(jìn)行定制的,它可以實(shí)現(xiàn)體積小、功耗低、高可靠性、保密性強(qiáng)、計(jì)算性能高、計(jì)算效率高等優(yōu)勢(shì)。所以,在其所針對(duì)的特定的應(yīng)用領(lǐng)域,ASIC芯片的能效表現(xiàn)要遠(yuǎn)超CPU、GPU等通用型芯片以及可編程的FPGA。
但是,目前AI算法仍然處在一個(gè)不斷的快速更新迭代的階段,數(shù)值精度的可選擇性也越來(lái)越多。同時(shí)隨著AI的應(yīng)用場(chǎng)景快速發(fā)展演進(jìn),新的解決方案都要去應(yīng)對(duì)在高性能、靈活和上市時(shí)間等方面的不同需求。而AISC是針對(duì)特定的算法加速所設(shè)計(jì)的,這也使得其在靈活性上遠(yuǎn)不如可通過(guò)編程快速適應(yīng)新的軟件算法的FPGA。但是,F(xiàn)PGA在體積、能效、成本上卻又不如AISC。那么是否能夠有這樣一款產(chǎn)品,能夠很好的將FPGA和ASIC的優(yōu)點(diǎn)結(jié)合在一起呢?Achronix的Speedster 7t系列或許就是這樣一款產(chǎn)品。
Speedster7t FPGA系列產(chǎn)品是專為高帶寬應(yīng)用進(jìn)行設(shè)計(jì),具有一個(gè)革命性的全新二維片上網(wǎng)絡(luò)(2D NoC),以及一個(gè)高密度全新機(jī)器學(xué)習(xí)處理器(MLP)模塊陣列。Achronix CEO Robert Blake認(rèn)為Speedster7t是Achronix歷史上最令人激動(dòng)的發(fā)布,代表了建立在四個(gè)架構(gòu)代系的硬件和軟件開發(fā)基礎(chǔ)上的創(chuàng)新和積淀,以及與我們領(lǐng)先客戶之間的密切合作。
Speedster7t是靈活的FPGA技術(shù)與ASIC核心效率的融合,從而提供了一個(gè)全新的‘FPGA+’芯片品類,它們可以將高性能技術(shù)的極限大大提升。
AI、ML需要矢量矩陣乘法,而傳統(tǒng)的帶DSP模塊的FPGA性能有限,需要消耗額外邏輯和Memory資源,而新的MLP是高度可配置的、計(jì)算密集型的單元模塊,可支持4到24位的整點(diǎn)格式和高效的浮點(diǎn)模式,包括對(duì)TensorFlow的16位格式的支持,以及可使每個(gè)MLP的計(jì)算引擎加倍的增壓塊浮點(diǎn)格式的直接支持。它可提供業(yè)界最高的、基于FPGA的計(jì)算密度。
值得一提的是,Speedster7t器件是唯一支持GDDR6存儲(chǔ)器的FPGA,該類存儲(chǔ)器是具有最高帶寬的外部存儲(chǔ)器件。每個(gè)GDDR6存儲(chǔ)控制器都能夠支持512 Gbps的帶寬,Speedster7t器件中有多達(dá)8個(gè)GDDR6控制器,可以支持4 Tbps的GDDR6累加帶寬,并且以很小的成本就可提供與基于HBM的FPGA等效存儲(chǔ)帶寬。
除了這種超高的存儲(chǔ)帶寬,Speedster7t器件還包括業(yè)界最高性能的接口端口,以支持極高帶寬的數(shù)據(jù)流。Speedster7t器件擁有多達(dá)72個(gè)業(yè)界最高性能的SerDes,可以達(dá)到1到112 Gbps的速度。還有帶有前向糾錯(cuò)(FEC)的硬件400G以太網(wǎng)MAC,支持4x 100G和8x 50G的配置,以及每個(gè)控制器有8個(gè)或16個(gè)通道的硬件PCI Express Gen5控制器。
Speedster7t高速I/O和存儲(chǔ)器端口的產(chǎn)生的數(shù)萬(wàn)兆比特?cái)?shù)據(jù)很容易淹沒(méi)傳統(tǒng)FPGA面向比特位的可編程互連邏輯陣列的路由容量,而Speedster7t架構(gòu)包含一個(gè)可橫跨和垂直跨越FPGA邏輯陣列的創(chuàng)新性的、高帶寬的二維片上網(wǎng)絡(luò)(NOC),它們連接到所有FPGA的高速數(shù)據(jù)和存儲(chǔ)器接口。
它們就像疊加在FPGA互連這個(gè)城市街道系統(tǒng)上的空中高速公路網(wǎng)絡(luò)一樣,Speedster7t的NoC支持片上處理引擎之間所需的高帶寬通信。NoC中的每一行或每一列都可作為兩個(gè)256位實(shí)現(xiàn),單向的、行業(yè)標(biāo)準(zhǔn)的AXI通道,工作頻率為2Ghz,同時(shí)可為每個(gè)方向提供512 Gbps的數(shù)據(jù)流量。
通過(guò)在Speedster中實(shí)現(xiàn)專用二維NoC,極大地簡(jiǎn)化了高速數(shù)據(jù)移動(dòng),并確保數(shù)據(jù)流可以輕松地定向到整個(gè)FPGA結(jié)構(gòu)中的任何自定義處理引擎。最重要的是,NOC消除了傳統(tǒng)FPGA使用可編程路由和邏輯查找表資源在整個(gè)FPGA中移動(dòng)數(shù)據(jù)流中出現(xiàn)的擁塞和性能瓶頸。這種高性能網(wǎng)絡(luò)不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時(shí)提高有效LUT容量。
Speedster7t FPGA系列產(chǎn)品在面臨第三方攻擊的威脅時(shí),可用最先進(jìn)的比特流安全保護(hù)功能應(yīng)對(duì),它們具有的多層防御能力可保護(hù)比特流的保密性和完整性。密鑰是基于防篡改物理不可克隆技術(shù)(PUF)進(jìn)行加密,比特流由256位的AES-GCM加密算法進(jìn)行加密和驗(yàn)證。為了防止來(lái)自旁側(cè)信道的攻擊,比特流被分段,每個(gè)數(shù)據(jù)段使用單獨(dú)導(dǎo)出的密鑰,且解密硬件采用差分功率分析(DPA)計(jì)數(shù)器措施。
此外,2048位RSA公鑰認(rèn)證協(xié)議被用來(lái)激活解密和認(rèn)證硬件。用戶可以確信的是當(dāng)他們加載其安全比特流時(shí),它是預(yù)期的配置,這是因?yàn)樗淹ㄟ^(guò)RSA公鑰、AES-GCM私鑰和CRC校驗(yàn)進(jìn)行了身份驗(yàn)證。
據(jù)悉,Achronix是目前唯一一家既提供獨(dú)立FPGA芯片又提供Speedcore嵌入式FPGA(eFPGA)半導(dǎo)體知識(shí)產(chǎn)權(quán)( IP)的公司。也就是說(shuō),芯片設(shè)計(jì)廠商可以通過(guò)購(gòu)買授權(quán)的形式,將Achronix的Speedcore嵌入式FPGA(eFPGA)的IP整合到自己的芯片設(shè)計(jì)當(dāng)中,設(shè)計(jì)出符合自身需求的芯片。
而Achronix在Speedcore eFPGA IP中采用了與Speedster7t FPGA中使用的同一種技術(shù),可支持從Speedster7t FPGA到ASIC的無(wú)縫轉(zhuǎn)換。這也意味著芯片設(shè)計(jì)廠商通過(guò)與Achronix合作,也可以獲得最新的Speedster7t FPGA系列的技術(shù),并可將其轉(zhuǎn)換為ASIC。Achronix CEORobert Blake表示,該技術(shù)有望幫助客戶節(jié)省高達(dá)50%的功耗并降低90%的成本。
? ? ? (責(zé)任編輯:fqj)
評(píng)論
查看更多