萊迪思半導(dǎo)體白皮書
引言
隨著傳感器、低成本攝像頭和顯示屏在當(dāng)今嵌入式設(shè)計(jì)中的使用量飛速增長(zhǎng),市場(chǎng)上出現(xiàn)了許多激動(dòng)人心的全新智能和視覺應(yīng)用。與此同時(shí),嵌入式視覺應(yīng)用的爆炸式發(fā)展也讓設(shè)計(jì)工程師對(duì)處理資源需求有了一個(gè)新的認(rèn)識(shí)。包含豐富數(shù)據(jù)的全新視頻應(yīng)用促使設(shè)計(jì)工程師重新考慮到底采用哪種器件,是專用應(yīng)用處理器(AP)、ASIC還是ASSP?然而,在某些情況下,在現(xiàn)有應(yīng)用處理器、ASIC或ASSP方面的大量軟件投入以及全新器件的高啟動(dòng)成本已然成為上述應(yīng)用更新迭代的阻礙。這一次,擺在眼前的問題推動(dòng)設(shè)計(jì)工程師尋求一種協(xié)處理解決方案,不僅要能夠?yàn)榘S富數(shù)據(jù)的全新應(yīng)用提供所需的額外功能,同時(shí)還要滿足系統(tǒng)成本和功耗的嚴(yán)苛要求。
除此之外,市場(chǎng)上對(duì)于面向移動(dòng)應(yīng)用的低成本MIPI外設(shè)的廣泛采用也催生了從未有過的互連挑戰(zhàn)。設(shè)計(jì)工程師既希望利用最新一代MIPI攝像頭和顯示屏的量產(chǎn)成本優(yōu)勢(shì),同時(shí)又希望能夠保有在傳統(tǒng)設(shè)備上的投入。那么在這種快速發(fā)展的大環(huán)境中,設(shè)計(jì)工程師該如何解決傳感器、嵌入式顯示屏和應(yīng)用處理器之間不斷涌現(xiàn)的接口不匹配問題呢?
設(shè)計(jì)工程師需要一種高度靈活的解決方案,能夠?qū)崿F(xiàn)高性能、“業(yè)內(nèi)最佳”的協(xié)處理器,滿足視覺和智能應(yīng)用對(duì)于邏輯資源和高度并行計(jì)算能力的需求,同時(shí)增加對(duì)各類I/O標(biāo)準(zhǔn)和協(xié)議的互連支持。此外,這樣的解決方案還應(yīng)當(dāng)具備高度可擴(kuò)展的架構(gòu),并支持使用主流高數(shù)據(jù)速率的低成本外部DDR DRAM。最后,該解決方案還需要針對(duì)低功耗和低成本運(yùn)算進(jìn)行優(yōu)化,并為設(shè)計(jì)工程師提供業(yè)界領(lǐng)先的超小尺寸封裝。
在本文中,我們將為您介紹ECP5?和LatticeECP3? FPGA如何為嵌入式設(shè)計(jì)實(shí)現(xiàn)協(xié)處理和互連解決方案,并重點(diǎn)探討這些解決方案在工業(yè)、消費(fèi)電子、汽車和機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用實(shí)例。
為視覺與智能應(yīng)用實(shí)現(xiàn)高效的協(xié)處理解決方案
萊迪思半導(dǎo)體?推出的ECP5和LatticeECP3 FPGA系列可實(shí)現(xiàn)“業(yè)內(nèi)最佳”的協(xié)處理器,并針對(duì)互連功能以及高性能和低功耗進(jìn)行了優(yōu)化。ECP5 FPGA系列提供業(yè)界最小尺寸封裝(10x10 mm),并具備高達(dá)85K查找表(LUT),功能密度相比競(jìng)品高出近2倍,同時(shí)成本和功耗也大幅降低。ECP5 FPGA支持與ASIC、ASSP和應(yīng)用處理器實(shí)現(xiàn)互連,并具備優(yōu)化的I/O和體系架構(gòu)。增強(qiáng)的嵌入式DSP塊和高度并行的FPGA邏輯架構(gòu)為計(jì)算密集型協(xié)處理功能提供了所需的高性能支持。ECP5 FPGA系列可提供高達(dá)4條SERDES互連通道,支持PCI Express(Gen1,Gen2)、以太網(wǎng)(1GbE,SGMII,XAUI)、CPRI、嵌入式顯示端口( eDP)和JESD204B,每條通道速率為250 Mbps至5 Gbps。同時(shí),器件上的可編程I/O還支持各類接口,包括DDR3、LPDDR3、LVCMOS、RGMII、XGMII、LVTTL、LVDS、Bus-LVDS、7:1 LVDS、LVPECL和MIPI D-PHY。
當(dāng)協(xié)處理或互連應(yīng)用需要超過85K LUT或超過4條SERDES通道時(shí),設(shè)計(jì)工程師可以選擇LatticeECP3 FPGA。LatticeECP3 FPGA系列可提供最高150K LUT和6.8 Mbit SRAM,封裝尺寸小至10x10 mm。相比ECP5 FPGA系列,該產(chǎn)品系列最高支持16個(gè)3.125 Gbps SERDES通道。此外,該產(chǎn)品系列中的器件均支持800 Mbps DDR3和LVDS,并且能夠提供超過500個(gè)可編程系統(tǒng)I/O緩沖器,支持以太網(wǎng)(通過RGMII和XGMII)以及大量額外的I/O接口,而嵌入式SERDES則支持PCIe、以太網(wǎng)(通過SGMII和XAUI)、HDMI、高速串行I/O(Serial Rapid I/O)、CPRI、JESD204A/B等。LatticeECP3 FPGA系列的功耗低至0.5 W。與ECP5 FPGA系列一樣,使用LatticeECP3 FPGA的設(shè)計(jì)工程師可以使用高度并行的FPGA邏輯架構(gòu)高效地執(zhí)行計(jì)算密集型功能,并通過FPGA分擔(dān)視覺和智能功能,如圖像處理和分析任務(wù)以降低處理器工作負(fù)載,從而實(shí)現(xiàn)更低的功耗和更高的性能。
為工業(yè)應(yīng)用實(shí)現(xiàn)視覺處理解決方案
在工業(yè)領(lǐng)域,基于ECP5 FPGA的協(xié)處理能夠發(fā)揮重要作用,可用于降低視頻攝像頭、監(jiān)控和機(jī)器視覺應(yīng)用中應(yīng)用處理器、ASIC或ASSP的計(jì)算負(fù)載。圖1展示了一款典型的工業(yè)攝像頭應(yīng)用。在下方的圖示中,F(xiàn)PGA位于圖像傳感器和以太網(wǎng)PHY之間。圖像傳感器將圖像數(shù)據(jù)流傳輸?shù)紽PGA,然后FPGA基于H.264編碼進(jìn)行圖像處理或圖像壓縮。FPGA的片上嵌入式RAM塊(Embedded Block RAM, EBR)和DSP塊實(shí)現(xiàn)高性能寬動(dòng)態(tài)范圍(WDR)和圖像信號(hào)處理(ISP)功能。最后,F(xiàn)PGA將圖像數(shù)據(jù)通過以太網(wǎng)進(jìn)行傳輸。
圖1:通過實(shí)現(xiàn)圖像處理或壓縮功能,ECP5 FPGA可降低工業(yè)攝像頭應(yīng)用中應(yīng)用處理器的計(jì)算負(fù)載
除了進(jìn)行圖像處理和壓縮之外,如果應(yīng)用處理器接口的類型或數(shù)量與攝像頭或傳感器的不匹配,F(xiàn)PGA還可用于實(shí)現(xiàn)它們之間的視頻橋接。為了滿足工業(yè)應(yīng)用對(duì)于靈活互連的需求,萊迪思推出了可編程ECP5 12K器件,能夠連接到包括LVDS、MIPI和LPDDR3在內(nèi)的常用接口。該器件能夠以低成本提供LED控制器、機(jī)器視覺系統(tǒng)和工業(yè)電機(jī)控制等應(yīng)用中預(yù)處理和后處理功能所需的邏輯、存儲(chǔ)器和DSP資源。
除了常見工業(yè)攝像頭應(yīng)用之外,機(jī)器視覺(工業(yè)領(lǐng)域里更專業(yè)的攝像頭應(yīng)用)也可受益于ECP5 FPGA提供的互連和協(xié)處理能力。圖2中的框圖展示了FPGA可在常見的工業(yè)機(jī)器視覺系統(tǒng)中發(fā)揮的多種作用。在攝像頭應(yīng)用領(lǐng)域,F(xiàn)PGA可用于實(shí)現(xiàn)傳感器橋接、完整的攝像頭ISP或定制功能來幫助系統(tǒng)設(shè)計(jì)工程師實(shí)現(xiàn)差異化的終端產(chǎn)品。對(duì)于圖像采集卡而言,像ECP5一樣的FPGA還可以解決視頻接口問題和實(shí)現(xiàn)圖像處理功能。
機(jī)器視覺系統(tǒng)框圖
圖2:在常見的工業(yè)機(jī)器視覺解決方案中,F(xiàn)PGA可用于實(shí)現(xiàn)各種接口橋接和處理功能
為智慧城市實(shí)現(xiàn)智能交通和監(jiān)控?cái)z像頭應(yīng)用
智能交通系統(tǒng)(ITS)包括交通流量監(jiān)控、交通違章識(shí)別、智能停車和收費(fèi)等應(yīng)用,是智慧城市的重要組成部分。上述系統(tǒng)通常需要智能交通攝像頭,用于準(zhǔn)確檢測(cè)車輛多個(gè)方面的信息,例如車牌,即使在惡劣的環(huán)境中也要在網(wǎng)絡(luò)邊緣進(jìn)行視頻分析,不用將原始視頻流發(fā)送回云端進(jìn)行處理。單獨(dú)的應(yīng)用處理器通常不能同時(shí)滿足系統(tǒng)功耗和實(shí)時(shí)處理的要求。低功耗、小尺寸的ECP5 FPGA系列可用作應(yīng)用處理器的協(xié)處理器,在網(wǎng)絡(luò)邊緣實(shí)現(xiàn)系統(tǒng)所需的高效實(shí)時(shí)處理功能。
除了上文中提到的ISP外,ECP5 FPGA還可以實(shí)現(xiàn)視頻分析功能,進(jìn)一步減輕應(yīng)用處理器的計(jì)算密集型任務(wù),從而降低系統(tǒng)功耗、實(shí)現(xiàn)更高的實(shí)時(shí)性能。FPGA可為智能攝像頭應(yīng)用實(shí)現(xiàn)目標(biāo)偵測(cè)、圖像處理和圖像增強(qiáng)等解決方案。例如,偵測(cè)目標(biāo)可以是監(jiān)控?cái)z像頭實(shí)例中的人臉圖像或是交通攝像頭實(shí)例中的車牌。
圖3:ECP5 FPGA為智能攝像頭應(yīng)用實(shí)現(xiàn)圖像處理和視頻分析功能框圖,分擔(dān)應(yīng)用處理器的計(jì)算密集型任務(wù)
在圖3所示的智能交通攝像頭實(shí)例中,F(xiàn)PGA基于傳感器捕獲的圖像數(shù)據(jù)檢測(cè)到車輛牌照,即使在低光照或強(qiáng)背光條件下亦能執(zhí)行圖像增強(qiáng)以生成清晰圖像 - 針對(duì)目標(biāo)(車牌)和背景(圖像中的剩余部分)使用不同的曝光設(shè)置,然后融合目標(biāo)和背景圖像以生成更清晰的圖像。然后,F(xiàn)PGA生成的目標(biāo)偵測(cè)結(jié)果輸入到應(yīng)用處理器運(yùn)行的分析算法。使用ECP5 FPGA的并行處理器架構(gòu)分擔(dān)分析算法中計(jì)算密集程度最高的步驟,智能攝像頭能夠在保持低功耗的同時(shí)提高性能。
為移動(dòng)系統(tǒng)實(shí)現(xiàn)沉浸式增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)應(yīng)用
隨著AR/VR市場(chǎng)需求不斷增長(zhǎng),當(dāng)前基于頭戴式顯示器(HMD)的系統(tǒng)面臨著移動(dòng)應(yīng)用處理器運(yùn)行內(nèi)容時(shí)性能不足的問題。因此,要實(shí)現(xiàn)身臨其境的AR/VR體驗(yàn)所需的基于視覺的位置追蹤功能,對(duì)于處理器而言是頗具挑戰(zhàn)性的。在這種情況下,ECP5 FPGA的高效并行處理架構(gòu)非常適合用于實(shí)現(xiàn)基于立體攝像頭和LED標(biāo)記的位置跟蹤解決方案。與應(yīng)用處理器相比,F(xiàn)PGA能夠提供低延遲、低功耗的圖像處理支持。FPGA的可編程架構(gòu)和I/O也使得系統(tǒng)設(shè)計(jì)工程師能夠根據(jù)產(chǎn)品要求輕松選擇來自不同廠商的圖像傳感器。
在“outside-in”的位置追蹤解決方案中,立體攝像頭被放置在房間內(nèi)(在室內(nèi)攝像頭看用戶),通過捕捉安裝在用戶頭盔和手柄控制器上的LED標(biāo)記來追蹤用戶的運(yùn)動(dòng)(諸如身體運(yùn)動(dòng)和手部運(yùn)動(dòng)),如下方圖4所示。安裝在三腳架上攝像頭單元內(nèi)部的FPGA基于立體攝像頭捕獲的數(shù)據(jù)來計(jì)算用戶的位置、身體和手部動(dòng)作,然后將數(shù)據(jù)通過無線方式發(fā)送到用戶頭盔中的移動(dòng)應(yīng)用處理器,最終通過AR/VR應(yīng)用呈現(xiàn)現(xiàn)實(shí)世界與虛擬世界的互動(dòng)。立體攝像頭為運(yùn)行在FPGA上的算法提供了深度感知支持,從而實(shí)現(xiàn)三坐標(biāo)定位。
圖4:使用立體攝像頭(放置在房間內(nèi))的“outside-in”位置追蹤解決方案,通過捕獲安裝在用戶頭盔和手柄控制器上的LED標(biāo)記來跟蹤用戶的身體和手部動(dòng)作
在“inside-out”的位置追蹤解決方案中,安裝在用戶頭盔上的立體攝像頭(從用戶所在位置通過“inside-out”的方式朝向室內(nèi)環(huán)境)捕獲安裝在手柄控制器上的LED標(biāo)記來跟蹤用戶手部動(dòng)作,如圖5所示。安裝在用戶頭盔攝像頭單元內(nèi)的FPGA基于立體攝像頭數(shù)據(jù)來計(jì)算用戶的手部動(dòng)作,然后將數(shù)據(jù)發(fā)送到頭盔中的移動(dòng)應(yīng)用處理器,最終通過AR/VR應(yīng)用呈現(xiàn)出來。
圖5:使用立體攝像頭(安裝在用戶頭盔上)的“inside-out”位置追蹤,通過捕獲安裝在手柄控制器上的LED標(biāo)記來跟蹤用戶手部動(dòng)作
雖然“outside-in”和“inside-out”這兩種追蹤解決方案都能實(shí)現(xiàn)沉浸式體驗(yàn),但“outside-in”系統(tǒng)可以提供更卓越的沉浸感,因?yàn)樗€可以通過頭盔上的LED標(biāo)記跟蹤身體運(yùn)動(dòng)(如步行、跑步、蹲、跳等) ,將現(xiàn)實(shí)世界中的身體運(yùn)動(dòng)映射到虛擬世界中。
在這兩個(gè)系統(tǒng)中,用戶的運(yùn)動(dòng)信息需要以極低的延遲立刻呈現(xiàn)在虛擬世界中,實(shí)現(xiàn)最為逼真的用戶體驗(yàn)。ECP5 FPGA的并行處理能力是實(shí)現(xiàn)低延遲傳輸?shù)年P(guān)鍵。此外,它的低功耗和小尺寸封裝特性也是實(shí)現(xiàn)暢行無阻的移動(dòng)體驗(yàn)的關(guān)鍵之所在。
為汽車ADAS系統(tǒng)實(shí)現(xiàn)協(xié)處理和橋接解決方案
汽車市場(chǎng)對(duì)視覺處理和互連解決方?6?7?6?7案的需求正在大幅增長(zhǎng)。市場(chǎng)研究公司IC Insights的分析師預(yù)計(jì),隨著在新一代汽車設(shè)計(jì)中要求使用后置攝像頭的新規(guī)定施行以及在汽車設(shè)計(jì)中引入攝像頭以取代兩側(cè)后視鏡、實(shí)現(xiàn)盲點(diǎn)檢測(cè)和車道跟蹤功能的發(fā)展趨勢(shì),CMOS圖像傳感器將在2015年至2020年間隨著汽車領(lǐng)域中全新應(yīng)用的興起將以55%的復(fù)合年增長(zhǎng)率實(shí)現(xiàn)增長(zhǎng)。
在這個(gè)快速成長(zhǎng)的市場(chǎng)中,汽車設(shè)計(jì)工程師所需的解決方案不僅要能夠?qū)崿F(xiàn)預(yù)處理和后處理功能,還要能夠?yàn)楦呒?jí)駕駛輔助系統(tǒng)(ADAS)和信息娛樂應(yīng)用構(gòu)建優(yōu)化的互連解決方?6?7?6?7案。隨著汽車制造商開發(fā)的ADAS系統(tǒng)日趨復(fù)雜,設(shè)計(jì)工程師面臨著兩大挑戰(zhàn)。第一個(gè)挑戰(zhàn)是如何解決攝像頭數(shù)量不斷增長(zhǎng)帶來的接口問題?大多數(shù)現(xiàn)代處理器僅具備兩個(gè)攝像頭接口,而很多ADAS系統(tǒng)需要多達(dá)8個(gè)攝像頭才能滿足不斷發(fā)展的自動(dòng)駕駛技術(shù)要求。第二個(gè)挑戰(zhàn)是設(shè)計(jì)工程師要如何基于來自上述攝像頭的大量數(shù)據(jù)進(jìn)行圖像處理?
為了應(yīng)對(duì)這些挑戰(zhàn),設(shè)計(jì)工程師需要一種能夠提供協(xié)處理資源的解決方案,可將來自多個(gè)攝像頭的多路視頻流拼接在一起,或?qū)碜远鄠€(gè)攝像頭的輸入進(jìn)行圖像處理(如白平衡、魚眼校正、除霧),然后將這些數(shù)據(jù)通過單個(gè)數(shù)據(jù)流傳輸?shù)綉?yīng)用處理器。汽車設(shè)計(jì)工程師還需要能夠靈活地操作儀表板、儀表盤以及后座信息娛樂系統(tǒng)的的多個(gè)顯示屏,以及在傳統(tǒng)接口和新的MIPI接口之間實(shí)現(xiàn)橋接。
萊迪思汽車級(jí)ECP5 FPGA(AEC-Q100)可為這些應(yīng)用提供用于加速圖像處理流水線所需的并行處理能力,而大量的I/O則可用于連接到更大的攝像頭陣列。能夠反映這種趨勢(shì)的一個(gè)實(shí)例就是現(xiàn)在越來越多的汽車都具備鳥瞰功能。一般來說,鳥瞰功能是指從汽車上方20英尺處向下看的實(shí)時(shí)視頻圖像。ADAS系統(tǒng)通過將來自4個(gè)或更多攝像頭的數(shù)據(jù)拼接在一起實(shí)現(xiàn)寬視野(FoV)來實(shí)現(xiàn)上述功能。
一直以來,設(shè)計(jì)工程師都是使用單個(gè)處理器來處理來自單個(gè)攝像頭的圖像數(shù)據(jù)。現(xiàn)在,設(shè)計(jì)工程師可以使用單個(gè)ECP5 FPGA替代多個(gè)處理器,聚合來自多個(gè)攝像頭的數(shù)據(jù),并進(jìn)行圖像拼接、魚眼去除、白平衡、HDR調(diào)整等操作以盡可能提高圖像質(zhì)量,然后將高質(zhì)量圖像發(fā)送到處理器進(jìn)行下一個(gè)步驟。使用這種方法的設(shè)計(jì)工程師可以在獲得更高性能的同時(shí)降低成本和功耗。
圖6展示了萊迪思客戶如何構(gòu)建上文中提到的解決方案。該鳥瞰系統(tǒng)從安裝在汽車四周的攝像頭(前方、后方和兩側(cè))捕獲視頻圖像。ECP5 FPGA用于對(duì)視頻數(shù)據(jù)繼續(xù)進(jìn)行處理和拼接以提供360度視野。在這種情況下,一片F(xiàn)PGA即可替代多個(gè)ARM處理器。該系統(tǒng)最終呈現(xiàn)的是清晰的1080p 60 fps視頻。除ECP5 FPGA之外,該方案僅使用了一個(gè)低端ARM處理器用于初始校準(zhǔn)和視頻編碼/記錄功能。
圖6:展示了開發(fā)工程師如何使用單個(gè)ECP5 FPGA實(shí)現(xiàn)從前需要使用多個(gè)ARM處理器的鳥瞰系統(tǒng)
圖7:展示了ECP5 FPGA使用來自4個(gè)攝像頭的圖像輸入實(shí)現(xiàn)的360度全景視野
FPGA可在汽車設(shè)計(jì)中扮演的另一個(gè)重要角色是構(gòu)建傳統(tǒng)接口與越來越流行的MIPI攝像頭和顯示屏之間的低成本橋接解決方案。
圖8:在車載信息娛樂系統(tǒng)中,ECP5 FPGA可用于預(yù)處理和后處理功能,并實(shí)現(xiàn)應(yīng)用處理器和顯示屏之間的視頻橋接
例如,在圖8的框圖中,ECP5 FPGA位于應(yīng)用處理器或SoC與一個(gè)或多個(gè)汽車顯示屏之間,用于預(yù)處理和后處理功能,并實(shí)現(xiàn)DSI或FPD-Link接口應(yīng)用處理器與Open LDI、LVDS、FPD-Link或eDP接口顯示屏之間的橋接。FPGA還可用于多種其他信息娛樂應(yīng)用,包括分別將單個(gè)視頻輸出到雙后座顯示屏,對(duì)圖像進(jìn)行裁剪和格式化以獲得特定的視頻分辨率。
ECP5的豐富處理資源也為實(shí)現(xiàn)各種傳感器橋接、聚合和協(xié)處理解決方案奠定了基礎(chǔ)。如圖9所示,ECP5 FPGA用于控制和聚合來自多種傳感器數(shù)據(jù)的智能中心。通過對(duì)傳感器數(shù)據(jù)進(jìn)行預(yù)處理和后處理以及實(shí)現(xiàn)I2C管理功能和SPI接口,F(xiàn)PGA可以顯著降低應(yīng)用處理器的計(jì)算負(fù)載。
圖9:ECP5 FPGA實(shí)現(xiàn)數(shù)據(jù)橋接和智能中心,用于控制和聚合多種類型的傳感器
另一個(gè)橋接、聚合和協(xié)處理解決方案實(shí)例則使用萊迪思汽車級(jí)FPGA的3.2 Gbps SERDES功能聚合來自多個(gè)雷達(dá)或攝像頭的數(shù)據(jù),并通過BroadR-Reach或以太網(wǎng)等汽車內(nèi)部網(wǎng)絡(luò)?6?7?6?7傳輸。在圖10中,來自多個(gè)傳感器的數(shù)據(jù)通過LVDS接口傳輸?shù)紼CP5 FPGA,然后ECP5 FPGA對(duì)數(shù)據(jù)進(jìn)行聚合和打包,通過基于SERDES的SGMII接口傳輸?shù)狡噧?nèi)部網(wǎng)絡(luò)。
圖10:汽車級(jí)ECP5 FPGA的LVDS和3.2 Gbps SERDES功能用于實(shí)現(xiàn)多個(gè)雷達(dá)或攝像頭的橋接和聚合,并通過SGMII傳輸?shù)杰囕d網(wǎng)絡(luò)
實(shí)現(xiàn)網(wǎng)絡(luò)邊緣機(jī)器學(xué)習(xí)應(yīng)用
展望未來,移動(dòng)相關(guān)解決方案的影響力將不斷增長(zhǎng),它們將繼續(xù)利用移動(dòng)處理器和MIPI傳感器和顯示屏的應(yīng)用支持和規(guī)模制造優(yōu)勢(shì)為網(wǎng)絡(luò)邊緣實(shí)現(xiàn)智能功能。市場(chǎng)上對(duì)于部署人工智能(AI)、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)來實(shí)現(xiàn)上述目標(biāo)的需求在不斷增長(zhǎng)。
在機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域,用于進(jìn)行圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練之后可以識(shí)別貓的圖像,舉個(gè)例子,通過向神經(jīng)網(wǎng)絡(luò)投喂數(shù)以千計(jì)的圖像并分配輸入圖像的權(quán)重直至神經(jīng)網(wǎng)絡(luò)能夠正確識(shí)別貓的圖像。開發(fā)數(shù)據(jù)架構(gòu)和分配權(quán)重可能需要數(shù)TB的數(shù)據(jù)和大量的計(jì)算資源。因此,基于深度學(xué)習(xí)技術(shù)的機(jī)器學(xué)習(xí)應(yīng)用的訓(xùn)練步驟放在使用高端GPU和FPGA的數(shù)據(jù)中心,只有在數(shù)據(jù)中心海量的計(jì)算需求才能得以滿足。
模型經(jīng)過訓(xùn)練之后,它將被移植到網(wǎng)絡(luò)邊緣應(yīng)用中的嵌入式系統(tǒng),然后為圖像識(shí)別或語音識(shí)別等應(yīng)用實(shí)現(xiàn)推理功能。在網(wǎng)絡(luò)邊緣應(yīng)用領(lǐng)域,設(shè)備必須通過計(jì)算更快速、更高效地做出決定。因此,設(shè)計(jì)工程師需要將神經(jīng)網(wǎng)絡(luò)在“訓(xùn)練”階段學(xué)到的經(jīng)驗(yàn)教訓(xùn)應(yīng)用到新數(shù)據(jù),進(jìn)行“推理”得出結(jié)果。為了在網(wǎng)絡(luò)邊緣應(yīng)用領(lǐng)域?qū)崿F(xiàn)推理功能,理想的解決方案要能夠提供計(jì)算效率高的平臺(tái),并且滿足功耗、尺寸和成本的嚴(yán)苛要求。
當(dāng)今業(yè)界和學(xué)界的都認(rèn)為機(jī)器學(xué)習(xí)需要高度專業(yè)化的硬件加速解決方案。但是,相關(guān)要求也會(huì)根據(jù)任務(wù)的不同而發(fā)生變化。例如,訓(xùn)練和推理可能需要不同的硬件。致力于訓(xùn)練應(yīng)用的硬件設(shè)計(jì)工程師通常使用32位浮點(diǎn)運(yùn)算來進(jìn)行精度非常高的計(jì)算。而另一方面,致力于網(wǎng)絡(luò)邊緣應(yīng)用領(lǐng)域推理功能的硬件設(shè)計(jì)工程師對(duì)于靈活性的需求要大于精確度,以便獲得更高的處理速度或更低的功耗。事實(shí)上,最近的研究表明,對(duì)于許多應(yīng)用來說定點(diǎn)與浮點(diǎn)解決方案在推理精度方面幾乎相同,而且前者功耗更低。
憑借豐富的嵌入式DSP資源、FPGA與生俱來的并行處理架構(gòu)以及在功耗、尺寸和成本方面的顯著領(lǐng)先優(yōu)勢(shì),ECP5 FPGA是滿足新興AI市場(chǎng)上多元需求的理想選擇。例如,ECP5 FPGA中的DSP能夠以相比GPU浮點(diǎn)運(yùn)算更低的功耗/MHz來進(jìn)行定點(diǎn)運(yùn)算。這些特性為功耗要求嚴(yán)苛的網(wǎng)絡(luò)邊緣智能解決方案開發(fā)者提供了極具吸引力的優(yōu)勢(shì)。圖11展示了一個(gè)實(shí)例,其中ECP5 FPGA用于實(shí)現(xiàn)推理加速器,對(duì)來自攝像頭的數(shù)據(jù)運(yùn)行預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行處理。運(yùn)行在FPGA上的CNN引擎識(shí)別物體或人臉,并將結(jié)果發(fā)送到系統(tǒng)CPU,從而實(shí)現(xiàn)快速、低功耗的物體/面部識(shí)別功能。
圖11:ECP5 FPGA為網(wǎng)絡(luò)邊緣智能應(yīng)用實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器,從而實(shí)現(xiàn)物體/人臉識(shí)別功能
圖12中的框圖展示了實(shí)時(shí)人臉跟蹤神經(jīng)網(wǎng)絡(luò)加速演示,在擁有85K LUT的ECP5-85 FPGA上運(yùn)行時(shí)功耗僅為0.85 W。
圖12:攝像頭捕獲的實(shí)時(shí)圖像數(shù)據(jù)被輸入到FPGA,F(xiàn)PGA確定人臉圖像并輸出結(jié)果,最后人臉圖像在顯示屏上高亮顯示
基于FPGA實(shí)現(xiàn)的設(shè)計(jì)使得設(shè)計(jì)工程師能夠靈活地實(shí)現(xiàn)向上或向下擴(kuò)展,以滿足終端系統(tǒng)中功耗與性能的平衡。在上面的實(shí)例中,基于更小尺寸的85K LUT FPGA的設(shè)計(jì)可以通過平衡性能和其他參數(shù)(例如降低幀速率、減小輸入圖像的幀大小或者減少用于神經(jīng)網(wǎng)絡(luò)的權(quán)重和激活值)來實(shí)現(xiàn),從而進(jìn)一步降低功耗。
此外,F(xiàn)PGA的可重新編程特性使得設(shè)計(jì)工程師能夠滿足快速變化的市場(chǎng)需求。隨著算法的發(fā)展,用戶可以通過軟件輕松快速地更新硬件。這是GPU或ASIC無法企及的功能。
上述演示是基于嵌入式視覺開發(fā)套件(圖13)實(shí)現(xiàn)的,該套件是萊迪思嵌入式視覺解決方案系列的一部分,為開發(fā)網(wǎng)絡(luò)邊緣嵌入式視覺解決方案提供了一個(gè)模塊化平臺(tái)。
圖13:采用ECP5 FPGA、CrossLink FPGA和HDMI ASSP的萊迪思嵌入式視覺開發(fā)套件
總結(jié)
當(dāng)今的設(shè)計(jì)工程師需要不斷尋求新的途徑來降低設(shè)計(jì)的成本、功耗和尺寸,同時(shí)為網(wǎng)絡(luò)邊緣應(yīng)用領(lǐng)域?qū)崿F(xiàn)更多智能功能。與此同時(shí),他們要跟上網(wǎng)絡(luò)邊緣應(yīng)用領(lǐng)域中新一代傳感器和顯示屏快速發(fā)展帶來的性能和接口要求。萊迪思ECP5 FPGA系列能夠?yàn)樵O(shè)計(jì)工程師提供兩全其美的解決方案。ECP5 FPGA提供卓越的處理能力(高達(dá)85K LUT)和業(yè)界最小封裝(10x10 mm),并帶有SERDES,能夠?yàn)樵O(shè)計(jì)工程師提供所需的協(xié)處理和互連資源。同時(shí)該產(chǎn)品系列的成本和功耗都比競(jìng)品更低,能夠?yàn)殚_發(fā)工程師帶來領(lǐng)先優(yōu)勢(shì)。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21796瀏覽量
605427 -
Ar
+關(guān)注
關(guān)注
24文章
5107瀏覽量
170023 -
萊迪思
+關(guān)注
關(guān)注
2文章
230瀏覽量
39139 -
機(jī)器視覺
+關(guān)注
關(guān)注
162文章
4405瀏覽量
120613
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論