用軟件從 C 轉(zhuǎn)化來的 RTL 代碼其實(shí)并不好理解。今天我們就來談?wù)?,如何在不改?RTL 代碼的情況下,提升設(shè)計(jì)性能。
本項(xiàng)目所需應(yīng)用與工具:賽靈思HLS、Plunify Cloud 以及 InTime。
前言
高層次的設(shè)計(jì)可以讓設(shè)計(jì)以更簡(jiǎn)潔的方法捕捉,從而讓錯(cuò)誤更少,調(diào)試更輕松。然而,這種方法最受詬病的是對(duì)性能的犧牲。在復(fù)雜的 FPGA 設(shè)計(jì)上實(shí)現(xiàn)高性能,往往需要手動(dòng)優(yōu)化 RTL 代碼,這也意味著從 C 轉(zhuǎn)化得到 RTL 基本不可能。其實(shí),使用 FPGA 工具設(shè)置來優(yōu)化設(shè)計(jì)可以最小限度地減少對(duì)性能的犧牲,這種方法是存在的。
高效地找到合適的FPGA工具設(shè)置
盡管工程師們知道 FPGA 工具的設(shè)置,但是這些設(shè)置往往并沒有充分利用。一般而言,工具設(shè)置只有在出現(xiàn)時(shí)序問題的時(shí)候才會(huì)派上用途。然而,對(duì)于已經(jīng)達(dá)到性能目標(biāo)的設(shè)計(jì)來說,如果繼續(xù)調(diào)整工具設(shè)計(jì),仍然有10%-50%的性能提升潛力。
真正的難點(diǎn)在于選擇正確的工具設(shè)置,畢竟各種 FPGA 工具一般都有有30-70個(gè)不同的布局布線設(shè)置,可選的設(shè)置組合實(shí)在是太多了。您可以寫腳本來運(yùn)行不同的推薦指令/策略。市面上也有工具,來自動(dòng)管理并運(yùn)行設(shè)計(jì)探索。
另一個(gè)難點(diǎn)就是不充裕的計(jì)算能力。典型的嵌入式應(yīng)用是在單臺(tái)電腦上設(shè)計(jì)的。運(yùn)行多個(gè)編譯需要更多的計(jì)算能力,這就要求更多的時(shí)間。如果您可以(使用云計(jì)算)并行運(yùn)行,周轉(zhuǎn)時(shí)間就會(huì)變短。
如何優(yōu)化高層次的設(shè)計(jì) - “Sobel濾鏡”項(xiàng)目
這是一個(gè)用于視屏處理的參考設(shè)計(jì),來自賽靈思的官網(wǎng) https://china.xilinx.com/support/documentation/application_notes/xapp890... 。該設(shè)計(jì)的功能是 Sobel 濾鏡,目標(biāo)器件是擁有雙核Dual ARM? Cortex?-A9MPCore 的 FPGA。
我們使用賽靈思 HLS 來打開這個(gè)設(shè)計(jì)。
圖一:參考設(shè)計(jì)– Sobel濾鏡
它的時(shí)鐘周期是5.00ns,也就是200MHz。從下圖的時(shí)序預(yù)估中可以看出,它離時(shí)序目標(biāo)還差506ps(181MH1),也就是比目標(biāo)速率還差10%。
圖二:當(dāng)前時(shí)序結(jié)果
導(dǎo)出成 RTL 項(xiàng)目
不需要改變 C++ 代碼,把設(shè)計(jì)輸出成一個(gè)RTL 的 Vivado 項(xiàng)目。在 “Solution”下面,選擇“Export RTL”。
圖三:從HLS輸出Vivado項(xiàng)目
它會(huì)在后臺(tái)執(zhí)行 Vivado,并生成一個(gè)項(xiàng)目文件(XPR)。它同時(shí)也會(huì)編譯設(shè)計(jì),您應(yīng)該在控制臺(tái)(Console)看到真實(shí)的時(shí)序細(xì)節(jié)。一旦完成,您可以在 /solution/impl/verilog/ 文件夾下找到項(xiàng)目文件。
圖四:Vivado 項(xiàng)目文件
找到這個(gè) XPR 文件之后,您可以用 Vivado 打開它來驗(yàn)證。您將看到生成好的 RTL 源文件。
圖五:從 HLS 生成的 RTL
時(shí)序優(yōu)化
下一步,是使用 InTime 設(shè)計(jì)探索工具,當(dāng)然,您也可以自己寫腳本來嘗試 Vivado 工具中自帶的指令和策略。請(qǐng)申請(qǐng) InTime 的免費(fèi)試用在本地運(yùn)行,也可以注冊(cè)一個(gè) Plunify Cloud 云平臺(tái)的賬戶,試用所提供的免費(fèi)云幣來在云端運(yùn)行預(yù)置好的 FPGA 工具。
啟動(dòng) InTime 之后,打開項(xiàng)目文件。在選擇 Vivado 版本時(shí),請(qǐng)使用“相同的”版本。例如,如果您使用2017.3 HLS,請(qǐng)選擇2017.3 Vivado。
選擇“Hot Start”配方(recipe)。此配方包含一系列更具以往其他設(shè)計(jì)的經(jīng)驗(yàn)而推薦的策略。
圖六:選擇 "Hot Start" 配方
點(diǎn)擊“Start Recipe”來開始優(yōu)化。如果您在云端運(yùn)行,您應(yīng)該并行運(yùn)行多個(gè)編譯來減少周轉(zhuǎn)時(shí)間。
優(yōu)化過程和結(jié)果
第一輪結(jié)束之后 (“Hot Start”配方),最好的結(jié)果是“hotstart_1”策略。然而,它仍然距離目標(biāo)時(shí)序90ns。
我們?cè)凇癏otStart_1”的結(jié)果上使用了第二個(gè)配方,叫做“Extra Opt Exploration”。這一輪將集中優(yōu)化關(guān)鍵的路徑。這是一次迭代優(yōu)化,并且只要仍有提升,就不斷地重復(fù)自己。如果達(dá)到時(shí)序目標(biāo)或者不再提升的時(shí)候,它就會(huì)停止。
圖七:僅通過工具設(shè)置完成時(shí)序收斂
經(jīng)過兩輪優(yōu)化,總共15此編譯后,設(shè)計(jì)達(dá)到了目標(biāo)時(shí)序,200MHz。而這一切完全沒有修改 RTL 源代碼。
讓性能更進(jìn)一步
讓性能更進(jìn)一步需要各方面的優(yōu)化 – 結(jié)構(gòu)設(shè)計(jì)、代碼和工具。工具設(shè)置的探索可以克服高層次設(shè)計(jì)的性能犧牲,并且不會(huì)讓生產(chǎn)效率的好處減少。對(duì)于高層次設(shè)計(jì)的工程師來說,這是一種共贏。
編輯:hfy
-
FPGA
+關(guān)注
關(guān)注
1629文章
21736瀏覽量
603419
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論