資料介紹
自動(dòng)目標(biāo)識(shí)別(ATR)算法通常包括自動(dòng)地對(duì)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別和選擇攻擊點(diǎn)等算法。戰(zhàn)場(chǎng)環(huán)境的復(fù)雜性和目標(biāo)類型的不斷增長(zhǎng)使ATR算法的運(yùn)算量越來越大,因此ATR算法對(duì)微處理器的處理能力提出了更高的要求。由于通用數(shù)字信號(hào)處理芯片能夠通過編程實(shí)現(xiàn)各種復(fù)雜的運(yùn)算,處理精度高,具有較大的靈活性,而且尺寸小、功耗低、速度快,所以一般選擇DSP芯片作為微處理器來實(shí)現(xiàn)ATR算法的工程化和實(shí)用化。
為了保證在DSP處理器上實(shí)時(shí)地實(shí)現(xiàn)ATR算法,用算法并行化技術(shù)。算法并行化處理的三要素是:①并行體系結(jié)構(gòu);②并行軟件系統(tǒng);③并行算法。并行體系結(jié)構(gòu)是算法并行化的硬件基礎(chǔ),并行算法都是針對(duì)特定的并行體系結(jié)構(gòu)開發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目,ATR算法的并行實(shí)現(xiàn)可以分為處理器間并行和處理器內(nèi)并行。處理器間并行是指多個(gè)DSP處理器以某種方式連接起來的多處理器并行系統(tǒng),ATR算法在多個(gè)處理器上并行招待。根據(jù)處理器使用存儲(chǔ)器的情況,多處理器并行系統(tǒng)又可分為共享存儲(chǔ)器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內(nèi)并行是指在單個(gè)DSP處理器內(nèi)通過多個(gè)功能單元的指令級(jí)并行(ILP)來實(shí)現(xiàn)ATR算法的并行化。本文分別對(duì)在共享存儲(chǔ)器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級(jí)并行DSP處理器上并行實(shí)現(xiàn)ATR算法進(jìn)行了探討。
1 在共享存儲(chǔ)器多處理并行系統(tǒng)上實(shí)現(xiàn)ATR算法
在共享存儲(chǔ)器多處理器并行系統(tǒng)中,各個(gè)處理器通過共享總線對(duì)所有的存儲(chǔ)器進(jìn)行操作,實(shí)現(xiàn)各個(gè)處理器之間的數(shù)據(jù)通信。而在任一時(shí)刻,只允許一個(gè)處理器對(duì)共享總線進(jìn)行操作。所以處理器對(duì)存儲(chǔ)器進(jìn)行讀/寫操作時(shí)就必須先獲得對(duì)共享總線的控制權(quán),這通過總線仲裁電路實(shí)現(xiàn)。然而,由于所有的處理器只能通過一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問,這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。共享存儲(chǔ)器多處理器并行系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,當(dāng)處理器的數(shù)目較少時(shí),可以達(dá)到較高的加速比。
ADSP2106x處理器支持最為常用的共享存儲(chǔ)器多處理器并行系統(tǒng),組成多處理器系統(tǒng)的每一片ADSP2106x的片內(nèi)存儲(chǔ)器統(tǒng)一編址,任一ADSP2106x可以訪問其它任何一片ADSP2106x的片內(nèi)存儲(chǔ)器。由于片內(nèi)SRAM為雙口存儲(chǔ)器,因而這種訪問并不中斷被訪問處理器的正常工作。每個(gè)處理器片內(nèi)SRAM既是該處理器的局部存儲(chǔ)器,又是共享存儲(chǔ)器的部分。在不增加輔助電容的情況下,通過外部總線接口直接相連的處理器數(shù)量最多為6個(gè)。由于每個(gè)處理器的工作程序放在其片內(nèi)的雙口SRAM中,因此各個(gè)處理器可以實(shí)現(xiàn)并行處理,這是ADSP2106x的存儲(chǔ)器結(jié)構(gòu)所決定的。
ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)時(shí),在編寫并行算法程序方面應(yīng)當(dāng)重點(diǎn)考慮的問題包括:
?。?)均衡地把任務(wù)分配給各個(gè)處理器
ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)任務(wù)級(jí)并行,因此必須把ATR算法劃分為計(jì)算量均衡的多個(gè)任務(wù),把各個(gè)任務(wù)分配給多個(gè)處理器,才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。
(2)盡量減少多處理器之間數(shù)據(jù)通信
由于多處理器只能通過一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問,這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競(jìng)爭(zhēng)而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。
?。?)利用單個(gè)處理器的并行編程特性
充分應(yīng)用單個(gè)處理器的并行編程特性,有利于縮短各個(gè)處理器上任務(wù)的運(yùn)行時(shí)間。例如,ADSP2106x的32位浮點(diǎn)運(yùn)算單元包含一個(gè)乘法器、一個(gè)加法器和移位邏輯電路,它們并行工作;比特倒轉(zhuǎn)尋址在傅立葉變換運(yùn)算時(shí)非常有用;循環(huán)尋址在作卷積、數(shù)字濾波運(yùn)算時(shí)經(jīng)常用到等。
2 在分布式多處理器并行系統(tǒng)上實(shí)現(xiàn)ATR算法
在分布式多處理器并行系統(tǒng)中,多處理器有各自獨(dú)立的存儲(chǔ)器,多個(gè)處理器通過通信口相連構(gòu)成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關(guān)系,所以只要增加處理器的數(shù)目,分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構(gòu)成大規(guī)模并行系統(tǒng)。
目前,計(jì)算量過大仍然是制約許多有效的ATR算法實(shí)時(shí)實(shí)現(xiàn)的個(gè)主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實(shí)時(shí)實(shí)現(xiàn)是一個(gè)很有潛力的研究領(lǐng)域,特別在地基和天基雷達(dá)信號(hào)處理系統(tǒng)中有廣闊的應(yīng)用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹形、星形、網(wǎng)孔和超立方體結(jié)構(gòu)等。樹形和星形網(wǎng)絡(luò)的優(yōu)點(diǎn)是網(wǎng)絡(luò)管理容易、數(shù)據(jù)通信進(jìn)尋徑簡(jiǎn)單;缺點(diǎn)是樹形網(wǎng)絡(luò)的根節(jié)點(diǎn)處理器和星形網(wǎng)絡(luò)的中央節(jié)點(diǎn)處理器的輸入/輸出吞吐量大,易造成通信瓶頸。所以樹形和星形網(wǎng)絡(luò)不適合ATR算法各個(gè)任務(wù)數(shù)據(jù)通信量較大的應(yīng)用場(chǎng)合。
在分布式多處理器并行系統(tǒng)中并行實(shí)現(xiàn)ATR算法目前還處于研究的初始階段,在編寫并行算法程序應(yīng)當(dāng)重點(diǎn)考慮兩個(gè)方面:
?。?)各處理器任務(wù)的均衡分配
在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多,只有合理地對(duì)眾多的處理器均衡地分配任務(wù),才能最大地發(fā)揮并行系統(tǒng)的總體性能,提高并行系統(tǒng)的加速比。
(2)處理器節(jié)點(diǎn)間的高效通信
在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點(diǎn)對(duì)點(diǎn)通信。即兩個(gè)相鄰的處理器之間通過通信口通信。因此需要合理安排各個(gè)處理器節(jié)點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)中的位置,盡可能地縮短處理器節(jié)點(diǎn)間的通信路徑長(zhǎng)度,從而實(shí)現(xiàn)處理器節(jié)點(diǎn)間的高效數(shù)據(jù)通信。
3 在指令級(jí)并行DSP處理器上實(shí)現(xiàn)ATR算法
在單片DSP處理器內(nèi)通過多個(gè)功能單元的指令級(jí)并行(ILP)實(shí)現(xiàn)ATR算法的并行化處理,目前適合ATR算法實(shí)時(shí)處理的指令級(jí)并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個(gè)使用超長(zhǎng)指令字(VLIW)體系結(jié)構(gòu)的數(shù)字信號(hào)處理芯片。下面以TMS320C62x定點(diǎn)系列DSP為例說明指令級(jí)并行的原理和ATR并行算法軟件開發(fā)方法。
3.1 VLIW體系結(jié)構(gòu)
TMS320C62x的內(nèi)核結(jié)構(gòu)如圖1所示。內(nèi)核中的8個(gè)功能單元可以完全并行運(yùn)行,功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內(nèi)核采用VLIW體系結(jié)構(gòu),單指令字長(zhǎng)32位,取指令、指令分配和指令譯碼單元每周期可以從程序存儲(chǔ)器傳遞8條指令到功能單元。這8條指令組成一個(gè)指令包,總字長(zhǎng)為256位。芯片內(nèi)部設(shè)置了專門的指令分配模塊,可以將每個(gè)256位的指令分配到8個(gè)功能單元中,并由8個(gè)功能單元并行運(yùn)行。TMS320C62x芯片的最高時(shí)鐘頻率可以達(dá)到200MHz。當(dāng)8個(gè)功能單元同時(shí)運(yùn)行時(shí),該芯片的處理能力高達(dá)1600MIPS。
3.2 基于TMS320C62x的并行算法軟件開發(fā)方法
基于TMS320C62x的并行編譯系統(tǒng)支持C語言和匯編語言開發(fā)并行程序代碼。通常,開發(fā)ATR并行算法按照代碼開發(fā)流程的三個(gè)階段進(jìn)行并行程序設(shè)計(jì):第一階段是開發(fā)C代碼;第二階段是優(yōu)化C代碼;第三階段是編寫線性匯編代碼。以上三個(gè)階段不是必須的,如果在某一階段已經(jīng)實(shí)現(xiàn)了ATR算法的功能和性能要求,就不必進(jìn)入下一階段。
?。?)開發(fā)C代碼
開發(fā)C代碼需要考慮的要點(diǎn)包括:
?、贁?shù)據(jù)結(jié)構(gòu)
TMS320C62x編譯器定義了各種數(shù)據(jù)結(jié)構(gòu)的長(zhǎng)度:字符型(char)為8位,短整型(short)為16位,整型(int)為32位,長(zhǎng)整形(long)為40位,浮點(diǎn)型(float)為32位,雙精度浮點(diǎn)型(double)為64位。在編寫C代碼時(shí)應(yīng)當(dāng)遵循的規(guī)則是:避免在代碼中將int和long型作為同樣長(zhǎng)度處理;對(duì)于定點(diǎn)乘法,應(yīng)當(dāng)盡可能使用short型數(shù)據(jù);對(duì)循環(huán)計(jì)數(shù)器使用int或者無符號(hào)int類型,避免不必要的符號(hào)擴(kuò)展。
?、谔岣逤代碼性能
應(yīng)用調(diào)試器的Profile工具可以得到一個(gè)關(guān)于C代碼中各特定代碼段執(zhí)行情況的統(tǒng)計(jì)表,也可以得到特定代碼段招待所用的CPU時(shí)鐘周期數(shù)。因此可以找出影響軟件程序總體性能的C代碼段加以改進(jìn),通常是循環(huán)代碼段影響軟件程序總體性能。
?、蹟?shù)據(jù)的定標(biāo)
由于TMS320C62x是定點(diǎn)系列芯片,不支持浮點(diǎn)操作。在程序編寫過程中,應(yīng)當(dāng)盡量采用定點(diǎn)的數(shù)據(jù)結(jié)構(gòu)。而實(shí)際處理的數(shù)據(jù)通常都是浮點(diǎn)的,所以需要把浮點(diǎn)數(shù)據(jù)通過定標(biāo)轉(zhuǎn)化為整型數(shù)據(jù)處理,提高程序的處理速度。數(shù)據(jù)的定標(biāo)是十分關(guān)鍵的步驟,既要使數(shù)據(jù)處理精度滿足性能要求,又要防止在數(shù)據(jù)處理過程中出現(xiàn)溢出。
?。?)優(yōu)化C代碼
優(yōu)化C代碼包括向編譯器指明不相關(guān)的指令、循環(huán)展開、循環(huán)合并、使用內(nèi)聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和軟件流水等方法。
?、傧蚓幾g器指明不相關(guān)的指令
為使指令并行操作,編譯器必須確定指令間的相關(guān)性,只有不相關(guān)的指令才可以并行執(zhí)行。如果編譯器不能確定兩條指令是不相關(guān)的,則認(rèn)為是相關(guān)的,安排它們串行招待。用戶可通過如下方法指明相關(guān)的指令:
·關(guān)鍵字const可以指定一個(gè)目標(biāo),const表示一個(gè)變量或者一個(gè)變量的存儲(chǔ)單元保持不變,使用const可以提高代碼的性能和適應(yīng)性。
·一起使用-pm選項(xiàng)和-03選項(xiàng)可以確定程序優(yōu)先級(jí)。在程序優(yōu)先級(jí)中,所有源文件都被編譯成一個(gè)模塊,從而使編譯器更有效地消除相關(guān)性。
·使用-mt選項(xiàng)向編譯器說明在代碼中不存在存儲(chǔ)器相關(guān)性,即允許編譯器在無存儲(chǔ)器相關(guān)性的假設(shè)下進(jìn)行優(yōu)化。
?、谘h(huán)展開
循環(huán)展開就是把循環(huán)計(jì)數(shù)小的循環(huán)展開,成為非循環(huán)形式的串行程序,或者把循環(huán)計(jì)數(shù)大的循環(huán)部分展開,減少循環(huán)迭代次數(shù),增加單個(gè)循環(huán)內(nèi)的代碼,使得循環(huán)內(nèi)的操作可以均勻分布在各個(gè)功能單元上,保持DSP處理器的各個(gè)功能單元滿負(fù)荷運(yùn)行。
?、垩h(huán)合并
如果兩個(gè)循環(huán)計(jì)數(shù)差不多、循環(huán)執(zhí)行互不相同的操作,可以把它們合并在一起組成一個(gè)循不。當(dāng)兩個(gè)循環(huán)的負(fù)荷都不滿時(shí),這是非常有用的。
?、苁褂脙?nèi)聯(lián)函數(shù)
TMS320C62x編譯器提供的內(nèi)聯(lián)函數(shù)是直接映射為內(nèi)聯(lián)指令的特殊函數(shù),內(nèi)聯(lián)函數(shù)的代碼高效、代碼長(zhǎng)度短。用戶可以使用內(nèi)聯(lián)函數(shù)并行優(yōu)化C代碼。
?、菔褂米止?jié)訪問短整型數(shù)據(jù)
內(nèi)聯(lián)函數(shù)中有些指令是對(duì)存儲(chǔ)在32位寄存器的高16位和低16位字段進(jìn)行操作的。當(dāng)有大量短整型數(shù)據(jù)進(jìn)行操作時(shí),可以使用字(整型數(shù))一次訪問兩個(gè)短整型數(shù)據(jù)。然后使用內(nèi)聯(lián)函數(shù)對(duì)這些數(shù)據(jù)進(jìn)行操作,從而減少對(duì)內(nèi)存的訪問。
?、捃浖魉?br /> 軟件流水是用來安排循環(huán)指令,使這個(gè)循環(huán)多次迭代并行執(zhí)行的一種技術(shù)。在編譯時(shí)使用-o2和-o3選項(xiàng),編譯器可對(duì)循環(huán)代碼實(shí)現(xiàn)軟件流水;使用-o3和-pm選項(xiàng),使優(yōu)化器訪問整個(gè)程序,了解循環(huán)次數(shù);使用_nassert內(nèi)聯(lián)函數(shù),防止冗余循環(huán)產(chǎn)生;使用投機(jī)執(zhí)行(_mh選項(xiàng))消除軟件注流水循環(huán)的排空,從而減少代碼尺寸。
在嵌套循環(huán)中,編譯器僅對(duì)最里面的循環(huán)執(zhí)行軟件流水,因此對(duì)招待周期很少的內(nèi)循環(huán)作循環(huán)展開,外循環(huán)進(jìn)行軟件流水,這樣可以改進(jìn)C代碼并行執(zhí)行的性能。使用軟件流水還應(yīng)當(dāng)注意:盡管軟件流水循環(huán)可以包含內(nèi)聯(lián)函數(shù),但是不能包含函數(shù)調(diào)用;在循環(huán)中不可以有條件終止指令;在循環(huán)體中不可以修改循環(huán)控制變量。
?。?)編寫線性匯編代碼
編寫線性匯編代碼是并行算法軟件開發(fā)流程的第三個(gè)階段。了提高并行算法軟件代碼的性能,對(duì)影響并行程序速度的關(guān)鍵C代碼可以用線性編重新編寫。編寫線性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元,匯編優(yōu)化器會(huì)根據(jù)情況確定這些住處。優(yōu)化線性匯編代碼的方法包括:為線性匯編指令指定功能單元,使得最后的匯編指令并行執(zhí)行;使用字訪問短整型數(shù)據(jù);使用軟件流水對(duì)循環(huán)進(jìn)行優(yōu)化。編寫線性匯編代碼的工作量非常大,需要很長(zhǎng)的開發(fā)周期,而且開發(fā)后的匯編代碼不能像C代碼那樣移植在其它的DSP平臺(tái)上。
應(yīng)用上述并行程序開發(fā)方法,在TMS320C6201 EVM板上實(shí)現(xiàn)了寬帶毫米波雷達(dá)目標(biāo)時(shí)延神經(jīng)網(wǎng)絡(luò)識(shí)別算法。經(jīng)過實(shí)際測(cè)試,并行算法程序執(zhí)行時(shí)間為0.850ms,滿足了目標(biāo)識(shí)別算法的實(shí)時(shí)性需求。
?
為了保證在DSP處理器上實(shí)時(shí)地實(shí)現(xiàn)ATR算法,用算法并行化技術(shù)。算法并行化處理的三要素是:①并行體系結(jié)構(gòu);②并行軟件系統(tǒng);③并行算法。并行體系結(jié)構(gòu)是算法并行化的硬件基礎(chǔ),并行算法都是針對(duì)特定的并行體系結(jié)構(gòu)開發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目,ATR算法的并行實(shí)現(xiàn)可以分為處理器間并行和處理器內(nèi)并行。處理器間并行是指多個(gè)DSP處理器以某種方式連接起來的多處理器并行系統(tǒng),ATR算法在多個(gè)處理器上并行招待。根據(jù)處理器使用存儲(chǔ)器的情況,多處理器并行系統(tǒng)又可分為共享存儲(chǔ)器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內(nèi)并行是指在單個(gè)DSP處理器內(nèi)通過多個(gè)功能單元的指令級(jí)并行(ILP)來實(shí)現(xiàn)ATR算法的并行化。本文分別對(duì)在共享存儲(chǔ)器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級(jí)并行DSP處理器上并行實(shí)現(xiàn)ATR算法進(jìn)行了探討。
1 在共享存儲(chǔ)器多處理并行系統(tǒng)上實(shí)現(xiàn)ATR算法
在共享存儲(chǔ)器多處理器并行系統(tǒng)中,各個(gè)處理器通過共享總線對(duì)所有的存儲(chǔ)器進(jìn)行操作,實(shí)現(xiàn)各個(gè)處理器之間的數(shù)據(jù)通信。而在任一時(shí)刻,只允許一個(gè)處理器對(duì)共享總線進(jìn)行操作。所以處理器對(duì)存儲(chǔ)器進(jìn)行讀/寫操作時(shí)就必須先獲得對(duì)共享總線的控制權(quán),這通過總線仲裁電路實(shí)現(xiàn)。然而,由于所有的處理器只能通過一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問,這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。共享存儲(chǔ)器多處理器并行系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,當(dāng)處理器的數(shù)目較少時(shí),可以達(dá)到較高的加速比。
ADSP2106x處理器支持最為常用的共享存儲(chǔ)器多處理器并行系統(tǒng),組成多處理器系統(tǒng)的每一片ADSP2106x的片內(nèi)存儲(chǔ)器統(tǒng)一編址,任一ADSP2106x可以訪問其它任何一片ADSP2106x的片內(nèi)存儲(chǔ)器。由于片內(nèi)SRAM為雙口存儲(chǔ)器,因而這種訪問并不中斷被訪問處理器的正常工作。每個(gè)處理器片內(nèi)SRAM既是該處理器的局部存儲(chǔ)器,又是共享存儲(chǔ)器的部分。在不增加輔助電容的情況下,通過外部總線接口直接相連的處理器數(shù)量最多為6個(gè)。由于每個(gè)處理器的工作程序放在其片內(nèi)的雙口SRAM中,因此各個(gè)處理器可以實(shí)現(xiàn)并行處理,這是ADSP2106x的存儲(chǔ)器結(jié)構(gòu)所決定的。
ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)時(shí),在編寫并行算法程序方面應(yīng)當(dāng)重點(diǎn)考慮的問題包括:
?。?)均衡地把任務(wù)分配給各個(gè)處理器
ATR算法在共享存儲(chǔ)器多處理器并行系統(tǒng)中實(shí)現(xiàn)任務(wù)級(jí)并行,因此必須把ATR算法劃分為計(jì)算量均衡的多個(gè)任務(wù),把各個(gè)任務(wù)分配給多個(gè)處理器,才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。
(2)盡量減少多處理器之間數(shù)據(jù)通信
由于多處理器只能通過一條共享總線對(duì)存儲(chǔ)器進(jìn)行訪問,這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競(jìng)爭(zhēng)而降低整個(gè)并行系統(tǒng)的運(yùn)行速度。
?。?)利用單個(gè)處理器的并行編程特性
充分應(yīng)用單個(gè)處理器的并行編程特性,有利于縮短各個(gè)處理器上任務(wù)的運(yùn)行時(shí)間。例如,ADSP2106x的32位浮點(diǎn)運(yùn)算單元包含一個(gè)乘法器、一個(gè)加法器和移位邏輯電路,它們并行工作;比特倒轉(zhuǎn)尋址在傅立葉變換運(yùn)算時(shí)非常有用;循環(huán)尋址在作卷積、數(shù)字濾波運(yùn)算時(shí)經(jīng)常用到等。
2 在分布式多處理器并行系統(tǒng)上實(shí)現(xiàn)ATR算法
在分布式多處理器并行系統(tǒng)中,多處理器有各自獨(dú)立的存儲(chǔ)器,多個(gè)處理器通過通信口相連構(gòu)成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關(guān)系,所以只要增加處理器的數(shù)目,分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構(gòu)成大規(guī)模并行系統(tǒng)。
目前,計(jì)算量過大仍然是制約許多有效的ATR算法實(shí)時(shí)實(shí)現(xiàn)的個(gè)主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實(shí)時(shí)實(shí)現(xiàn)是一個(gè)很有潛力的研究領(lǐng)域,特別在地基和天基雷達(dá)信號(hào)處理系統(tǒng)中有廣闊的應(yīng)用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹形、星形、網(wǎng)孔和超立方體結(jié)構(gòu)等。樹形和星形網(wǎng)絡(luò)的優(yōu)點(diǎn)是網(wǎng)絡(luò)管理容易、數(shù)據(jù)通信進(jìn)尋徑簡(jiǎn)單;缺點(diǎn)是樹形網(wǎng)絡(luò)的根節(jié)點(diǎn)處理器和星形網(wǎng)絡(luò)的中央節(jié)點(diǎn)處理器的輸入/輸出吞吐量大,易造成通信瓶頸。所以樹形和星形網(wǎng)絡(luò)不適合ATR算法各個(gè)任務(wù)數(shù)據(jù)通信量較大的應(yīng)用場(chǎng)合。
在分布式多處理器并行系統(tǒng)中并行實(shí)現(xiàn)ATR算法目前還處于研究的初始階段,在編寫并行算法程序應(yīng)當(dāng)重點(diǎn)考慮兩個(gè)方面:
?。?)各處理器任務(wù)的均衡分配
在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多,只有合理地對(duì)眾多的處理器均衡地分配任務(wù),才能最大地發(fā)揮并行系統(tǒng)的總體性能,提高并行系統(tǒng)的加速比。
(2)處理器節(jié)點(diǎn)間的高效通信
在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點(diǎn)對(duì)點(diǎn)通信。即兩個(gè)相鄰的處理器之間通過通信口通信。因此需要合理安排各個(gè)處理器節(jié)點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)中的位置,盡可能地縮短處理器節(jié)點(diǎn)間的通信路徑長(zhǎng)度,從而實(shí)現(xiàn)處理器節(jié)點(diǎn)間的高效數(shù)據(jù)通信。
3 在指令級(jí)并行DSP處理器上實(shí)現(xiàn)ATR算法
在單片DSP處理器內(nèi)通過多個(gè)功能單元的指令級(jí)并行(ILP)實(shí)現(xiàn)ATR算法的并行化處理,目前適合ATR算法實(shí)時(shí)處理的指令級(jí)并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個(gè)使用超長(zhǎng)指令字(VLIW)體系結(jié)構(gòu)的數(shù)字信號(hào)處理芯片。下面以TMS320C62x定點(diǎn)系列DSP為例說明指令級(jí)并行的原理和ATR并行算法軟件開發(fā)方法。
3.1 VLIW體系結(jié)構(gòu)
TMS320C62x的內(nèi)核結(jié)構(gòu)如圖1所示。內(nèi)核中的8個(gè)功能單元可以完全并行運(yùn)行,功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內(nèi)核采用VLIW體系結(jié)構(gòu),單指令字長(zhǎng)32位,取指令、指令分配和指令譯碼單元每周期可以從程序存儲(chǔ)器傳遞8條指令到功能單元。這8條指令組成一個(gè)指令包,總字長(zhǎng)為256位。芯片內(nèi)部設(shè)置了專門的指令分配模塊,可以將每個(gè)256位的指令分配到8個(gè)功能單元中,并由8個(gè)功能單元并行運(yùn)行。TMS320C62x芯片的最高時(shí)鐘頻率可以達(dá)到200MHz。當(dāng)8個(gè)功能單元同時(shí)運(yùn)行時(shí),該芯片的處理能力高達(dá)1600MIPS。
3.2 基于TMS320C62x的并行算法軟件開發(fā)方法
基于TMS320C62x的并行編譯系統(tǒng)支持C語言和匯編語言開發(fā)并行程序代碼。通常,開發(fā)ATR并行算法按照代碼開發(fā)流程的三個(gè)階段進(jìn)行并行程序設(shè)計(jì):第一階段是開發(fā)C代碼;第二階段是優(yōu)化C代碼;第三階段是編寫線性匯編代碼。以上三個(gè)階段不是必須的,如果在某一階段已經(jīng)實(shí)現(xiàn)了ATR算法的功能和性能要求,就不必進(jìn)入下一階段。
?。?)開發(fā)C代碼
開發(fā)C代碼需要考慮的要點(diǎn)包括:
?、贁?shù)據(jù)結(jié)構(gòu)
TMS320C62x編譯器定義了各種數(shù)據(jù)結(jié)構(gòu)的長(zhǎng)度:字符型(char)為8位,短整型(short)為16位,整型(int)為32位,長(zhǎng)整形(long)為40位,浮點(diǎn)型(float)為32位,雙精度浮點(diǎn)型(double)為64位。在編寫C代碼時(shí)應(yīng)當(dāng)遵循的規(guī)則是:避免在代碼中將int和long型作為同樣長(zhǎng)度處理;對(duì)于定點(diǎn)乘法,應(yīng)當(dāng)盡可能使用short型數(shù)據(jù);對(duì)循環(huán)計(jì)數(shù)器使用int或者無符號(hào)int類型,避免不必要的符號(hào)擴(kuò)展。
?、谔岣逤代碼性能
應(yīng)用調(diào)試器的Profile工具可以得到一個(gè)關(guān)于C代碼中各特定代碼段執(zhí)行情況的統(tǒng)計(jì)表,也可以得到特定代碼段招待所用的CPU時(shí)鐘周期數(shù)。因此可以找出影響軟件程序總體性能的C代碼段加以改進(jìn),通常是循環(huán)代碼段影響軟件程序總體性能。
?、蹟?shù)據(jù)的定標(biāo)
由于TMS320C62x是定點(diǎn)系列芯片,不支持浮點(diǎn)操作。在程序編寫過程中,應(yīng)當(dāng)盡量采用定點(diǎn)的數(shù)據(jù)結(jié)構(gòu)。而實(shí)際處理的數(shù)據(jù)通常都是浮點(diǎn)的,所以需要把浮點(diǎn)數(shù)據(jù)通過定標(biāo)轉(zhuǎn)化為整型數(shù)據(jù)處理,提高程序的處理速度。數(shù)據(jù)的定標(biāo)是十分關(guān)鍵的步驟,既要使數(shù)據(jù)處理精度滿足性能要求,又要防止在數(shù)據(jù)處理過程中出現(xiàn)溢出。
?。?)優(yōu)化C代碼
優(yōu)化C代碼包括向編譯器指明不相關(guān)的指令、循環(huán)展開、循環(huán)合并、使用內(nèi)聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和軟件流水等方法。
?、傧蚓幾g器指明不相關(guān)的指令
為使指令并行操作,編譯器必須確定指令間的相關(guān)性,只有不相關(guān)的指令才可以并行執(zhí)行。如果編譯器不能確定兩條指令是不相關(guān)的,則認(rèn)為是相關(guān)的,安排它們串行招待。用戶可通過如下方法指明相關(guān)的指令:
·關(guān)鍵字const可以指定一個(gè)目標(biāo),const表示一個(gè)變量或者一個(gè)變量的存儲(chǔ)單元保持不變,使用const可以提高代碼的性能和適應(yīng)性。
·一起使用-pm選項(xiàng)和-03選項(xiàng)可以確定程序優(yōu)先級(jí)。在程序優(yōu)先級(jí)中,所有源文件都被編譯成一個(gè)模塊,從而使編譯器更有效地消除相關(guān)性。
·使用-mt選項(xiàng)向編譯器說明在代碼中不存在存儲(chǔ)器相關(guān)性,即允許編譯器在無存儲(chǔ)器相關(guān)性的假設(shè)下進(jìn)行優(yōu)化。
?、谘h(huán)展開
循環(huán)展開就是把循環(huán)計(jì)數(shù)小的循環(huán)展開,成為非循環(huán)形式的串行程序,或者把循環(huán)計(jì)數(shù)大的循環(huán)部分展開,減少循環(huán)迭代次數(shù),增加單個(gè)循環(huán)內(nèi)的代碼,使得循環(huán)內(nèi)的操作可以均勻分布在各個(gè)功能單元上,保持DSP處理器的各個(gè)功能單元滿負(fù)荷運(yùn)行。
?、垩h(huán)合并
如果兩個(gè)循環(huán)計(jì)數(shù)差不多、循環(huán)執(zhí)行互不相同的操作,可以把它們合并在一起組成一個(gè)循不。當(dāng)兩個(gè)循環(huán)的負(fù)荷都不滿時(shí),這是非常有用的。
?、苁褂脙?nèi)聯(lián)函數(shù)
TMS320C62x編譯器提供的內(nèi)聯(lián)函數(shù)是直接映射為內(nèi)聯(lián)指令的特殊函數(shù),內(nèi)聯(lián)函數(shù)的代碼高效、代碼長(zhǎng)度短。用戶可以使用內(nèi)聯(lián)函數(shù)并行優(yōu)化C代碼。
?、菔褂米止?jié)訪問短整型數(shù)據(jù)
內(nèi)聯(lián)函數(shù)中有些指令是對(duì)存儲(chǔ)在32位寄存器的高16位和低16位字段進(jìn)行操作的。當(dāng)有大量短整型數(shù)據(jù)進(jìn)行操作時(shí),可以使用字(整型數(shù))一次訪問兩個(gè)短整型數(shù)據(jù)。然后使用內(nèi)聯(lián)函數(shù)對(duì)這些數(shù)據(jù)進(jìn)行操作,從而減少對(duì)內(nèi)存的訪問。
?、捃浖魉?br /> 軟件流水是用來安排循環(huán)指令,使這個(gè)循環(huán)多次迭代并行執(zhí)行的一種技術(shù)。在編譯時(shí)使用-o2和-o3選項(xiàng),編譯器可對(duì)循環(huán)代碼實(shí)現(xiàn)軟件流水;使用-o3和-pm選項(xiàng),使優(yōu)化器訪問整個(gè)程序,了解循環(huán)次數(shù);使用_nassert內(nèi)聯(lián)函數(shù),防止冗余循環(huán)產(chǎn)生;使用投機(jī)執(zhí)行(_mh選項(xiàng))消除軟件注流水循環(huán)的排空,從而減少代碼尺寸。
在嵌套循環(huán)中,編譯器僅對(duì)最里面的循環(huán)執(zhí)行軟件流水,因此對(duì)招待周期很少的內(nèi)循環(huán)作循環(huán)展開,外循環(huán)進(jìn)行軟件流水,這樣可以改進(jìn)C代碼并行執(zhí)行的性能。使用軟件流水還應(yīng)當(dāng)注意:盡管軟件流水循環(huán)可以包含內(nèi)聯(lián)函數(shù),但是不能包含函數(shù)調(diào)用;在循環(huán)中不可以有條件終止指令;在循環(huán)體中不可以修改循環(huán)控制變量。
?。?)編寫線性匯編代碼
編寫線性匯編代碼是并行算法軟件開發(fā)流程的第三個(gè)階段。了提高并行算法軟件代碼的性能,對(duì)影響并行程序速度的關(guān)鍵C代碼可以用線性編重新編寫。編寫線性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元,匯編優(yōu)化器會(huì)根據(jù)情況確定這些住處。優(yōu)化線性匯編代碼的方法包括:為線性匯編指令指定功能單元,使得最后的匯編指令并行執(zhí)行;使用字訪問短整型數(shù)據(jù);使用軟件流水對(duì)循環(huán)進(jìn)行優(yōu)化。編寫線性匯編代碼的工作量非常大,需要很長(zhǎng)的開發(fā)周期,而且開發(fā)后的匯編代碼不能像C代碼那樣移植在其它的DSP平臺(tái)上。
應(yīng)用上述并行程序開發(fā)方法,在TMS320C6201 EVM板上實(shí)現(xiàn)了寬帶毫米波雷達(dá)目標(biāo)時(shí)延神經(jīng)網(wǎng)絡(luò)識(shí)別算法。經(jīng)過實(shí)際測(cè)試,并行算法程序執(zhí)行時(shí)間為0.850ms,滿足了目標(biāo)識(shí)別算法的實(shí)時(shí)性需求。
?
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 嵌入式系統(tǒng)工程化設(shè)計(jì)7
- 基于工程化參數(shù)優(yōu)化的遙測(cè)伺服系統(tǒng) 6次下載
- EE-263:在TigerSHARC?處理器上并行實(shí)現(xiàn)定點(diǎn)FFT
- 申威眾核處理器的LZMA并行算法實(shí)現(xiàn)與設(shè)計(jì) 28次下載
- 如何使用FPGA實(shí)現(xiàn)嵌入式多核處理器及SUSAN算法并行化 8次下載
- 如何在DSP芯片上實(shí)現(xiàn)Matlab的仿真算法 33次下載
- 以DSP芯片作為微處理器來實(shí)現(xiàn)ATR算法的優(yōu)勢(shì) 0次下載
- DSP處理器上并行實(shí)現(xiàn)ATR算法的方案解析 0次下載
- 基于FPGA和多DSP的多總線并行處理器設(shè)計(jì) 4次下載
- 嵌入式ARM多核處理器并行化優(yōu)化探究 1次下載
- 基于FPGA的嵌入式多核處理器及SUSAN算法并行化 24次下載
- 基于DSP和FPGA的數(shù)字化開關(guān)電源的實(shí)用化研究 65次下載
- 間諧波檢測(cè)技術(shù)及DSP算法設(shè)計(jì) 57次下載
- 機(jī)載SAR實(shí)時(shí)成像處理器方位向處理及DSP實(shí)現(xiàn)
- 監(jiān)控系統(tǒng)中控制軟件的工程化設(shè)計(jì)與實(shí)現(xiàn)
- 并行多線程處理器MC3172簡(jiǎn)介與實(shí)踐 2544次閱讀
- 使用map函數(shù)實(shí)現(xiàn)Python程序并行化 1587次閱讀
- 一行Python代碼如何實(shí)現(xiàn)并行化 947次閱讀
- 基于TMS320VC5402和單片機(jī)實(shí)現(xiàn)主從雙CPU處理器平臺(tái)的設(shè)計(jì) 3423次閱讀
- 實(shí)現(xiàn)ARM和DSP或協(xié)處理器的通信和協(xié)同工作,有什么解決方案和實(shí)現(xiàn)指南 1543次閱讀
- 基于FPGA的VLIW微處理器基本功能實(shí)現(xiàn)設(shè)計(jì) 1090次閱讀
- 數(shù)字信號(hào)處理器DSP與慢速外圍設(shè)備接口的設(shè)計(jì)方法解析 2336次閱讀
- 基于FPGA平臺(tái)的嵌入式PowerPC協(xié)處理器實(shí)現(xiàn)算法加速設(shè)計(jì) 1229次閱讀
- 一種基于MapReduce模型的并行化k-medoids聚類算法 5207次閱讀
- 一種基于DSP+FPGA視頻圖像采集處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 4763次閱讀
- DSP是什么?詳解DSP又稱數(shù)字信號(hào)處理器 4.7w次閱讀
- GRVI Phalanx實(shí)現(xiàn)千核處理器 4353次閱讀
- 嵌入式ARM多核處理器并行化方法 1500次閱讀
- 基于DSP/BIOS的多信號(hào)并行處理軟件架構(gòu)設(shè)計(jì) 1685次閱讀
- DSP在自動(dòng)目標(biāo)識(shí)別中的應(yīng)用 1868次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1489次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費(fèi)
- 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
- 7基于單片機(jī)和 SG3525的程控開關(guān)電源設(shè)計(jì)
- 0.23 MB | 3次下載 | 免費(fèi)
- 8基于單片機(jī)的紅外風(fēng)扇遙控
- 0.23 MB | 3次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評(píng)論
查看更多