電子發(fā)燒友網(wǎng)核心提示:隨著工藝尺寸的減小,數(shù)字邏輯電路的漏電流成為當(dāng)前FPGA面臨的主要挑戰(zhàn)。靜態(tài)功耗增大的主要原因是各種漏電流源的增加。圖1所示為隨著更小邏輯門長度的技術(shù)實現(xiàn),這些漏電流源是怎樣隨之增加的。此外,如果不采取專門的功耗措施,較大的邏輯電容和較高的開關(guān)頻率也會導(dǎo)致動態(tài)功耗增大。
功耗由靜態(tài)和動態(tài)功耗組成。靜態(tài)功耗是采用可編程目標(biāo)文件(.pof)對FPGA進行設(shè)置,但時鐘還沒有工作時消耗的功率。數(shù)字和模擬邏輯都存在靜態(tài)功耗。在模擬系統(tǒng)中,靜態(tài)功耗主要來自模擬電路不同接口配置帶來的靜態(tài)電流。
圖1 在更小的工藝尺寸上,靜態(tài)功耗顯著增大
動態(tài)功耗是器件工作時由于信號觸發(fā)和容性負載充放電所帶來的功耗,影響動態(tài)功耗的主要因素是電容充電、供電電壓和時鐘頻率等。按照摩爾定律,小工藝尺寸降低了電容和電壓,從而降低了動態(tài)功耗。而難點在于小工藝尺寸上實現(xiàn)了更多的電路,提高了最大時鐘頻率。隨著工藝節(jié)點的減小,相同電路的功耗在降低,但是FPGA容量在不斷加倍,最大時鐘頻率不斷提高。
體系結(jié)構(gòu)和工藝技術(shù)的功耗創(chuàng)新
FPGA可以采用創(chuàng)新的內(nèi)核、I/O和收發(fā)器體系結(jié)構(gòu)以及最新的工藝技術(shù)和電路技術(shù)來解決這些功耗難題。
1 可編程功耗技術(shù)
FPGA內(nèi)核主要包括邏輯、存儲器和數(shù)字信號處理(DSP)模塊。在Virtex-5 FPGA等標(biāo)準FPGA中,所有邏輯模塊都設(shè)計運行在一個速率上——最大速率,導(dǎo)致非常大的功耗。
Altera公司的工程師分析了71個設(shè)計的基準測試結(jié)果,估算一個設(shè)計一般需要多少高速邏輯。他們對設(shè)計進行編譯,在FPGA架構(gòu)上實現(xiàn)所能達到的最佳性能。在這些設(shè)計中,所需要的高速邏輯大概平均占20%。
圖2所示為一個典型的余度直方圖,大部分通路(左側(cè))都有一定的余度,只有少量關(guān)鍵通路(右側(cè))需要性能最好的邏輯以達到時序要求。
圖2 余度直方圖顯示少量電路沒有或者很少有余度
利用這一事實——設(shè)計中的大部分電路都有一定的余度,不需要將所有邏輯置于高性能狀態(tài)。以Stratix IV FPGA為例,它由邏輯陣列模塊(LAB)、TriMatrix存儲器和DSP模塊構(gòu)成,利用可編程功耗技術(shù)將少量的關(guān)鍵時序邏輯模塊設(shè)置為高速模式。時序不重要的邏輯模塊設(shè)置為低功耗模式,能夠大大降低低功耗邏輯的泄漏功耗。而且,可編程功耗技術(shù)將沒有使用的邏輯、TriMatrix存儲器以及DSP模塊設(shè)置為低功耗模式,進一步降低了功耗。
在任何設(shè)計中,Quartus II軟件能夠自動確定設(shè)計中每一通路的余量,通過調(diào)整晶體管反向偏置電壓,把晶體管,同時把邏輯模塊設(shè)置為合適的模式——高性能或者低功耗。例如,將Stratix IV FPGA內(nèi)核的n-MOS晶體管設(shè)置為這兩種模式。
● 低功耗模式,Quartus II軟件減小反向偏置電壓,使得晶體管很難接通。這降低了時序不重要電路的亞閾值漏電流和不需要的靜態(tài)功耗。
● 高性能模式,Quartus II軟件增大反向偏置電壓,在幾個關(guān)鍵時序通路上的晶體管更容易接通,以滿足設(shè)計中規(guī)定的時序約束要求,提高性能。
采用同樣的方法也能將p-MOS晶體管設(shè)置為合適的模式,從而設(shè)置LAB、TriMatrix存儲器和DSP模塊為高性能或者低功耗模式。這樣,通過改變晶體管的電氣特性,Stratix IV FPGA可編程功耗技術(shù)以高速邏輯和低功耗邏輯的最佳組合,實現(xiàn)了最好的性能和最低的功耗。例如,圖3所示的Stratix IV EP4SE680 FPGA在85℃時的典型設(shè)計,和沒有采用可編程功耗技術(shù)時相比,靜態(tài)功耗降低了37%。
圖3 可編程功耗技術(shù)降低了靜態(tài)功耗
我們可以精確地控制一個設(shè)計達到其性能要求而需要的高速邏輯數(shù)量。在每一個邏輯塊基礎(chǔ)上控制高速和低功耗邏輯的設(shè)置(每個邏輯塊包括兩個LAB,或者一個LAB和DSP模塊,或者一個TriMatrix存儲器,都含有相關(guān)的走線)。例如,在Stratix IV FPGA中,可以分別對5000多個邏輯塊進行控制,設(shè)置為高速或者低功耗模式,把設(shè)計功耗降到最低。Quartus II開發(fā)軟件能夠?qū)⑦壿媺K設(shè)置為高速或者低功耗模式,自動對設(shè)計進行優(yōu)化,無須用戶的干預(yù)。
Quartus II軟件每次針對Stratix III FPGA進行設(shè)計編譯時,自動對設(shè)計進行優(yōu)化,達到規(guī)定的時序約束,同時實現(xiàn)最低功耗。得到的編程文件被裝入FPGA,包括將每個邏輯塊設(shè)置為高速或者低功耗配置的信息。在Quartus II軟件中完全可以看到邏輯塊高速或者低功耗模式的最終設(shè)置。
2 MultiTrack互連
Stratix系列器件還采用了MultiTrack互聯(lián)來提高性能,降低擁塞和功耗。MultiTrack互聯(lián)提供不同LAB之間的連接,可以采用一個LAB到另一個LAB之間的“跳轉(zhuǎn)”數(shù)量來對其性能進行衡量。由于增加互連跳轉(zhuǎn)數(shù)量會增大電容,因此,跳轉(zhuǎn)數(shù)量越少,就可以采用越少的高速邏輯來達到性能要求。
ALM和MultiTrack體系結(jié)構(gòu)相結(jié)合后,能夠以更少的布線連接更多的邏輯,從而提高了性能,降低了功耗。
3 分級時鐘
分級時鐘可以在LAB層面上來控制每一時鐘網(wǎng)絡(luò)的傳播。作為Quartus II軟件中邏輯優(yōu)化的一部分,通用時鐘邏輯被劃入LAB中。只有在邏輯使用時鐘時,才啟用該時鐘。關(guān)斷所有其他時鐘信號,以降低功耗。
4 DDR3和動態(tài)片內(nèi)匹配
以Stratix IV FPGA為例,其I/O創(chuàng)新技術(shù)包括I/O中直接內(nèi)置讀/寫調(diào)平功能,更迅速方便地與1067Mb/s533MHz) DDR3 DIMM進行接口。從1.8V工作的DDR2過渡到1.5V工作的DDR3,使I/O靜態(tài)功耗降低了30%。
為進一步降低I/O靜態(tài)功耗,可在數(shù)據(jù)傳送期間動態(tài)接通和關(guān)斷串聯(lián)匹配(RS)及并聯(lián)匹配(RT),這一功能被稱為動態(tài)片內(nèi)匹配(DOCT)。在寫周期,RS接通,RT關(guān)斷,以匹配線路阻抗,而在讀周期,RS關(guān)斷,RT接通,實現(xiàn)與總線的遠端匹配。在一個典型72位DIMM上,和使用DDR2但不具有DOCT的標(biāo)準FPGA相比,Stratix IV FPGA在1067Mb/s時I/O靜態(tài)功耗降低了65% (1.9W)。
5 內(nèi)置硬核IP和收發(fā)器技術(shù)
以Stratix IV FPGA為例,它為各種×1、×4、×8 PCI Express Gen1和Gen2應(yīng)用提供一系列完整的PCI-SIG兼容FPGA解決方案。Stratix IV FPGA新增特性提供4個PCI Express硬核知識產(chǎn)權(quán)(IP)模塊,嵌有完整的PCI Express協(xié)議堆棧(端點和根端口)。這包括收發(fā)器模塊、PHY MAC、數(shù)據(jù)鏈路層和協(xié)議層。
和軟核IP相比,Stratix IV FGPA中的硬核IP不但節(jié)省了邏輯和嵌入式存儲器資源,縮短了設(shè)計和編譯時間,而且大大降低了功耗。表1為Stratix IV FPGA中PCI Express硬核IP內(nèi)核Gen2的功耗。
40nm工藝的電路技術(shù)
40nm工藝要比以前包括65nm節(jié)點和最近的45nm節(jié)點在內(nèi)的工藝技術(shù)有明顯優(yōu)勢。最引人注目的優(yōu)勢之一是其更高的集成度,半導(dǎo)體生產(chǎn)商可以在更小的物理空間中實現(xiàn)更強的功能。和65nm工藝相比,45nm工藝密度提高了1倍,而40nm工藝密度達到了2.35倍。
半導(dǎo)體行業(yè)一直在不斷邁向更小的工藝節(jié)點,在設(shè)備、工藝技術(shù)、設(shè)計工具和電路技術(shù)上進行大量投入,以解決出現(xiàn)的各種問題。整個行業(yè)普遍面臨的挑戰(zhàn)是小工藝尺寸上越來越大的泄漏功率問題,40nm工藝節(jié)點(以及以前的節(jié)點)采用了很多技術(shù)手段來管理泄漏功率,進一步提高性能,或者保持性能不變。
1 全銅布線
銅替代鋁之后,減小了電氣損耗和功率損耗,從而提升了性能。以Altera為例,該公司在150nm工藝節(jié)點開始采用全銅金屬進行片內(nèi)布線,在所有130nm、90nm、65nm和40nm產(chǎn)品中都采用了全銅布線。
2 低k絕緣
絕緣材料實現(xiàn)了金屬層之間的隔離,支持多布線層。采用低k絕緣后,降低了布線層之間的電容,顯著提高了性能,降低了功耗。
3 多閾值晶體管
晶體管電壓閾值影響晶體管的性能和泄漏功率。Altera對性能要求高的高速晶體管采用低閾值電壓,對性能要求不高的慢速低泄漏晶體管采用高閾值電壓。
4 可變門長度晶體管
晶體管的邏輯門長度影響其速率和亞閾值泄漏。當(dāng)晶體管的長度接近45nm工藝的最小門長度時,亞閾值漏電流會顯著增加。在性能要求不高的電路中,可使用長度較長的邏輯門以降低漏電流。對于性能非常關(guān)鍵的電路,Altera使用長度較短的邏輯門來提高性能。Altera在90nm、65nm和40nm Stratix系列器件中采用了可變門長度晶體管來降低功耗。
5 三重氧化
邏輯門氧化層的厚度會影響晶體管的性能和漏電流。Stratix IV FPGA在I/O電路和核心邏輯中使用了三個分立的氧化層(三重氧化)。這些核心氧化層中的兩個被用于在低性能晶體管中實現(xiàn)最小泄漏,在高性能晶體管中被用于實現(xiàn)最佳性能。
6 超薄門氧化
三重氧化技術(shù)還包括針對高性能晶體管的超薄門氧化技術(shù)。這些晶體管即使使用長度較長的邏輯門也可以達到最佳性能,適當(dāng)?shù)奶岣邧艠O導(dǎo)致的漏極泄漏以及柵極直接溝道泄漏,能夠大大降低亞閾值泄漏。
圖4 40nm應(yīng)變硅技術(shù)實現(xiàn)了性能更好的晶體管
7 應(yīng)變硅
應(yīng)變硅技術(shù)增大了晶體管溝道跨導(dǎo),從而提高了晶體管的性能,如圖4所示。Stratix III和Stratix IV FPGA的所有晶體管中使用了應(yīng)變硅技術(shù),以提高FPGA的性能。
Quartus II功耗優(yōu)化
詳細的設(shè)計實施可以提高性能,減小面積,降低功耗。以前,通過布局布線設(shè)計流程,寄存器傳送級(RTL)自動在性能和面積上達到均衡。Quartus II PowerPlay優(yōu)化工具自動在Stratix IV FPGA上繼承了這些節(jié)省功耗的特性,進一步降低功耗。
Quartus II軟件的許多自動功耗優(yōu)化功能對設(shè)計人員而言都是透明的,而且還提供Stratix體系結(jié)構(gòu)詳細的優(yōu)化措施以降低功耗,這些措施如下。
1 分析和綜合優(yōu)化
● 主要功能模塊變換映射用戶RAM,降低功耗。
● 重新規(guī)劃邏輯以降低動態(tài)功耗,正確的選擇邏輯輸入,降低高頻觸發(fā)網(wǎng)絡(luò)的電容。
2 適配器優(yōu)化
● 降低核心邏輯的面積和連線要求,以降低布線的動態(tài)功耗。
● 修改布局以降低時鐘功耗。
● 在對時序不重要的數(shù)據(jù)信號進行布線時,降低速率以減小功耗。
● 將關(guān)鍵通路上的邏輯塊設(shè)置為高速模式,所有其他邏輯塊設(shè)置為低功耗模式(Stratix III和Stratix IV FPGA)。
功耗估算
在設(shè)計概念構(gòu)思直到實施的整個過程中,PowerPlay都支持功耗估算,如圖5所示。在設(shè)計構(gòu)思階段,設(shè)計人員使用PowerPlay EPE,而在設(shè)計實施階段使用PowerPlay功耗分析器。這些工具是精確的FPGA功耗分析工具。
圖5 PowerPlay分析工具——精度和實現(xiàn)
PowerPlay EPE是一種基于表格的分析工具,可以根據(jù)器件和封裝選擇、工作條件以及器件使用情況來進行早期功耗估算。EPE具有FPGA內(nèi)部精確的功能元件模型,但是,由于在RTL設(shè)計之前采用EPE,因此,它缺乏很多關(guān)鍵信息,如邏輯配置、布局布線等,限制了其精度范圍。然而,用戶還是依靠EPE作為主要的功耗估算工具,在設(shè)計早期階段進行功耗估算。
PowerPlay功耗分析器是更精細的功耗分析工具,它使用實際的設(shè)計布局布線和邏輯配置,以及仿真波形精確地估算動態(tài)功耗??傮w上,功耗分析器結(jié)合精確的設(shè)計信息,其準確度在±15%以內(nèi)。
圖6 全RAM配置的PowerPlay功耗估算和芯片測量
Quartus II PowerPlay功耗模型與實際的芯片測量結(jié)果密切相關(guān)。Altera公司使用了8500多個不同的測試配置來測量Stratix系列器件每一組成的功耗。每一配置專門針對FPGA特定配置下的某一電路組成,例如9×9模式下的DSP、×16模式下的M9k存儲器模塊,以及特定邏輯配置下的ALM等。
所采用的測試方法簡單、精確。對特定配置下FPGA中單個模塊進行精確的功耗測量,最好的方法是采用待分析配置狀態(tài)測量的模塊實例來配置FPGA。所有其他邏輯和功能模塊配置為低功耗工作模式不被激勵。然后,在所有被測模塊中運行設(shè)計好的、能夠重復(fù)激勵的模式,產(chǎn)生清晰的功耗參數(shù)。得到的芯片功耗主要來自于大量被測模塊,可以從總功耗中提取出多余功耗。得到的功耗除以配置模塊數(shù)后,得出該模塊在該模式下的精確功耗,如圖6所示。
結(jié)論
雖然邁向尺寸更小的工藝節(jié)點實現(xiàn)了摩爾定律預(yù)言的密度和性能優(yōu)勢,但是要在提高性能的同時降低功耗,不但要進行工藝創(chuàng)新,而且也需要在FPGA體系結(jié)構(gòu)上進行創(chuàng)新??删幊坦募夹g(shù)和支持DOCT的DDR3等獨特的技術(shù)使Stratix IV FPGA等高端FPGA盡可能將功耗降到最低,同時不會犧牲新一代設(shè)計的性能。
評論
查看更多