工業(yè)、汽車、通信、航空航天和安防市場對關鍵任務(Mission-critical)應用的需求越來越大。如今,萊迪思NexusTM技術平臺為用于關鍵任務(Mission-critical)應用的FPGA提供了絕對的優(yōu)勢。
引言(MPU vs.FPGA)
如今的關鍵任務系統(tǒng)可能要求相當大的算力。一種計算解決方案就是采用微處理器單元(MPU),例如PC和工作站。盡管這種處理器看似很強大,但實際上它們只執(zhí)行簡單的任務,例如將兩個數(shù)字相加或者比較兩個數(shù)字的大小。同樣,它們看似很快,是因為系統(tǒng)時鐘以2.4 GHz或者更高頻率運行。
問題的關鍵在于,盡管MPU可以很好地處理決策任務,在執(zhí)行很多數(shù)據(jù)處理任務時就不那么高效了。因此, MPU在執(zhí)行此類任務時往往功耗更大,產(chǎn)生熱量更多。
在嵌入式應用中實現(xiàn)信號和數(shù)據(jù)處理的更有效方法是采用現(xiàn)場可編程門陣列(FPGA)。FPGA受益于自身的并行架構,能以低延遲并行執(zhí)行數(shù)據(jù)處理操作。正如專欄文章《FPGA基礎知識:FPGA是什么?為什么需要FPGA?》所述:“任何FPGA的核心都在于其可編程架構,它以可編程邏輯模塊陣列的形式出現(xiàn)。每個邏輯模塊都包含多個要素:一個查找表(LUT)、一個多路開關和一個寄存器,所有這些都可以配置(編程)執(zhí)行用戶所需的功能?!?/p>
圖1. 通用FPGA可編程架構(圖片來源:Max Maxfield)
一種更為形象的描述方法是將可編程邏輯視為可編程互連這片“海洋”中的“島嶼”??删幊踢壿嬆K組可以經(jīng)過配置執(zhí)行所需的邏輯功能,而可編程互連則將邏輯模塊相互連接,并且連接到主要的通用輸入/輸出接口(GPIO)。
需要注意的是,以上描述只是極端簡化的情況。除了可編程架構之外,F(xiàn)PGA還可以包含相當于數(shù)兆RAM的存儲模塊以及大量數(shù)字信號處理(DSP)單元。同樣,除了通用I/O外,F(xiàn)PGA還可以包括支持千兆位串行接口的高速SERDES模塊以及與外部存儲器連接的高速接口。
FPGA廣為人知的一個主要原因是其可編程邏輯可以配置為以大規(guī)模并行方式執(zhí)行相應的數(shù)據(jù)處理算法,這不僅比MPU快幾個數(shù)量級,而且功耗很低。此外,與算法“凍結在芯片中”的SoC不同,F(xiàn)PGA的設計可以隨時重新配置。此外,由于用戶IP由終端用戶自行編程, FPGA在制造時不包含任何用戶IP,這使得FPGA能夠在不受保護的供應鏈中運輸,而不會造成用戶IP被盜竊或篡改。這一點也和SOC及ASIC不同。因此,F(xiàn)PGA是包括工業(yè)機器人和通信基礎設施設備在內的關鍵任務系統(tǒng)的理想選擇。
輻射的挑戰(zhàn)
為了拓展容量、提高性能、降低功耗和成本,每一代新芯片的晶體管都變得越來越小。如今芯片中制造的結構大小僅為幾十納米(nm)(一納米等于一米的十億分之一)。這些結構非常微小,可能會受到地球上輻射的影響。
此外,關鍵任務應用的系統(tǒng)一般都部署在持續(xù)高水平輻射的環(huán)境中,包括高緯度地區(qū)甚至太空。
對這類應用而言,有兩種輻射效應影響最為嚴重:單粒子效應(SEE)和電離總劑量效應(TID)。
SEE是指由單個電離粒子(電子、質子、離子、光子等)在集成電路中引起的即時效應。處理SEE需要在輻射發(fā)生時能夠快速恢復。相比之下,由于長期暴露在輻射下不斷累積,TID最終會導致半導體晶格老化。典型的TID效應包括晶體管開關閾值偏移、漏電流增加、性能下降以及最終導致功能故障。因此,解決TID需要長時間抵御輻射并能從中恢復。
單粒子翻轉(SEU)是SEE的一種情形,指高能粒子撞擊微電路中的敏感節(jié)點并引起狀態(tài)變化。例如,SEU可能導致寄存器單元或存儲單元從邏輯0翻轉為邏輯1或由到0。與TID引起的問題不同,SEU被定義為“軟錯誤”,因為它可以被校正。
圖2. 時序邏輯中的單粒子翻轉(SEU)(圖片來源:Max Maxfield)
不幸的是,制程越來越先進會導致多單元翻轉(MCU)的趨勢愈發(fā)嚴重。這意味著,由于芯片中的結構排列非常緊密,SEU實際上可能會使多個存儲元件發(fā)生邏輯翻轉。此外,多位翻轉(MBU)是指一種在同一數(shù)據(jù)字或幀內出現(xiàn)的MCU,可能會對系統(tǒng)的糾錯能力產(chǎn)生負面影響。
SEE的另一種形式是單粒子瞬態(tài)(SET),它是指輻射粒子影響一部分組合邏輯而形成脈沖(也稱為毛刺或尖峰)。
圖3. 組合邏輯中的單粒子瞬態(tài)(SET)(圖片來源:Max Maxfield)
SET本身并不會造成太大問題,因為通常在系統(tǒng)其他部分檢測到之前,它就已經(jīng)消失了。話雖如此,如果SET恰好發(fā)生在錯誤的時間,則可能在時鐘信號控制下進入寄存器元件或存儲單元中,這時它就會變?yōu)镾EU。
另一個潛在的問題是單粒子鎖定(SEL),SEE會可能導致CMOS電路的電源和接地軌之間產(chǎn)生低阻抗通路(實際是短路)。如果發(fā)生這種情況,則需要立即對設備重啟(關閉電源然后再打開),防止對其造成嚴重損壞。不言而喻,在許多情況下重啟關鍵任務設備的電源可能會造成很多問題。
對于FPGA還需要進一步考慮。FPGA除了寄存器元件和RAM單元之外,還包括用于配置可編程邏輯塊的配置單元、可編程互連和可編程通用I/O。并且不同的FPGA采用的配置單元技術也不盡相同。
萊迪思提供基于SRAM的全新器件,該器件采用萊迪思Nexus FPGA技術平臺開發(fā),為實現(xiàn)用于執(zhí)行關鍵任務應用的先進系統(tǒng)提供了絕對的優(yōu)勢。
Nexus技術平臺
萊迪思的Nexus技術平臺基于28納米FD-SOI工藝,為FPGA市場提供了巨大的差異化優(yōu)勢。
FD-SOI工藝直接帶來兩大重要優(yōu)勢。首先,由于采用全耗盡型工藝,因此芯片本身具有很強的抗輻射能力。FD-SOI本質上不受單粒子鎖定的影響,這意味著在關鍵任務應用下無需停機,而通常則需要重啟電源才能解除這種狀態(tài)。
第二個值得注意的優(yōu)勢是靈活性。通過改變基底的偏壓,用戶可以選擇采用高性能(HP)還是低功耗(LP)模式運行。此外,可以通過程序控制讓系統(tǒng)在兩個模式下實時切換。
例如我們之前已經(jīng)討論過,當輻射以高能粒子的形式穿過寄存器元件或存儲器單元時,就會出現(xiàn)單粒子翻轉,使半導體材料電離(產(chǎn)生電荷),形成短暫的電流脈沖。這種脈沖可能足以干擾到存儲的數(shù)據(jù)。
觀察如圖4(a)所示的bulk CMOS工藝。輻射(紅色箭頭)穿過芯片生成一條電離路徑,隨之留下正負電荷。這些電荷隨后在入射點處聚集(藍色箭頭)。
圖4. SEU對Bulk CMOS工藝(a)和FD-SOI工藝(b)的影響比較
相比之下,我們再來觀察如圖4(b)所示的FD-SOI工藝。在此情況下,由于氧化物層(黃色)下方的任何電荷都無法在敏感節(jié)點處聚集,因此,該氧化物層可以將生成的電荷隔離開來。較少的電荷意味著瞬態(tài)電流脈沖也較弱,也就不太可能使寄存器元件或存儲單元發(fā)生故障。
之前提到的另一個潛在問題就是MCU和MBU,這兩種情況下單個粒子可能破壞多個存儲元件。在如圖5(a)所示的Bulk CMOS工藝下,輻射(紅色箭頭)穿過芯片生成一條電離路徑,隨之留下正負電荷。除了在入射節(jié)點處聚集(藍色箭頭)外,這些電荷還可能在相鄰節(jié)點處聚集(紫色箭頭),從而導致MCU或MBU。
圖5. Bulk CMOS工藝(a)容易受到MCU和MBU的影響,而FD-SOI工藝(b)可以防止這些干擾
相比之下,我們來考察一下圖5(b)所示的FD-SOI工藝。除了將入射節(jié)點與大部分生成的電荷隔離開外,掩埋的氧化物層(黃色)還極大地縮小了每個單元的敏感區(qū)域,讓單個粒子軌跡很難影響到多個數(shù)據(jù)位,從而大幅減少了MCU和MBU的發(fā)生。
關鍵任務系統(tǒng)和安全系統(tǒng)的設計人員通常使用FIT(故障率)的概念。器件的FIT是指器件在十億(109)個小時的運行中可以預期的故障次數(shù)(例如,一個器件運行十億小時,1000個器件每個運行100萬小時,一百萬個器件每個運行1000小時,以此類推)。
就28納米技術節(jié)點下采用Bulk CMOS工藝的FPGA而言,其FIT約為100。相比之下,同樣是28納米制程,采用Nexus平臺FD-SOI工藝的萊迪思FPGA其FIT僅為1。這意味著Nexus平臺就將FIT降低了兩個數(shù)量級?;贜exus平臺的FPGA(例如Lattice CrossLink?-NX)提供了詳細的SEU描述報告,可用于估算輻射效應導致的故障率。
Nexus平臺憑借自身優(yōu)勢,讓基于該技術的FPGA真正脫穎而出,更好地服務于醫(yī)療、汽車、安防等領域。然而這僅僅是開始,因為萊迪思的使命是將FIT降低到幾乎為零,這可以通過強化FD-SOI工藝以及下面討論的技術實現(xiàn)。
萊迪思Nexus FPGA
糾錯碼(ECC)存儲器是一種數(shù)據(jù)存儲方式,它可以檢測和校正任何內部數(shù)據(jù)損壞,例如由輻射引起的數(shù)據(jù)損壞。由于SEU被稱為“軟錯誤”,從而有了軟錯誤檢測(SED)和軟錯誤校正(SEC)的概念。
同時,內存刷洗(Memory Scrubbing)是指從每個存儲位置讀取數(shù)據(jù),使用糾錯碼校正位錯誤(如果有),然后將校正后的數(shù)據(jù)寫回到同一位置。內存刷洗通常用于關鍵任務和安全系統(tǒng)以及易受高輻射環(huán)境影響的系統(tǒng)。
設計人員通常必須自己來實現(xiàn)內存刷洗功能,但這會消耗寶貴的可編程邏輯資源。相比之下,Nexus FPGA已經(jīng)包括了專用的IP模塊,能夠在后臺自動執(zhí)行基于ECC的內存刷洗功能。
此外,Nexus FPGA在配置存儲器中還內置了SED/SEC模塊,從而在不需要外部電路的情況下逐幀進行快速檢測和錯誤校正。盡管此類錯誤很少見,但理論上仍是有可能的。如果輻射以某種方式導致配置單元狀態(tài)翻轉,此專用IP會將其翻轉回去。
因此在萊迪思Nexus FPGA中尚未觀察到不可糾正的SEU。底層工藝將理論FIT降低為1,這意味著仍有可能會遇到數(shù)位發(fā)生錯誤的情形,但受到影響的數(shù)位幾乎會立即恢復正常。
雖然如此,但依然可能出現(xiàn)內部SED/SEC引擎可能無法糾正錯誤的情況。第一種情況是出現(xiàn)多個單獨的SEU,其中兩個或多個粒子隨機擾亂同一數(shù)據(jù)幀內的多個數(shù)位。第二情況是出現(xiàn)MBU,單個粒子使同一數(shù)據(jù)幀內的兩個或多個數(shù)位出現(xiàn)異常。
在分析Nexus平臺抵御MCU和MBU輻射影響時,要特別注意觀察這些效應。這些測試證實了上述技術優(yōu)勢,表明單個粒子很少會影響到多個單元。此外,由于萊迪思的存儲器陣列設計,所有觀察到的MCU都出現(xiàn)在不同的數(shù)據(jù)幀中,從而可以通過SED/SEC引擎進行校正。
除了使用真實輻射源測試Nexus FPGA外,這些器件還提供能讓系統(tǒng)開發(fā)人員自行注入模擬輻射的機制。實際上,開發(fā)人員可以同步或異步輸入單位和多位錯誤。通過這些機制,開發(fā)人員可以驗證內存刷洗功能和SED/SEC引擎的運作,以及器件是否正常運行并生成正確的數(shù)據(jù),這樣可以確保器件和設計即便處于輻射密集的惡劣環(huán)境中也能夠按預期工作。
結論
與所有電子元件一樣,F(xiàn)PGA可能會受到輻射的負面影響,隨著芯片中結構的不斷縮小,這種影響也變得更加明顯。萊迪思Nexus技術平臺基于28納米FD-SOI工藝,能讓用戶選擇高性能或低功耗模式運行,并通過程序控制實時做出更改。此外,由于FD-SOI工藝本身具有抗輻射性,因此其故障率FIT僅為1,與同一技術節(jié)點下的標準CMOS FPGA相比,提高了兩個數(shù)量級。
出于以上原因,萊迪思Nexus FPGA非常適合用于商業(yè)、工業(yè)、通信、安防和汽車等領域的關鍵任務和安全應用。
評論
查看更多