Xilinx UltraScale? 架構(gòu)針對(duì)要求最嚴(yán)苛的應(yīng)用,提供了前所未有的ASIC級(jí)的系統(tǒng)級(jí)集成和容量。
UltraScale架構(gòu)是業(yè)界首次在All Programmable架構(gòu)中應(yīng)用最先進(jìn)的ASIC架構(gòu)優(yōu)化。該架構(gòu)能從20nm平面FET結(jié)構(gòu)擴(kuò)展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴(kuò)展到3D IC。借助Xilinx Vivado?設(shè)計(jì)套件的分析型協(xié)同優(yōu)化,UltraScale架構(gòu)可以提供海量數(shù)據(jù)的路由功能,同時(shí)還能智能地解決先進(jìn)工藝節(jié)點(diǎn)上的頭號(hào)系統(tǒng)性能瓶頸。這種協(xié)同設(shè)計(jì)可以在不降低性能的前提下達(dá)到實(shí)現(xiàn)超過(guò)90%的利用率。
UltraScale架構(gòu)的突破包括:
? 幾乎可以在晶片的任何位置戰(zhàn)略性地布置類似于ASIC的系統(tǒng)時(shí)鐘,從而將時(shí)鐘歪斜降低達(dá)50%
? 系統(tǒng)架構(gòu)中有大量并行總線,無(wú)需再使用會(huì)造成時(shí)延的流水線,從而可提高系統(tǒng)速度和容量
? 甚至在要求資源利用率達(dá)到90%及以上的系統(tǒng)中,也能消除潛在的時(shí)序收斂問(wèn)題和互連瓶頸
? 可憑借3D IC集成能力構(gòu)建更大型器件,并在工藝技術(shù)方面領(lǐng)先當(dāng)前行業(yè)標(biāo)準(zhǔn)整整一代
? 能在更低的系統(tǒng)功耗預(yù)算范圍內(nèi)顯著提高系統(tǒng)性能,包括多Gb串行收發(fā)器、I/O以及存儲(chǔ)器帶寬
? 顯著增強(qiáng)DSP與包處理性能
賽靈思UltraScale架構(gòu)為超大容量解決方案設(shè)計(jì)人員開(kāi)啟了一個(gè)全新的領(lǐng)域。
越多越好
自從“全面數(shù)字化”(all things digital)概念引入以來(lái),“越多越好”成為了所有市場(chǎng)領(lǐng)域中數(shù)字系統(tǒng)的一種基本的、必然的發(fā)展趨勢(shì)。這一期望成為了促使系統(tǒng)要求更高分辨率、更高帶寬和更大存儲(chǔ)量的基本動(dòng)力。而“更多”這一理念同時(shí)從邏輯上也引發(fā)了如下事實(shí)的產(chǎn)生:
? 更多的器件生成更多數(shù)據(jù)。
? 更多的數(shù)據(jù)意味著數(shù)據(jù)必須更快流動(dòng)。
? 更多快速流動(dòng)的數(shù)據(jù)要求計(jì)算速度更快。
? 更多的應(yīng)用需要更快速地訪問(wèn)更多數(shù)據(jù)。
? 數(shù)據(jù)量的增長(zhǎng)和數(shù)據(jù)速率的提高對(duì)數(shù)據(jù)完整性提出了更高要求。
目前幾乎每個(gè)領(lǐng)域的數(shù)據(jù)創(chuàng)建和數(shù)據(jù)傳輸速率都在快速增長(zhǎng),這會(huì)加大對(duì)新型器件架構(gòu)的需求,以應(yīng)對(duì)如下問(wèn)題所帶來(lái)的重重挑戰(zhàn):
? 海量數(shù)據(jù)流以及類似于ASIC的時(shí)鐘布線
? 海量I/O和存儲(chǔ)器帶寬
? 更快的DSP和包處理
? 電源管理
? 多級(jí)安全
UltraScale架構(gòu):賽靈思的新一代All Programmable架構(gòu)
為了達(dá)到每秒數(shù)百Gb的系統(tǒng)性能和全線速下的智能處理能力,并擴(kuò)展到Tb級(jí)和每秒萬(wàn)億次浮點(diǎn)運(yùn)算,需要采用一種新的架構(gòu)方案。為此,我們要做的不僅僅是簡(jiǎn)單地提高每個(gè)晶體管或系統(tǒng)模塊的性能,或擴(kuò)展系統(tǒng)中的模塊數(shù)量,而是要從根本上改善通信、時(shí)鐘、關(guān)鍵路徑和互連功能,以滿足海量數(shù)據(jù)流、實(shí)時(shí)數(shù)據(jù)包和圖像處理需求。
UltraScale? 架構(gòu)通過(guò)在一個(gè)全面可編程(All Programmable)架構(gòu)中應(yīng)用最先進(jìn)的ASIC 技術(shù),可應(yīng)對(duì)上述需要海量I/O和存儲(chǔ)器帶寬、海量數(shù)據(jù)流以及卓越DSP和包處理性能的挑戰(zhàn)。。UltraScale架構(gòu)經(jīng)過(guò)精調(diào)可提供大規(guī)模布線能力并且與Vivado?設(shè)計(jì)工具進(jìn)行協(xié)同優(yōu)化,因此該架構(gòu)的利用率達(dá)到了空前的高水平(超過(guò)90%),而且不會(huì)降低性能。
UltraScale架構(gòu)是業(yè)界首次在All Programmable架構(gòu)中應(yīng)用最先進(jìn)的ASIC架構(gòu)優(yōu)化該架構(gòu)能從20nm平面FET結(jié)構(gòu)擴(kuò)展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴(kuò)展到3D IC。UltraScale架構(gòu)不僅能解決系統(tǒng)總吞吐量擴(kuò)展和時(shí)延方面的局限性,而且還能直接應(yīng)對(duì)先進(jìn)工藝節(jié)點(diǎn)上的頭號(hào)系統(tǒng)性能瓶頸,即互連問(wèn)題。
Xilinx UltraScale架構(gòu)旨在滿足下一代系統(tǒng)級(jí)性能要求。(見(jiàn)圖1)
賽靈思對(duì)UltraScale架構(gòu)進(jìn)行了數(shù)百項(xiàng)設(shè)計(jì)提升,并將這些改進(jìn)實(shí)現(xiàn)有機(jī)結(jié)合,讓設(shè)計(jì)團(tuán)隊(duì)能夠打造出比以往功能更強(qiáng)、運(yùn)行速度更快、單位功耗性能更高的系統(tǒng)。見(jiàn)圖2。
圖2:Xilinx UltraScale架構(gòu)
UltraScale架構(gòu)與Vivado?設(shè)計(jì)套件結(jié)合使用可提供如下這些新一代系統(tǒng)級(jí)功能:
· 針對(duì)寬總線進(jìn)行優(yōu)化的海量數(shù)據(jù)流,可支持?jǐn)?shù)Tb級(jí)吞吐量和最低時(shí)延
· 高度優(yōu)化的關(guān)鍵路徑和內(nèi)置高速存儲(chǔ)器,級(jí)聯(lián)后可消除DSP和包處理中的瓶頸
· 增強(qiáng)型DSP slice包含27x18位乘法器和雙加法器,可以顯著提高定點(diǎn)和IEEE 754標(biāo)準(zhǔn)浮點(diǎn)算法的性能與效率
· 第二代3D IC系統(tǒng)集成的晶片間帶寬以及最新3D IC寬存儲(chǔ)器優(yōu)化接口均實(shí)現(xiàn)階梯式增長(zhǎng)
· 類似于ASIC的多區(qū)域時(shí)鐘,提供具備超低時(shí)鐘歪斜和高性能擴(kuò)展能力的低功耗時(shí)鐘網(wǎng)絡(luò)
· 海量I/O和存儲(chǔ)器帶寬,用多個(gè)硬化的ASIC級(jí)100G以太網(wǎng)、Interlaken和PCIe? IP核優(yōu)化,可支持新一代存儲(chǔ)器接口功能并顯著降低時(shí)延
· 電源管理可對(duì)各種功能元件進(jìn)行寬范圍的靜態(tài)與動(dòng)態(tài)電源門控,實(shí)現(xiàn)顯著節(jié)能降耗
· 新一代安全策略,提供先進(jìn)的AES比特流解密與認(rèn)證方法、更多密鑰模糊處理功能以及安全器件編程
· 通過(guò)與Vivado工具協(xié)同優(yōu)化消除布線擁塞問(wèn)題,實(shí)現(xiàn)了90%以上的器件利用率,同時(shí)不降低性能或增大時(shí)延
系統(tǒng)設(shè)計(jì)人員將這些系統(tǒng)級(jí)功能進(jìn)行多種組合,以解決各種問(wèn)題。下面的寬數(shù)據(jù)路徑方框圖可以很好地說(shuō)明這一問(wèn)題。見(jiàn)圖3.
圖3:Tb級(jí)I/O需要海量的并行數(shù)據(jù)路徑
圖中,數(shù)據(jù)速率高達(dá)Tbps的數(shù)據(jù)流從從左側(cè)流入再?gòu)挠覀?cè)流出。系統(tǒng)必須在左右兩側(cè)的I/O端口之間傳輸數(shù)據(jù)流,同時(shí)還要執(zhí)行必要的處理工作??梢酝ㄟ^(guò)高速串行收發(fā)器來(lái)進(jìn)行I/O傳輸,運(yùn)行速率高達(dá)數(shù)Gbps。一旦數(shù)Gbps的串行數(shù)據(jù)流進(jìn)入器件,就必須扇出(fan out),以便與片上資源的數(shù)據(jù)流、路由和處理能力相匹配。
Tb級(jí)系統(tǒng)的設(shè)計(jì)挑戰(zhàn):時(shí)鐘歪斜與海量數(shù)據(jù)流
舉一個(gè)現(xiàn)實(shí)的實(shí)例,假設(shè)左側(cè)和右側(cè)I/O端口的帶寬為100Gb/s。這意味著片上資源也必須要處理至少100Gb/s的流量。設(shè)計(jì)人員一般采用512至1024位的寬總線或數(shù)據(jù)路徑來(lái)處理相關(guān)的數(shù)據(jù)吞吐量,產(chǎn)生一個(gè)與片上資源功能相匹配的系統(tǒng)時(shí)鐘。如果線速提高到400Gb/s,那么總線寬度達(dá)到1024至2048位也并不少見(jiàn)。
現(xiàn)在考慮一下這類總線的時(shí)鐘要求。在UltraScale架構(gòu)推出之前,高系統(tǒng)時(shí)鐘頻率運(yùn)行會(huì)使這些海量數(shù)據(jù)路徑上的時(shí)鐘歪斜程度增大,甚至達(dá)到整個(gè)系統(tǒng)時(shí)鐘周期的將近一半。時(shí)鐘歪斜幾乎占用一半的時(shí)鐘周期,這種情況下設(shè)計(jì)方案需要依靠大量流水線才有可能達(dá)到目標(biāo)系統(tǒng)性能。只剩下一半的時(shí)鐘周期可用于計(jì)算,因此得到可行解決方案的幾率就會(huì)很低。大量使用流水線不僅會(huì)占用大量寄存器資源,而且還會(huì)對(duì)系統(tǒng)的總時(shí)延造成巨大影響,這也再次證明了這種方法在當(dāng)今的高性能系統(tǒng)中不可行。
UltraScale架構(gòu)提供類似ASIC時(shí)鐘功能
多虧UltraScale 架構(gòu)提供類似ASIC的多區(qū)域時(shí)鐘功能,使得設(shè)計(jì)人員現(xiàn)在可以將系統(tǒng)級(jí)時(shí)鐘放在整個(gè)晶片的任何最佳位置上,從而使系統(tǒng)級(jí)時(shí)鐘歪斜降低多達(dá)50%。將時(shí)鐘驅(qū)動(dòng)的節(jié)點(diǎn)放在功能模塊的幾何中心并且平衡不同葉節(jié)點(diǎn)時(shí)鐘單元(leaf clock cell)的時(shí)鐘歪斜,這樣可以打破阻礙實(shí)現(xiàn)多Gb系統(tǒng)級(jí)性能的一個(gè)最大瓶頸。系統(tǒng)總體時(shí)鐘歪斜降低后,就無(wú)需再使用大量流水線,并可消除隨之而來(lái)的時(shí)延問(wèn)題。UltraScale架構(gòu)中類似于ASIC的時(shí)鐘功能不僅能移除時(shí)鐘布置方面的限制,還能在系統(tǒng)設(shè)計(jì)中實(shí)現(xiàn)大量獨(dú)立的高性能、低歪斜時(shí)鐘源。這與前幾代可編程邏輯器件中所采用的時(shí)鐘方案完全不同。從系統(tǒng)設(shè)計(jì)人員的角度出發(fā),這種解決方案能輕松解決時(shí)鐘歪斜問(wèn)題。
從容應(yīng)對(duì)海量數(shù)據(jù)流挑戰(zhàn)
極高性能應(yīng)用一般采用寬總線或?qū)挃?shù)據(jù)路徑來(lái)匹配路由到片上處理資源的數(shù)據(jù)流。然而采用寬總線來(lái)擴(kuò)展性能時(shí),除了要簡(jiǎn)單處理時(shí)鐘歪斜問(wèn)題外,還要應(yīng)對(duì)一系列自身挑戰(zhàn)。眾所周知,同類競(jìng)爭(zhēng)架構(gòu)經(jīng)證實(shí)其適用于高性能設(shè)計(jì)的布線資源非常有限且缺乏靈活性。如果FPGA的互連架構(gòu)性能較低,那么用它來(lái)實(shí)現(xiàn)100Gb/s吞吐量的應(yīng)用時(shí),需要將數(shù)據(jù)總線提升到1536至2048位的寬度。
盡管更寬的總線實(shí)現(xiàn)方案可以降低系統(tǒng)時(shí)鐘頻率,但由于缺乏支持寬總線系統(tǒng)所需的布線資源,因此會(huì)產(chǎn)生嚴(yán)重的時(shí)序收斂問(wèn)題。而且有些FPGA廠商采用的是過(guò)時(shí)的模擬退火布局布線算法,不考慮擁塞程度和總線路長(zhǎng)度等全局設(shè)計(jì)指標(biāo),因此會(huì)進(jìn)一步加劇時(shí)序收斂問(wèn)題。這樣,設(shè)計(jì)人員就不得不進(jìn)行多方面權(quán)衡,包括降低系統(tǒng)性能(通常不可?。皇褂么罅苛魉€,不惜增大時(shí)延;或者降低可用器件資源利用率。在任何情況下,經(jīng)證明這些解決方案都是不佳或存在欠缺的方案。最重要的是,傳統(tǒng)FPGA中布線資源(用于滿足100Gb/s應(yīng)用的要求)的局限性幾乎可以說(shuō)明它們不可能適用新一代多Tb應(yīng)用的要求,即便能適用,但器件的利用率會(huì)非常低,時(shí)延極高。
更為復(fù)雜的問(wèn)題在于,通過(guò)大量的寬數(shù)據(jù)總線來(lái)擴(kuò)展性能會(huì)帶來(lái)額外的代價(jià),那就是需要顯著增加邏輯電路開(kāi)銷用以支持寬總線的實(shí)施,從而進(jìn)一步加大實(shí)現(xiàn)時(shí)序收斂的難度。
以以太網(wǎng)數(shù)據(jù)包大小為例可以很好地說(shuō)明這個(gè)情況。以太網(wǎng)的數(shù)據(jù)包最小為64字節(jié)(512位)。假設(shè)采用2048位寬的總線來(lái)實(shí)現(xiàn)400G的系統(tǒng),那么總線最多容納4個(gè)數(shù)據(jù)包。
在2048位寬的總線中存在多種數(shù)據(jù)包組合形式,例如4個(gè)完整數(shù)據(jù)包或者1個(gè)、2個(gè)或3個(gè)完整或部分?jǐn)?shù)據(jù)包,這樣需要使用大量邏輯來(lái)處理不同的情況與組合。需要大量復(fù)雜的重復(fù)邏輯來(lái)應(yīng)對(duì)這些可能的組合。此外,如果總線要求對(duì)四個(gè)數(shù)據(jù)包進(jìn)行同時(shí)處理并寫入到存儲(chǔ)器中,那么可能需要對(duì)邏輯的某些部分進(jìn)行加速(或擴(kuò)展性能)??梢钥紤]通過(guò)邏輯加速或用四個(gè)獨(dú)立的相同存儲(chǔ)器控制器來(lái)相繼處理多個(gè)數(shù)據(jù)包,但這些方式會(huì)進(jìn)一步加大布線資源的壓力,迫使架構(gòu)必須具備更多的高性能、低歪斜布線資源。參見(jiàn)圖4。
圖4:增加數(shù)據(jù)路徑時(shí)鐘寬度和時(shí)鐘速率需要更多邏輯和布線資源
半導(dǎo)體工藝的擴(kuò)展影響互連技術(shù)
隨著業(yè)界向20nm或更高級(jí)半導(dǎo)體工藝技術(shù)推進(jìn),在與銅線互連有關(guān)的RC延遲方面出
現(xiàn)了新的挑戰(zhàn),它會(huì)阻礙向新工藝節(jié)點(diǎn)演進(jìn)所實(shí)現(xiàn)的性能提升效果。晶體管互連延遲的增加會(huì)直接影響所能實(shí)現(xiàn)的總體系統(tǒng)性能,因此更加需要所使用的布線架構(gòu)能提供滿足新一代應(yīng)用要求的性能等級(jí)。UltraScale布線架構(gòu)在開(kāi)發(fā)過(guò)程中充分考慮了新一代工藝技術(shù)的特點(diǎn),而且能明顯減輕銅線互連的影響——如不進(jìn)行妥善處理會(huì)成為系統(tǒng)性能瓶頸。
UltraScale互連架構(gòu):針對(duì)海量數(shù)據(jù)流進(jìn)行優(yōu)化
UltraScale新一代互連架構(gòu)的推出體現(xiàn)了可編程邏輯布線技術(shù)的真正突破。賽靈思致力于滿足從多Gb智能包處理到多Tb數(shù)據(jù)路徑等新一代應(yīng)用需求,即必須支持海量數(shù)據(jù)流。在實(shí)現(xiàn)寬總線邏輯模塊(將總線寬度擴(kuò)展至512位、1024位甚至更高)的過(guò)程中,布線或互連擁塞問(wèn)題一直是影響實(shí)現(xiàn)時(shí)序收斂和高質(zhì)量結(jié)果的主要制約因素。過(guò)于擁堵的邏輯設(shè)計(jì)通常無(wú)法在早期器件架構(gòu)中進(jìn)行布線;即使工具能夠?qū)砣脑O(shè)計(jì)進(jìn)行布線,最終設(shè)計(jì)也經(jīng)常需要在低于預(yù)期的時(shí)鐘速率下運(yùn)行。而UltraScale布線架構(gòu)則能完全消除布線擁塞問(wèn)題。結(jié)論很簡(jiǎn)單:只要設(shè)計(jì)合理,就能進(jìn)行布線。
我們來(lái)做個(gè)類比。位于市中心的一個(gè)繁忙十字路口,交通流量的方向是從北到南,從南到北,從東到西,從西到東,有些車輛正試圖掉頭,所有交通車輛試圖同時(shí)移動(dòng)。這樣通常就會(huì)造成大堵車。現(xiàn)在考慮一下將這樣的十字路口精心設(shè)計(jì)為現(xiàn)代化高速公路或主干道,情況又會(huì)如何。道路設(shè)計(jì)人員設(shè)計(jì)出了專用坡道(快行道),用以將交通流量從主要高速路口的一端順暢地疏導(dǎo)至另一端。交通流量可以從高速路的一端全速移動(dòng)到另一端,不存在堵車現(xiàn)象。
賽靈思為UltraScale架構(gòu)加入了類似的快行道。這些新增的快行道可供附近的邏輯元件之間傳輸數(shù)據(jù),盡管這些元件并不一定相鄰,但它們?nèi)酝ㄟ^(guò)特定的設(shè)計(jì)實(shí)現(xiàn)邏輯上的連接。這樣,UltraScale架構(gòu)所能管理的數(shù)據(jù)量就會(huì)呈指數(shù)級(jí)上升,如圖5所示。
圖5:增加真實(shí)有效的路由路徑可以幫助解決日益增長(zhǎng)的系統(tǒng)復(fù)雜性
UltraScale架構(gòu)堆疊硅片互聯(lián)技術(shù)全面強(qiáng)化所有功能
很少有開(kāi)發(fā)的技術(shù)能夠像堆疊硅片互聯(lián)(SSI)技術(shù)集成那樣對(duì)器件容量和性能產(chǎn)生如此重大的影響,這已得到了賽靈思第一代基于7系列All Programmable器件的3D IC產(chǎn)品的驗(yàn)證。集成SSI技術(shù)后,設(shè)計(jì)人員可以構(gòu)建出工藝技術(shù)領(lǐng)先行業(yè)標(biāo)準(zhǔn)整整一代水平的更大型器件。而且該技術(shù)在賽靈思第二代基于UltraScale架構(gòu)的3D IC產(chǎn)品中也同樣會(huì)達(dá)到這種效果。
由于3D IC中硅片間通信連接比獨(dú)立封裝的硅片間通信連接更密集、更快速,因此硅片間的通信所需功耗更低(假設(shè)硅片無(wú)需驅(qū)動(dòng)硅片到封裝間互連以及板級(jí)互連的附加阻抗)。所以,與獨(dú)立封裝的硅片相比,SSI技術(shù)的集成能夠在顯著擴(kuò)大容量和性能的同時(shí)降低功耗。此外,由于無(wú)法輕易訪問(wèn)電路板層面的硅片間通信,這樣系統(tǒng)安全性也得到了加強(qiáng)。
Virtex?UltraScale和Kintex?UltraScale系列成員在第二代3D IC中的連接資源數(shù)量以及相關(guān)的硅片間帶寬都實(shí)現(xiàn)了階梯式增長(zhǎng)。布線資源和硅片間帶寬的大幅增長(zhǎng)確保了新一代應(yīng)用能夠在實(shí)現(xiàn)其高器件利用率的前提下達(dá)到目標(biāo)性能和時(shí)序收斂。
更多內(nèi)容,請(qǐng)點(diǎn)擊鏈接下載:http://www.wenjunhu.com/soft/5/2013/20130715324025.html
評(píng)論
查看更多