在第七屆云計算大會的PMC技術專場上演講嘉賓連續(xù)進行了七場技術演講,其中,PMC數(shù)據(jù)中心存儲架構師張冬沒有過多談論市場和行業(yè)問題,而是從底層技術出發(fā),對OpenPowerCAPI進行了分析和闡述,為我們介紹了CAPI為什么能這么快。
之前,POWER CPU只是IBM在做小型機的時候使用,OpenPOWER開放后,成立了OpenPower基金會,基金會大部分成員都非常專注于CAPI(相干加速器處理器接口)上的利用,比如將外置的網(wǎng)絡、GPU、閃存等設備通過CAPI直接與CPU相連接,并在此基礎上根據(jù)不同的主流應用場景進行開放的、定制化的系統(tǒng)設計,PMC除了關注這些外,還關注CAPI與NVMe進行協(xié)作的問題。
傳統(tǒng)架構的缺點和瓶頸
現(xiàn)在無論是2路、4路、8路還是32路服務器,他們架構中的CPU之間的互聯(lián)有的是直聯(lián),有的通過NC(NC就類似以太網(wǎng)絡里面的網(wǎng)橋)。核心之間要傳輸數(shù)據(jù)方式中,最高效的是共享內(nèi)存,代碼里寫死。最低效的方法就是走網(wǎng)絡,封裝一堆的包出去,發(fā)送一個數(shù)據(jù)給遠端的某個線程,調(diào)用一堆接口,走到協(xié)議棧,再到設備驅(qū)動,然后到網(wǎng)絡,接著收包解析,這個過程非常慢。所以超級計算機沒法做到CPU之間進行高速網(wǎng)絡共享內(nèi)存因為成本太高,沒法將幾萬個CPU連接起來,只能走網(wǎng)絡了,這也是松耦合系統(tǒng)的一個妥協(xié)。
沒有CAPI的FPGA為什么也不太行
面對現(xiàn)在大數(shù)據(jù)分析、模式匹配、熱點識別等,要求非常大的計算量,傳統(tǒng)CPU出現(xiàn)瓶頸。普通的CPU其實也能計算,但是計算速度太慢,比如,只有64位寬來處理1GB數(shù)據(jù),那便需要循環(huán)拆分N次才能算完,普通的CPU無法迅速處理這么大的運算量。
在多路CPU系統(tǒng)中,線程看到的都是單一的虛擬地址空間,這個虛擬地址空間會被操作系統(tǒng)映射到真實的物理空間里,但是所有的CPU看到都是同一份物理地址空間。
所有CPU看到單一物理地址空間;
所有Threads看到單一虛擬地址空間;
PCIE物理地址空間映射到CPU物理地址空間;
CPU物理地址空間也映射到PCIE物理地址空間。
有人想到硬件加速,做法就是把某個專業(yè)計算在電路層面展開,展開成更寬的位寬,更多的并行計算單元,去除一些不必要的緩存優(yōu)化和流水線優(yōu)化等,其實這就是專用運算芯片所做的,F(xiàn)PGA(Field-ProgrammableGate Array,即現(xiàn)場可編程門陣列)是現(xiàn)場可編程的專用芯片上述就是所謂的硬加速。
在CAPI之前的FPGA怎么接入系統(tǒng)使用的呢?它是把FPGA做到一塊PCIe卡里,F(xiàn)PGA通過CPU的PCIe控制器訪問到主機內(nèi)存空間。PCIe和CPU各自有各自的地址空間,CPU不能直接訪問PCIe的地址,要先訪問自己的地址,PCIE物理地址空間映射到CPU物理地址空間,反之CPU物理地址空間也需要映射到PCIE物理地址空間,這是個很費勁的過程。
在CAPI之前的FPGA怎么接入系統(tǒng)使用的呢?它是把FPGA做到一塊PCIe卡里,F(xiàn)PGA通過CPU的PCIe控制器訪問到主機內(nèi)存空間。PCIe和CPU各自有各自的地址空間,CPU不能直接訪問PCIe的地址,要先訪問自己的地址,PCIE物理地址空間映射到CPU物理地址空間,反之CPU物理地址空間也需要映射到PCIE物理地址空間,這是個很費勁的過程。
數(shù)據(jù)出了ALU,面對復雜的路由網(wǎng)絡,目的地址為內(nèi)存地址,但是其相對外部網(wǎng)絡的復雜性在于,目標的位置是不固定的,還可能有多份拷貝。Need Coherency!硬件透明搞定Cache Coherency。CC不負責多線程并發(fā)訪問cache line時的互斥,互斥需要程序顯式發(fā)出lock,底層硬件會鎖住總線訪問周期。
如圖所示是個四核CPU,每個CPU內(nèi)部還有很多東西,每一個CPU的每個核心都有各自的緩存控制器,三級緩存控制器,每個CPU還包含內(nèi)存控制器,PCIe控制器,QPI控制器(互聯(lián)CPU相關),還有緩存一致性的控制器,他們?nèi)冀尤胍粋€高速的總線里面。多個線程看到的數(shù)據(jù)應該是時刻一致的,需要廣播許多信息,這就是CacheCoherency,Cache Coherency Agent 負責把消息推送出去以及接受其他CPU發(fā)出的探尋。
多CPU之間廣播量非常大,所以需要一個目錄來記錄本地的核心里面都有哪些緩存地址被緩存下來了。其他的CPU如果發(fā)廣播來探尋,本地直接把目錄查一下,如果沒有命中緩存就直接不再往后端核心緩存控制器發(fā)消息,這樣可以提升性能。所以說CC(Cache Coherency)很重要的,要確保線程看到同樣的東西,同一個時刻,這叫實時一致性,且不允許異步。但是它不負責兩個線程,如果互相都在寫這份數(shù)據(jù),會出現(xiàn)相互覆蓋,這要靠(CacheConsistancy)軟件解決。PCIe寫內(nèi)存也需要做CC(Cache Coherency),寫入數(shù)據(jù)到某一地址,這個地址在其他的CPU緩存里,要把它作廢掉。
評論
查看更多