高性能計算(HPC)曾一度是大型數(shù)據(jù)中心和超級計算機的專屬,但如今依賴HPC的應用不勝枚舉,在與我們生活息息相關的各種應用領域都必不可少,如科學、醫(yī)療、安全、短視頻…...
為實現(xiàn)更好的HPC芯片設計,開發(fā)者們應該了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服務性 (Serviceability)。
RAS的含義并不難懂,但涉及到HPC的SoC時,它表示什么呢?數(shù)據(jù)中心運營商長期以來一直與客戶保持服務水平協(xié)議,以確保系統(tǒng)的正常運行時間。RAS是對此類協(xié)議的補充,現(xiàn)已能通過新技術獲得支持,最終生成切實可行的見解。本文將進一步介紹為什么芯片生命周期管理(SLM)、嵌入式監(jiān)控IP以及正確的設計和驗證工具能夠幫助HPC設計實現(xiàn)高水平的RAS。
高性能計算三大關鍵組成
家用安全門鈴或樓宇監(jiān)控系統(tǒng)所拍攝的視頻片段、金融和商業(yè)運作建模、科學和醫(yī)學研究、增強現(xiàn)實和虛擬現(xiàn)實……隨著設備和系統(tǒng)收集的數(shù)據(jù)激增,再結合人工智能(AI)以及大量可用的計算資源,開發(fā)者們可以快速獲得切實可行的見解,這使得HPC比1940年代第一臺超級計算機的應用更為廣泛。
如今,常規(guī)的HPC基礎設施包括計算、網(wǎng)絡和存儲三大部分,且均有性能、延遲、功耗、可擴展性、效率和安全性方面的要求。下面我們分別進行說明:
- 計算部分包括CPU和GPU、加速器、片上網(wǎng)絡(NoC)和計算服務器,用于處理高性能數(shù)據(jù)。該部分的關鍵在于復雜的多核甚至Multi-Die系統(tǒng)架構、快速訪問的大內存、高帶寬I/O接口、電源/冷卻管理和安全性。片內監(jiān)控和分析可支持RAS目標。
- 網(wǎng)絡部分包括交換機和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡接口卡(如智能網(wǎng)卡)以及光電互連,可提供高性能連接,最好具有高吞吐量、低延遲、高能效、可配置性和可擴展性、實時監(jiān)控和報告以及安全性。調試能力、前向糾錯(FEC)和IP可以支持RAS要求。
- 存儲部分包括固態(tài)驅動器(SSD)或硬盤驅動器(HDD)、存儲區(qū)域網(wǎng)絡(SAN)和網(wǎng)絡附接存儲(NAS)。理想情況下,該部分應可提供高帶寬存儲,減少數(shù)據(jù)傳輸能耗和延遲,具有靈活性、可擴展性、可靠性和安全性。內置自測(BIST)、糾錯碼(ECC)和冗余等功能可以實現(xiàn)高水平的RAS。
HPC集群可包含大量的服務器,而計算集群的總物理尺寸、能耗或熱量輸出可能會成為一大問題。此外,集群對服務器之間的專用通信也有要求。
在集群中服務器數(shù)量相當多時,微小的設計改進也可以創(chuàng)造巨大的價值,因此,為HPC優(yōu)化的服務器設計正在嶄露頭角。有時,此類設計針對搜索引擎公司等大型公共網(wǎng)絡運營商,也有益于HPC集群。但它們也可以提供只適合HPC用戶的功能。例如,如果系統(tǒng)被設計成以不同的方式提供集群互連,有望大幅減少布線。
通過片內監(jiān)控和分析
提供可行見解
HPC能夠處理PB級甚至ZB級的數(shù)據(jù),并且能夠實時(或接近實時)運行復雜的模型。而如果HPC系統(tǒng)出現(xiàn)故障,必然會導致資金損失和業(yè)務中斷。對于關鍵任務應用來說,后果會更加嚴重。在先進工藝節(jié)點上,有大型單片晶?;騇ulti-die等復雜架構,滿足RAS的要求則更具有挑戰(zhàn)性。
根據(jù)當前應用的重要性,系統(tǒng)可以建立備份,在發(fā)生故障時提供冗余備份。此外,還可以在系統(tǒng)和芯片層面以其它方式實現(xiàn)RAS目標。SLM也發(fā)揮著巨大的作用,它可以提供智能、自動化片內監(jiān)控IP和方法,在系統(tǒng)生命周期的每個階段生成可行見解。
將監(jiān)視器和傳感器嵌入到芯片中是開發(fā)者們幾十年來一直在做的事。然而,該技術已經(jīng)可以提供準確度更高、顆粒度更細的數(shù)據(jù)。這提高了設備的實時環(huán)境、結構和功能狀況的可見性,可以實現(xiàn)監(jiān)控溫度熱點、工藝變化和電源電壓,準確測量時序裕量等功能。
得益于嵌入式、基于云的分析以及統(tǒng)一的SLM解決方案,設計團隊能夠在設計、研發(fā)和生產(chǎn)階段甚至現(xiàn)場操作時持續(xù)、實時掌握其設備的芯片健康狀況,從而更好地了解根本原因,并立即進行調試和維修,降低成本和潛在的危害。SLM可以解決晶體管老化、延遲故障等問題,能夠帶來諸多益處。
舉例而言,如果衛(wèi)星出現(xiàn)故障,常見的辦法是在實驗室維修電路板,再將其安裝在衛(wèi)星上,這會花費數(shù)周時間,其間衛(wèi)星需要停用,以進行故障診斷和維修。借助SLM技術在現(xiàn)場進行故障檢修和修復,團隊可以在更少的中斷次數(shù)和更短的中斷時間內,保持系統(tǒng)的正常運行。
數(shù)據(jù)中心也可以體現(xiàn)SLM是如何加快實現(xiàn)RAS要求的。
-
在芯片層面,在現(xiàn)場進行遠程調試的能力是團隊成功打造超大規(guī)模數(shù)據(jù)中心的關鍵,SLM提供的遠程遙測和監(jiān)控功能使之成為可能。
-
在系統(tǒng)層面,SLM精確的時鐘降頻對最大化數(shù)據(jù)吞吐量和CPU、GPU和AI引擎的利用率至關重要。
-
在數(shù)據(jù)中心層面,SLM工具可以有效監(jiān)控服務器性能、網(wǎng)絡擁塞和磁盤利用率,從而檢測和預測數(shù)據(jù)中斷,增加正常運行時間。
-
在超大規(guī)模層面,團隊可以利用SLM最大限度地減少片上熱量和供電壓力,以延長可靠性。
-
對于Die-to-Die高速接口,SLM可監(jiān)控信號完整性,結合接口完整性的冗余,有助于確保小芯片設計的穩(wěn)健性。
總結
端到端的解決方案并非是各自獨立的點工具的集合,而能夠提供設計校準分析、片內監(jiān)控、系統(tǒng)性能優(yōu)化等多項功能,無縫實現(xiàn)RAS目標。新思科技可提供出色的端到端流程,我們的芯片生命周期管理系列還配有廣泛的低延遲、經(jīng)驗證的IP組合以及面向HPC應用的設計和驗證技術。
該解決方案配備物理感知芯片監(jiān)控器、云分析以及嵌入式分析和優(yōu)化技術,還包括SoC傳感器IP和制程監(jiān)控器,用于設計、研發(fā)、生產(chǎn)階段和現(xiàn)場的優(yōu)化。在制造階段和現(xiàn)場,監(jiān)控器可以收集有關芯片的實時數(shù)據(jù),輔以全面的測試和調試解決方案,可確保高水平的RAS。
隨著HPC應用日益增多,SoC開發(fā)必須確保系統(tǒng)的高可靠性、可用性和可服務性。實現(xiàn)最佳水平的RAS,支持流媒體視頻、氣候變化建模等多項應用,萬物數(shù)智化的世界才能保持高速運行。
? ?
原文標題:HPC黃金三角:可靠、可用、可服務
文章出處:【微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
-
新思科技
+關注
關注
5文章
801瀏覽量
50374
原文標題:HPC黃金三角:可靠、可用、可服務
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論