背 景
在阿里云數(shù)據(jù)中心,內(nèi)存故障是服務器穩(wěn)定運行面臨的主要挑戰(zhàn)之一。大規(guī)模數(shù)據(jù)中心中的內(nèi)存故障,不僅會降低服務器的可靠性,還可能中斷數(shù)據(jù)中心的服務并影響服務器的性能。因此,內(nèi)存可靠性成為數(shù)據(jù)中心中服務器可靠性、可用性和可維護性(Reliability, Availability, Serviceability–RAS)的關(guān)鍵要素。
新一代內(nèi)存標準DDR5具有更高的帶寬、更低的功耗和更高的密度。然而,它也為內(nèi)存可靠性帶來了新的挑戰(zhàn),其中包括:
DDR5引入了新的架構(gòu)和信號傳輸方式,需要更復雜的電路設計和優(yōu)化;
DDR5內(nèi)存模塊容量更大,但也增加了故障的風險;
In-DRAM糾錯碼(ECC)雖然可以糾正內(nèi)存中單比特的錯誤,但它也導致主機錯誤觀察不夠明確。
為了應對這些挑戰(zhàn),阿里云與英特爾合作改進了DDR5內(nèi)存的可靠性。具體措施包括:
1.主板管理控制器(BMC)的統(tǒng)一帶外(OOB)內(nèi)存錯誤數(shù)據(jù)收集:通過BMC實現(xiàn)內(nèi)存錯誤數(shù)據(jù)的統(tǒng)一收集,為后續(xù)分析提供數(shù)據(jù)基礎(chǔ)。
2.內(nèi)置人工智能輔助(AI輔助)的故障分析:BMC中集成AI輔助,實時預測和分析內(nèi)存故障。
3.英特爾Memory Resilience Technology(英特爾 MRT):英特爾 MRT已在阿里云數(shù)據(jù)中心部署,用于提前預警和預防潛在的內(nèi)存故障。
4.與阿里云巡洋艦系統(tǒng)(Alibaba Cruiser System)集成:將內(nèi)存健康評估和預測警報與阿里云的服務器監(jiān)控系統(tǒng)集成,以確保業(yè)務的穩(wěn)定性。
這些舉措共同為阿里云數(shù)據(jù)中心提供了快速且全面的硬件監(jiān)控服務,幫助確保了服務器的可靠性和業(yè)務的正常運行。
內(nèi)存可靠性面臨的挑戰(zhàn)
內(nèi)存故障可能由多種不同類型內(nèi)存底層錯誤產(chǎn)生,例如單比特錯誤(SBE)、行類型錯誤、列類型錯誤、多陣列錯誤、存儲器模塊(DIMM)錯誤等。每種內(nèi)存錯誤都有其特定的頻率和受影響模式。例如,某些錯誤類型會零星出現(xiàn)或間歇性發(fā)生,難以有效追蹤,而有些錯誤類型則可能持續(xù)報錯。有些錯誤類型存在更高的不可糾正錯誤(Uncorrectable Errors–UE)風險,需要立即采取RAS(可靠性、可用性和可維護性)措施,而其他一些錯誤類型觸發(fā)UE的風險相對較低,但在短時間內(nèi)可能導致大量可糾正錯誤 (Correctable Errors–CE),從而影響系統(tǒng)性能。沒有一種通用的解決方案可以解決所有內(nèi)存錯誤。
傳統(tǒng)的解決方案之一是在觀察到不可糾正錯誤(UE)后更換故障的DIMM。然而,此舉無法避免系統(tǒng)崩潰的成本。另一種方法是基于計數(shù)的可糾正錯誤(CE)評級策略來預測內(nèi)存故障這種策略在預測復雜內(nèi)存故障方面效果較差,因為CE和UE的發(fā)生不僅取決于硬件的內(nèi)存故障狀態(tài),還取決于隱性的運行時上下文、ECC糾正能力和內(nèi)存特定的故障模式。因此,內(nèi)存錯誤具有高度的不確定性,預測UE非常困難。
雖然沒有通用的解決方案,但我們可以探索更智能的方法來處理內(nèi)存故障。例如,結(jié)合機器學習和實時監(jiān)測,以更精確地預測UE和CE的發(fā)生。內(nèi)存錯誤是一個復雜且關(guān)鍵的問題,需要綜合考慮多種因素來優(yōu)化系統(tǒng)的可靠性和性能。
基于BMC的人工智能輔助故障分析助力提升DDR5內(nèi)存的可靠性
阿里云和英特爾聯(lián)合研究和開發(fā)了面向DDR5的內(nèi)存故障預測和預防解決方案。該方案通過BMC實現(xiàn)內(nèi)存錯誤數(shù)據(jù)的統(tǒng)一收集,為后續(xù)分析提供數(shù)據(jù)基礎(chǔ)。在BMC中集成英特爾 MRT技術(shù)提供AI輔助的實時預測和分析內(nèi)存故障,用于提前預警和預防潛在的內(nèi)存故障。數(shù)據(jù)收集、故障分析和預警與阿里云的服務器監(jiān)控系統(tǒng)集成(阿里云巡洋艦系統(tǒng)),為阿里云的數(shù)據(jù)中心提供快速而全面的硬件監(jiān)控服務,以確保業(yè)務的穩(wěn)定性。
圖1. 解決方案架構(gòu)圖
這一解決方案的關(guān)鍵特點包括:
基于BMC的細粒度內(nèi)存故障采集
通過BMC收集細粒度的可糾正錯誤(CE)和不可糾正錯誤(UE)信息,包括詳細的位級錯誤數(shù)據(jù)。相比使用帶內(nèi)(in-band)方式收集內(nèi)存錯誤數(shù)據(jù),例如錯誤檢測和糾正(EDAC)驅(qū)動程序或基于BIOS SMI中斷觸發(fā),基于BMC的帶外內(nèi)存收集更可靠且統(tǒng)一,具有細粒度的數(shù)據(jù)粒度和豐富的錯誤信息。
基于微觀內(nèi)存故障類型的錯誤分析
通過歷史可糾正錯誤(CE)信息的詳細數(shù)據(jù),檢測底層內(nèi)存故障類型。與僅關(guān)注CE計數(shù)不同,該解決方案從多個因素檢查內(nèi)存錯誤數(shù)據(jù),包括空間分布(例如channel、rank、sub-channel、 bank、row、column等)、時間模式(例如瞬態(tài)、間歇、永久)、錯誤位(error bit)位置、內(nèi)存特定故障模式、CPU錯誤糾錯碼(ECC)設計以及系統(tǒng)RAS配置等綜合評估故障風險。
AI輔助故障分析
利用機器學習方法訓練了一個AI模型,通過對海量DDR5內(nèi)存日志進行比較,預測內(nèi)存故障。預先訓練的內(nèi)存故障預測AI模型集成到主板管理控制器(BMC)中,通過BMC為服務器提供內(nèi)存故障的實時預測與分析,從而減少大規(guī)模數(shù)據(jù)中心中的服務器停機時間。
集成阿里云巡洋艦硬件故障檢測系統(tǒng)
實時內(nèi)存健康評估和預測警報已與阿里云巡洋艦系統(tǒng)集成,為阿里云數(shù)據(jù)中心的物理服務器提供快速而全面的硬件監(jiān)控服務。
英特爾Memory Resilience Technology
英特爾 Memory Resilience Technology(英特爾 MRT)是一項旨在提高數(shù)據(jù)中心內(nèi)存可靠性的技術(shù),它使數(shù)據(jù)中心運營商能夠主動預測潛在的內(nèi)存故障風險,確保數(shù)據(jù)中心的運行和工作負載的連續(xù)性。以下是該技術(shù)的關(guān)鍵功能:
1.基于帶外的細粒度內(nèi)存故障數(shù)據(jù)收集:實現(xiàn)細粒度內(nèi)存錯誤數(shù)據(jù)的統(tǒng)一收集,為后續(xù)分析提供數(shù)據(jù)基礎(chǔ)。
2.分析定位內(nèi)存故障點:提供底層內(nèi)存故障定位及分析。
3.預測性故障警報:提前發(fā)現(xiàn)可能出現(xiàn)的內(nèi)存故障。
4.基于預測的內(nèi)存頁面離線:根據(jù)預測,將內(nèi)存頁面離線,以防止?jié)撛诠收嫌绊憽?/p>
5.基于預測的內(nèi)存故障區(qū)域隔離:根據(jù)預測及系統(tǒng)相應RAS配置,隔離內(nèi)存故障區(qū)域,以避免潛在內(nèi)存錯誤發(fā)生。
英特爾 Memory Resilience Technology利用多維模型和人工智能算法,在微觀層面檢測內(nèi)存故障。它為每個DIMM分配健康分數(shù),并實時檢測潛在的故障。通過人工智能分析海量的內(nèi)存錯誤日志優(yōu)化內(nèi)存故障預測模型,該技術(shù)可以準確地定位潛在問題,并在故障發(fā)生之前識別和防止內(nèi)存故障。
雖然沒有通用的解決方案可以解決所有內(nèi)存錯誤,但英特爾Memory Resilience Technology為數(shù)據(jù)中心提供了一種智能且綜合的方法,以優(yōu)化系統(tǒng)的可靠性和性能。
利用BDAT數(shù)據(jù)診斷硬件故障
英特爾BIOS參考代碼實現(xiàn)了系統(tǒng)驗證功能,可以生成包括內(nèi)存余量數(shù)據(jù)在內(nèi)的全面系統(tǒng)數(shù)據(jù)。這些數(shù)據(jù)從標準的BIOS數(shù)據(jù)ACPI表 (BDAT)中暴露出來,該表在ACPI表中定義。BDAT數(shù)據(jù)是系統(tǒng)BIOS的基本支持,它在整個BIOS引導流程中生成,并集成到ACPI RSDT表中。通過分析BDAT數(shù)據(jù),可以有效提升生產(chǎn)系統(tǒng)的診斷和問題調(diào)試的效率。
結(jié)果與分析
阿里云已在不同工作負載下的阿里云數(shù)據(jù)中心的數(shù)千臺采用第四代英特爾 至強 可擴展處理器的平臺上部署了英特爾 Memory Resilience Technology,并正在將平臺升級至第五代英特爾至強 可擴展處理器。
新一代處理器擁有更可靠的性能,更出色的能效。它在運行各種工作負載時均可實現(xiàn)顯著的每瓦性能增益,在AI、數(shù)據(jù)中心、網(wǎng)絡和科學計算的性能和總體擁有成本(TCO)方面亦有更出色的表現(xiàn)。相較上一代產(chǎn)品,第五代英特爾 至強 可擴展處理器可在相同功耗范圍內(nèi)提供更高的算力和更快的內(nèi)存。此外,它與上一代產(chǎn)品的軟件和平臺兼容,因此部署新系統(tǒng)時可大大減少測試和驗證工作。
圖2. 第五代英特爾 至強 可擴展處理器具備更強大性能
初步結(jié)果表明,該解決方案可以在不可糾正錯誤(UE)發(fā)生之前有效地預測,并在傳統(tǒng)的基于CE計數(shù)的CE風暴識別機制被觸發(fā)之前警報可糾正錯誤(CE)風暴案例。UE和CE風暴警報的預測提前時間因底層故障模型而異,從幾分鐘到幾小時甚至幾天不等。該方案經(jīng)過迭代,預期能夠通過優(yōu)化的DDR5模型預測57%的UE和74%的CE風暴6 。
除了有效的UE和CE風暴預測外,從BMC收集的帶外(OOB)內(nèi)存錯誤對于進一步診斷和排除內(nèi)存和系統(tǒng)問題至關(guān)重要。
圖3. 高效的UE和CE風暴預測
結(jié) 論
通過BMC集成英特爾 Memory Resilience Technology技術(shù),可以有效提高阿里云數(shù)據(jù)中心DDR5內(nèi)存可靠性。對于阿里云而言,改善整體數(shù)據(jù)中心的總體擁有成本(TCO)至關(guān)重要。英特爾和阿里云正在合作開發(fā)下一代的DDR5故障預測技術(shù)和提供對新內(nèi)存技術(shù)的方法。
-
英特爾
+關(guān)注
關(guān)注
61文章
10174瀏覽量
173996 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
3110瀏覽量
75011 -
阿里云
+關(guān)注
關(guān)注
3文章
1005瀏覽量
43895 -
DDR5
+關(guān)注
關(guān)注
1文章
443瀏覽量
24725
原文標題:英特爾攜手阿里云提升DDR5內(nèi)存的可靠性
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論