0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

憶聯(lián)PCIe 5.0 SSD支撐大模型全流程訓(xùn)練

jf_49702366 ? 來源:jf_49702366 ? 作者:jf_49702366 ? 2025-03-11 10:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)前,大模型全流程訓(xùn)練對數(shù)據(jù)存儲系統(tǒng)的要求已突破傳統(tǒng)邊界。企業(yè)級SSD作為AI算力基礎(chǔ)設(shè)施的核心組件,其高可靠性、高性能及智能化管理能力,正成為支撐大模型訓(xùn)練效率與穩(wěn)定性的關(guān)鍵。

從海量數(shù)據(jù)的預(yù)處理到高頻參數(shù)迭代,從模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設(shè)備在“硬指標(biāo)”與“軟實力”間達成平衡。從產(chǎn)品可靠性視角出發(fā),憶聯(lián)新一代PCIe Gen5 ESSD UH812a/UH832a可高效支撐大模型全流程訓(xùn)練。

可靠性硬指標(biāo):從容應(yīng)對數(shù)據(jù)洪流“耐力賽”

大模型訓(xùn)練階段,需處理從10TB到100PB量級不等的海量數(shù)據(jù)集,讀寫頻率高、負(fù)載強度大。企業(yè)級SSD側(cè)重以高耐久性、大容量、混合讀寫性能等“硬指標(biāo)”應(yīng)對挑戰(zhàn)。

憶聯(lián)UH812a/UH832a采用最新一代PCIe 5.0接口,其存儲帶寬、時延、密度、耐久性、數(shù)據(jù)完整性和壽命與穩(wěn)定性等核心指標(biāo)表現(xiàn),均高于行業(yè)標(biāo)準(zhǔn),對比同代際產(chǎn)品,處于業(yè)內(nèi)領(lǐng)先水平。

? 高速帶寬與超低延遲

PCIe 5.0高速接口:支持單雙端口、NVMe2.0協(xié)議。對比PCIe 4.0帶寬翻倍,可高效處理海量非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像等)的清洗、標(biāo)注和格式轉(zhuǎn)換。

高吞吐量:順序讀寫14900MB/s-10500MB/s,峰值性能領(lǐng)先業(yè)內(nèi)同代際產(chǎn)品。

超低延遲:4K隨機讀取QD1延遲≤55μs,對比上一代(UH811a系列)改善43%。

wKgZPGfPnzOACkyhAAYJghbNGAQ761.jpg

? 高密度與大容量

單盤容量可達15.36TB:15.36TB容量SSD的TBW通常為28PBW-70PBW,滿足大模型參數(shù)存儲需求,減少數(shù)據(jù)遷移開銷。

? 錯誤率與數(shù)據(jù)完整性

UBER(不可恢復(fù)錯誤率):1E-18。JESD218A規(guī)范(固態(tài)硬盤可靠性測試方法)下,企業(yè)級SSD UBER滿足≤1E-17即可,部分高端產(chǎn)品通過技術(shù)優(yōu)化,可提升至1E-18。

? 高耐久性

DWPD(每日全盤寫入次數(shù)):高達3 DWPD(UH832a)。5年保修期內(nèi),可滿足用戶每天3次全盤的數(shù)據(jù)寫入量,有力承載海量數(shù)據(jù)寫入的應(yīng)用場景。

? 高置信度

MTBF(平均故障間隔時間):≥250萬小時。累計1200+片盤測試。

AFR(年失效率):≤0.35%

根據(jù)OCP(開放計算項目)規(guī)范,企業(yè)級SSD的 MTBF≥200萬小時(運行溫度0°-55°)、AFR(年失效率)≤0.44%即可。憶聯(lián)UH812a/UH832a高置信度的MTBF和AFR可輕松滿足模型訓(xùn)練場景需求。

wKgZO2fPnzWASytRABZtHANuEyo588.jpg

系統(tǒng)級可靠性軟實力:毫秒級響應(yīng)推理“敏捷戰(zhàn)”


進入模型微調(diào)與推理階段,讀寫數(shù)據(jù)量降低,參數(shù)讀取速度和模型加載速度變得更為關(guān)鍵,存儲需求轉(zhuǎn)向低延遲與高服務(wù)質(zhì)量(QoS)。此時,企業(yè)級SSD需以“軟實力”極速響應(yīng)推理“敏捷戰(zhàn)“。

憶聯(lián)UH812a/UH832a針對AI推理場景的典型需求,通過算法優(yōu)化、容錯與恢復(fù)機制、智能監(jiān)控與維護、數(shù)據(jù)保護等系統(tǒng)級可靠性設(shè)計,以及積累多年的完備測試驗證能力,構(gòu)建了多維度的“軟實力”保障體系。

? 固件算法優(yōu)化

增強的LDPC糾錯算法:提供比Flash顆粒要求更高的糾錯能力,能夠精準(zhǔn)識別并修正數(shù)據(jù)傳輸與存儲過程中出現(xiàn)的各類錯誤。LDPC+DSP算法引擎融合硬判決、軟判決、DSP等手段,使Flash壽命最高提升5倍。


全場景QoS調(diào)優(yōu):隨機讀99.999%的QoS時延小于1ms,達到業(yè)界領(lǐng)先。

智能磨損平衡技術(shù):智能均衡Flash顆粒磨損壓力,區(qū)分“健壯”與“脆弱”的NAND單元,優(yōu)化寫入分布,避免NAND局部過度擦寫,并結(jié)合智能健康監(jiān)測提前預(yù)警潛在風(fēng)險,提升SSD壽命。

智能FSP算法:通過軟硬件協(xié)同設(shè)計,結(jié)合介質(zhì)特性,有效解決SSD在長期使用中性能衰減、數(shù)據(jù)可靠性下降的痛點。業(yè)界最低誤碼率的FSP算法保護SSD生命末期可靠,使得SSD全生命周期性能浮動小于10%。

? 容錯與恢復(fù)機制

內(nèi)置類RAID算法:基于智能的類RAID算法,當(dāng)介質(zhì)數(shù)據(jù)出現(xiàn)錯誤后,可以恢復(fù)數(shù)據(jù),單芯片故障不影響數(shù)據(jù)完整性。

Flexible RAID算法:在發(fā)生Flash器件失效后,將主動恢復(fù)故障Flash中的數(shù)據(jù)并繼續(xù)對數(shù)據(jù)進行RAID保護。

掉電保護:當(dāng)服務(wù)器異常下電時,通過內(nèi)置電容在斷電瞬間維持供電,確保硬盤內(nèi)的數(shù)據(jù)不丟失,優(yōu)先寫入緩存數(shù)據(jù),防止模型訓(xùn)練中斷導(dǎo)致模型參數(shù)丟失。

? 智能監(jiān)控與預(yù)測性維護

健康狀態(tài)報告:實時檢測設(shè)備剩余壽命、溫度、IO統(tǒng)計、壞塊率等指標(biāo)。支持設(shè)備診斷、監(jiān)測和SMART信息上報。

數(shù)據(jù)巡檢技術(shù):周期性巡檢錯誤、處理壞塊、校驗數(shù)據(jù)等,在后臺對全盤數(shù)據(jù)進行校驗檢查,可有效規(guī)避數(shù)據(jù)失真。若數(shù)據(jù)有失真風(fēng)險,則及時搬遷此部分?jǐn)?shù)據(jù),并屏蔽該Flash空間,避免業(yè)務(wù)讀取錯誤數(shù)據(jù),確保數(shù)據(jù)可靠性、完整性和設(shè)備健康。

NVMe-MI帶外管理:支持通過訪問帶外通道進行設(shè)備管理。如:軟硬件狀態(tài)監(jiān)控、主機業(yè)務(wù)性能監(jiān)控、SSD固件升級與激活、帶外業(yè)務(wù)管理等。

? 全鏈路數(shù)據(jù)保護

端到端數(shù)據(jù)保護:保護整個數(shù)據(jù)路徑中的數(shù)據(jù),支持用戶通過DIF域進行數(shù)據(jù)保護,數(shù)據(jù)在盤片內(nèi)部各模塊間傳輸時均有校驗保護,應(yīng)用于大模型推理的復(fù)雜場景,可顯著降低數(shù)據(jù)丟失風(fēng)險并延長SSD使用壽命。

高級Flash訪問技術(shù):組合應(yīng)用Flash顆粒的Read retry和Adaptive read技術(shù),有效保證數(shù)據(jù)的有效性。

? 深度調(diào)優(yōu)及驗證

企業(yè)級研發(fā)實驗室:可開展從軟件研發(fā)、算法到芯片、硬件及軟件測試等全方位的測試驗證任務(wù)。基于行業(yè)三大標(biāo)準(zhǔn)規(guī)范(JEDEC規(guī)范、SNIA和OCP),擁有強大的產(chǎn)品驗證及深度調(diào)優(yōu)能力,通過多種可靠性專項驗證測試,保障客戶使用的SSD具備長期可靠性和穩(wěn)定性。

全流程可靠性驗證:從白盒、灰盒、黑盒等多維度保障軟件特性功能和可靠性,已累計可靠性專項測試用例4000+。同時構(gòu)建了兼容性CI,持續(xù)累積可靠性測試強度,測試規(guī)模和測試壓力保持業(yè)界標(biāo)桿水平。

綜上所述,實現(xiàn)企業(yè)級SSD的高可靠性需“軟硬結(jié)合“,既要硬指標(biāo)達標(biāo)(如MTBF、UBER、AFR),也需軟實力優(yōu)異(如算法優(yōu)化、容錯與恢復(fù)、高標(biāo)準(zhǔn)測試驗證等),通過構(gòu)建"零數(shù)據(jù)丟失"的可靠防線,方能支撐大模型從PB級數(shù)據(jù)訓(xùn)練到毫秒級推理響應(yīng)的全流程需求。

作為企業(yè)級PCIe 5.0標(biāo)桿產(chǎn)品,憶聯(lián)UH812a/UH832a將以穩(wěn)定可靠的存力底座激發(fā)算力潛能,為客戶與伙伴提供堅實的數(shù)據(jù)存儲基礎(chǔ)設(shè)施保障。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    2958

    瀏覽量

    119330
  • PCIe
    +關(guān)注

    關(guān)注

    16

    文章

    1331

    瀏覽量

    84906
  • eSSD
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    7904
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3086

    瀏覽量

    3972
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    PCIe 5.0市場加速滲透,PCIe 6.0研發(fā)到來

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)PCIe 5.0作為新一代高速接口標(biāo)準(zhǔn),其帶寬大幅提升至32 GT/s,相較于PCIe 4.0翻了一番。這種高效的數(shù)據(jù)傳輸能力使得PCIe
    的頭像 發(fā)表于 01-27 00:03 ?4963次閱讀

    閃迪天花板級PCIe5.0 SSD上市,性能與能效均位于行業(yè)前沿

    PCIe 5.0 SSD的上市,正是能夠滿足未來高性能與主流應(yīng)用場景的更優(yōu)存儲選擇,同時也是閃迪固態(tài)硬盤組合的天花板級產(chǎn)品。這款產(chǎn)品不僅為消費者帶來卓越的存儲體驗,也進一步推動了當(dāng)前PCIe
    的頭像 發(fā)表于 05-29 12:09 ?126次閱讀
    閃迪天花板級<b class='flag-5'>PCIe5.0</b> <b class='flag-5'>SSD</b>上市,性能與能效均位于行業(yè)前沿

    聯(lián)UH812a獲英特爾BKC與PCIe鏈路雙認(rèn)證,賦能企業(yè)級存儲解決方案

    2024年11月,聯(lián)與英特爾達成技術(shù)合作,正式成為英特爾至強?平臺固態(tài)硬盤合作伙伴,并深度參與英特爾數(shù)據(jù)中心與人工智能事業(yè)部(DCAI)中國區(qū)關(guān)鍵組件驗證計劃。 其新一代PCIe 5.0
    的頭像 發(fā)表于 04-02 13:47 ?220次閱讀
    <b class='flag-5'>憶</b><b class='flag-5'>聯(lián)</b>UH812a獲英特爾BKC與<b class='flag-5'>PCIe</b>鏈路雙認(rèn)證,賦能企業(yè)級存儲解決方案

    慧榮科技SM2508引領(lǐng)PCIe 5.0 SSD性能新高度

    NVMe 2.0消費級SSD控制器——SM2508,這款專為PCIe 5.0接口設(shè)計的SSD主控,不僅在讀寫性能上達到了前所未有的高度,更在功耗控制、數(shù)據(jù)穩(wěn)定性和可靠性方面樹立了新的
    的頭像 發(fā)表于 03-21 09:19 ?428次閱讀
    慧榮科技SM2508引領(lǐng)<b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b> <b class='flag-5'>SSD</b>性能新高度

    聯(lián)PCIe5.0 SSD以軟硬協(xié)同的高可靠性,支撐模型流程訓(xùn)練

    訓(xùn)練效率與穩(wěn)定性的關(guān)鍵。 從海量數(shù)據(jù)的預(yù)處理到高頻參數(shù)迭代,從模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設(shè)備在"硬指標(biāo)"與"軟實力"間達成平衡。從產(chǎn)品可靠性視角出發(fā),
    的頭像 發(fā)表于 03-12 10:18 ?507次閱讀
    <b class='flag-5'>憶</b><b class='flag-5'>聯(lián)</b><b class='flag-5'>PCIe5.0</b> <b class='flag-5'>SSD</b>以軟硬協(xié)同的高可靠性,<b class='flag-5'>支撐</b>大<b class='flag-5'>模型</b><b class='flag-5'>全</b><b class='flag-5'>流程</b><b class='flag-5'>訓(xùn)練</b>

    美光科技推出4600 PCIe 5.0 NVMe SSD

    美光科技股份有限公司(納斯達克股票代碼:MU)今日宣布,推出美光4600 PCIe 5.0 NVMe SSD。該產(chǎn)品是一款面向原始設(shè)備制造商(OEM)打造的創(chuàng)新型客戶端存儲硬盤,為游戲玩家、創(chuàng)作者
    的頭像 發(fā)表于 02-21 16:44 ?620次閱讀

    聯(lián)天工平臺:加速SSD產(chǎn)品驗證,釋放超凡產(chǎn)能

    深刻理解產(chǎn)品測試驗證的重要性。為此,公司投入大量精力,專為PCIe Gen5 SSD產(chǎn)線量產(chǎn)測試量身打造了天工裝備測試平臺(簡稱“天工平臺”)。 天工平臺以其卓越的性能,顯著加速了SSD產(chǎn)品從研發(fā)到量產(chǎn)的進程。通過該平臺,
    的頭像 發(fā)表于 02-07 11:26 ?521次閱讀

    開放協(xié)同 聯(lián)新一代PCIe Gen5企業(yè)級SSD攜手新華三智算新品持續(xù)進化

    一代多元異構(gòu)算力平臺H3C UniServer G7系列,并搭載聯(lián)新一代PCIe Gen5企業(yè)級SSD,全速推進業(yè)務(wù)創(chuàng)新與數(shù)字化變革。
    的頭像 發(fā)表于 10-25 18:06 ?826次閱讀
    開放協(xié)同 <b class='flag-5'>憶</b><b class='flag-5'>聯(lián)</b>新一代<b class='flag-5'>PCIe</b> Gen5企業(yè)級<b class='flag-5'>SSD</b>攜手新華三智算新品持續(xù)進化

    Kioxia發(fā)布PCIe 5.0 EDSFF E1.S SSD

    全球內(nèi)存解決方案領(lǐng)導(dǎo)者Kioxia Corporation近日宣布,其全新KIOXIA XD8 Series PCIe? 5.0企業(yè)和數(shù)據(jù)中心標(biāo)準(zhǔn)外形尺寸(EDSFF) E1.S固態(tài)硬盤(SSD)已正式面世。
    的頭像 發(fā)表于 10-22 17:42 ?912次閱讀

    恒創(chuàng)源發(fā)布全國產(chǎn)PCIe 5.0 NVMe SSD新品

    國內(nèi)領(lǐng)先的企業(yè)級SSD產(chǎn)品及解決方案提供商恒創(chuàng)源,近日震撼發(fā)布其首款全國產(chǎn)化PCIe 5.0企業(yè)級NVMe SSD——PBlaze7 7A
    的頭像 發(fā)表于 09-05 17:42 ?1150次閱讀

    恒創(chuàng)源發(fā)布國產(chǎn)PCIe 5.0企業(yè)級NVMe SSD PBlaze7 7A40系列

    9月3日,在備受矚目的ODCC大會上,國內(nèi)領(lǐng)先的企業(yè)級PCIe SSD產(chǎn)品與服務(wù)提供商恒創(chuàng)源,榮耀發(fā)布了其自主研發(fā)的PCIe 5.0企業(yè)級
    的頭像 發(fā)表于 09-04 14:44 ?953次閱讀

    聯(lián)PCle Gen5 SSD榮獲“閃存產(chǎn)品創(chuàng)新獎”

    在近日于南京圓滿落幕的FMW 2024全球閃存峰會上,以“芯存儲 AI未來”為核心議題,隆重揭曉了“FMW2024年度閃存風(fēng)云榜”。在這場匯聚行業(yè)精英的盛會上,聯(lián)科技憑借其旗艦產(chǎn)品——PCIe
    的頭像 發(fā)表于 09-03 14:26 ?953次閱讀

    PCIe 5.0 SerDes 測試

    #01 PCIe Gen 5 簡介 PCIe 是用于硬盤、固態(tài)硬盤 (SSD)、圖形卡、Wi-Fi 和內(nèi)部以太網(wǎng)連接的先進互連 I/O 技術(shù)。PCIe 由一組快速、可擴展且可靠的 I/
    的頭像 發(fā)表于 08-16 09:33 ?1871次閱讀
    <b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b> SerDes 測試

    聯(lián)SSD存儲解決方案亮相2024中國國際金融展

    7月19日,為期三天的2024中國國際金融展(簡稱:金融展)在北京國家會議中心開幕。作為國內(nèi)領(lǐng)先的存儲解決方案提供商,聯(lián)攜其最新一代PCIe Gen5企業(yè)級SSD及全場景解決方案亮相
    的頭像 發(fā)表于 07-22 10:52 ?1053次閱讀
    <b class='flag-5'>憶</b><b class='flag-5'>聯(lián)</b><b class='flag-5'>SSD</b>存儲解決方案亮相2024中國國際金融展

    人臉識別模型訓(xùn)練流程

    人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細(xì)介紹人臉識別模型訓(xùn)練流程,包括
    的頭像 發(fā)表于 07-04 09:19 ?1857次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品