隨著5G、AI、大數(shù)據(jù)等新一代信息技術(shù)在千行百業(yè)中深度應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)呈來源多樣化、維度豐富化、數(shù)據(jù)量爆炸式增長的特征,數(shù)據(jù)體量從早期的TB級、PB級過渡到現(xiàn)今的EB級。據(jù)IDC預(yù)測,2025年全球新增數(shù)據(jù)可達(dá)175ZB,其中80%為非結(jié)構(gòu)化數(shù)據(jù),大量數(shù)據(jù)以多模態(tài)形式呈現(xiàn)。
非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算的應(yīng)用場景
非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算涵蓋海洋觀測、自動(dòng)駕駛、石油勘探、天文觀測、生命科學(xué)、AIGC、六大應(yīng)用場景。
海洋觀測預(yù)報(bào)系統(tǒng)。海洋多模態(tài)數(shù)據(jù)具有超巨系統(tǒng)屬性,根據(jù)當(dāng)前關(guān)于海洋數(shù)據(jù)量的研究,2030年全球海洋數(shù)據(jù)總量將達(dá)到275PB。NETCDF(Network Common Data Form)是海洋多模態(tài)數(shù)據(jù)最常用的存儲(chǔ)格式,海洋遙感圖像和時(shí)空序列數(shù)值是其數(shù)據(jù)主體。海洋物聯(lián)網(wǎng)的快速機(jī)動(dòng)組網(wǎng)觀測系統(tǒng)是海洋科學(xué)研究的基礎(chǔ),由信息感知層、信息傳輸層、信息處理層及信息應(yīng)用層組成。目前海洋觀測手段正由固定平臺(tái)觀測向固定與移動(dòng)平臺(tái)協(xié)同觀測方向發(fā)展;海洋信息傳輸系統(tǒng)主要以岸基移動(dòng)通信、海上無線通信、衛(wèi)星通信和水聲通信等網(wǎng)絡(luò)體系實(shí)現(xiàn)對全球覆蓋;信息處理層是指開發(fā)快速機(jī)動(dòng)組網(wǎng)觀測系統(tǒng)軟件,基于海洋觀測裝備及傳輸鏈路,研究多平臺(tái)、多要素海洋環(huán)境及目標(biāo)實(shí)時(shí)數(shù)據(jù)采集技術(shù);信息應(yīng)用層是指生成數(shù)據(jù)分析產(chǎn)品,提供信息分發(fā)與共享服務(wù),并與國家海洋環(huán)境安全保障平臺(tái)對接。
自動(dòng)駕駛感知系統(tǒng)。自動(dòng)駕駛驅(qū)動(dòng)的核心是高質(zhì)量的標(biāo)注數(shù)據(jù),并基于海量的數(shù)據(jù)來優(yōu)化訓(xùn)推模型。據(jù)統(tǒng)計(jì)每輛測試車每天產(chǎn)生約25TB數(shù)據(jù),一個(gè)中等規(guī)模的車隊(duì)每年產(chǎn)生幾十甚至上百PB的數(shù)據(jù)。自駕車輛終端采集的數(shù)據(jù)類型包括LiDAR數(shù)據(jù)(bin格式)、RGB圖像(jpeg格式)、標(biāo)簽數(shù)據(jù)(txt格式)與CALIB校正數(shù)據(jù)(txt格式)。自駕的全生命周期過程包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練、仿真測試與部署發(fā)布,上述環(huán)節(jié)中所使用的工具和平臺(tái),被稱作“工具鏈”。以數(shù)據(jù)處理為例,單數(shù)據(jù)類型就多種多樣,包括攝像頭數(shù)據(jù)、毫米波雷達(dá)數(shù)據(jù)、激光雷達(dá)點(diǎn)云數(shù)據(jù),需要先對這些數(shù)據(jù)進(jìn)行去噪,也就是所謂的“數(shù)據(jù)清洗”。數(shù)據(jù)處理完成后,下一步便開始數(shù)據(jù)標(biāo)注。標(biāo)注的類型大致可分為2D、3D目標(biāo)物標(biāo)注、聯(lián)合標(biāo)注、車道線標(biāo)注和語義分割等,還要涉及到具體標(biāo)注規(guī)范和標(biāo)注質(zhì)檢流程,整個(gè)流程異常繁瑣。而這復(fù)雜流程的每一個(gè)環(huán)節(jié),都需要與之對應(yīng)的工具和存儲(chǔ)的支撐。
勘探開發(fā)一體化系統(tǒng)。石油勘探開發(fā)包含地震、鉆測井、油氣水井等與生產(chǎn)開發(fā)相關(guān)的多種數(shù)據(jù)類型。目前陸上高精度三維地震數(shù)據(jù)體規(guī)??蛇_(dá)幾十TB,海上原始地震數(shù)據(jù)體可以達(dá)到上百TB。地震數(shù)據(jù)是地震勘探中體量最大的數(shù)據(jù)類型,SEG(Society of Exploration Geophysicists)是地震多模態(tài)數(shù)據(jù)最常用的存儲(chǔ)格式,野外采集地震數(shù)據(jù)為64位SEG-D格式,室內(nèi)地震處理在數(shù)據(jù)交換基本都采用32位SEG-Y格式。鉆測井中核磁共振與成像測井?dāng)?shù)據(jù)的體量最大,對測井?dāng)?shù)據(jù)存儲(chǔ)速度、可靠性、安全性與精確性的要求較高。油氣井等開發(fā)數(shù)據(jù)以現(xiàn)場大量的實(shí)時(shí)傳感數(shù)據(jù)為基礎(chǔ)的,處理時(shí)限要求高,各類傳感終端產(chǎn)生實(shí)時(shí)、連續(xù)的事件流,數(shù)據(jù)流處理系統(tǒng)必須快速對其進(jìn)行響應(yīng)并及時(shí)輸出結(jié)果。
非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算融合存儲(chǔ)解決方案
不同應(yīng)用場景的非結(jié)構(gòu)化多模計(jì)算涉及計(jì)算、感知、調(diào)查、文獻(xiàn)與結(jié)果等多種數(shù)據(jù)類型。計(jì)算數(shù)據(jù)包括科研平臺(tái)、功能實(shí)驗(yàn)室等產(chǎn)生的數(shù)據(jù);感知數(shù)據(jù)涉及大數(shù)據(jù)物聯(lián)網(wǎng)前端傳感器、視頻與雷達(dá)等實(shí)時(shí)采集的數(shù)據(jù);調(diào)查數(shù)據(jù)指統(tǒng)一的調(diào)查報(bào)告平臺(tái),如科研數(shù)據(jù)、任務(wù)報(bào)告、數(shù)據(jù)報(bào)告等匯總的過程數(shù)據(jù);文獻(xiàn)數(shù)據(jù)是通過網(wǎng)絡(luò)、爬蟲、期刊、會(huì)議、輿情等途徑收集到的相關(guān)新聞、論文、報(bào)告等數(shù)據(jù);結(jié)果數(shù)據(jù)涵蓋云平臺(tái)、容器平臺(tái)、大數(shù)據(jù)平臺(tái)、GPU渲染節(jié)點(diǎn)和AI計(jì)算節(jié)點(diǎn)在離線渲染和計(jì)算產(chǎn)生的結(jié)果數(shù)據(jù)?;诜墙Y(jié)構(gòu)多模計(jì)算的應(yīng)用場景,浪潮信息發(fā)布新一代分布式存儲(chǔ)產(chǎn)品與端到端一體化的解決方案,幫助客戶存好、用好、管好核心數(shù)據(jù)資產(chǎn)。
新一代分布式存儲(chǔ)產(chǎn)品
AS13000G7/AS15000G7
AS13000G7面向多模數(shù)據(jù)融合應(yīng)用場景,提供多源數(shù)據(jù)零拷貝技術(shù),實(shí)現(xiàn)文件、對象、大數(shù)據(jù)、視頻四種協(xié)議融合互通,承載非結(jié)構(gòu)化多模計(jì)算的實(shí)際應(yīng)用,減少數(shù)據(jù)拷貝過程中的性能開銷。有效解決非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算應(yīng)用場景下,各協(xié)議數(shù)據(jù)無法互相訪問、高效融合共享的問題,消除存儲(chǔ)信息孤島。
AS15000G7則是面向高性能應(yīng)用場景,是一種專門為集群環(huán)境設(shè)計(jì)的高性能、可擴(kuò)展的、具有全局統(tǒng)一命名空間的并行文件系統(tǒng)??梢栽谌杭械亩鄠€(gè)節(jié)點(diǎn)間實(shí)現(xiàn)對共享文件系統(tǒng)中文件的快速存取操作,并提供穩(wěn)定的故障恢復(fù)和容錯(cuò)機(jī)制,存儲(chǔ)軟件功能包括生命周期管理、GDS、文件雙活、數(shù)據(jù)壓縮與隔離、遠(yuǎn)程異步復(fù)制等。
端到端一體化存儲(chǔ)解決方案
一套集群配置高速SSD與大容量HDD等多個(gè)存儲(chǔ)池,依據(jù)業(yè)務(wù)需求靈活調(diào)整,更好地對接現(xiàn)有和未來可能部署的云平臺(tái)、容器、大數(shù)據(jù)、物聯(lián)網(wǎng)(IOT)等各種應(yīng)用。同時(shí),整個(gè)集群也可以將多種存儲(chǔ)池進(jìn)行統(tǒng)一管理,部署成一個(gè)存儲(chǔ)集群,這樣既能更好地滿足業(yè)務(wù)需求,也能保護(hù)投資,避免資源閑置?;跇?biāo)準(zhǔn)協(xié)議,分布式存儲(chǔ)集群無縫對接云平臺(tái)應(yīng)用,并為計(jì)算資源提供塊、文件、對象、大數(shù)據(jù)、視頻等多樣化的數(shù)據(jù)服務(wù),靈活承載私有云、公有云和混合云平臺(tái)。存儲(chǔ)容量和性能實(shí)現(xiàn)彈性擴(kuò)展,安全隔離租戶底層的數(shù)據(jù)資源,數(shù)據(jù)可靠性為99.9999%,實(shí)現(xiàn)存儲(chǔ)資源的統(tǒng)一管理和調(diào)度。
應(yīng)用“存算分離”大數(shù)據(jù)集群架構(gòu),數(shù)據(jù)存放在專業(yè)的存儲(chǔ)節(jié)點(diǎn),便于客戶分級分類管理。分布式存儲(chǔ)通過原生HDFS協(xié)議對接大數(shù)據(jù)平臺(tái),提高數(shù)據(jù)訪問效率,簡化運(yùn)維管理。存儲(chǔ)集群基于CSI接口對接容器平臺(tái),承載非結(jié)構(gòu)化多模計(jì)算場景中的敏態(tài)業(yè)務(wù),為Kubernetes集群中的應(yīng)用自動(dòng)地提供持久化存儲(chǔ)服務(wù),同時(shí)也便于其它容器平臺(tái)通過CSI接口獲取存儲(chǔ)信息并調(diào)配底層存儲(chǔ)資源。人工智能平臺(tái)作為AI軟硬件技術(shù)的融合載體,將為AI產(chǎn)業(yè)的發(fā)展提供大規(guī)模數(shù)據(jù)處理和高性能智能計(jì)算支撐,具有高度并行的特點(diǎn)。應(yīng)用高性能并行存儲(chǔ)文件系統(tǒng)對接AI訓(xùn)推一體化平臺(tái),滿足模型訓(xùn)練推理過程中超高帶寬、極低時(shí)延與極致IOPS需求。
面對增長迅速、多維、海量等特性的非結(jié)構(gòu)化多模數(shù)據(jù),傳統(tǒng)集中式文件存儲(chǔ)方式在數(shù)據(jù)使用率、查詢分析效率、安全維護(hù)和管理上存在不足。浪潮信息通過軟件化的模塊定義方式,提供非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算場景下端到端一體化的融合存儲(chǔ)的解決方案,實(shí)現(xiàn)同一基礎(chǔ)架構(gòu)上不同應(yīng)用之間的數(shù)據(jù)業(yè)務(wù)應(yīng)用融合,提升集群“存算協(xié)同”的能力,降低了用戶投資、維護(hù)和管理的成本。
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4338瀏覽量
86002 -
浪潮
+關(guān)注
關(guān)注
1文章
465瀏覽量
23905
原文標(biāo)題:分布式融合存儲(chǔ)解決方案驅(qū)動(dòng)非結(jié)構(gòu)化數(shù)據(jù)多模計(jì)算
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲(chǔ)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論