Hadoop的誕生改變了企業(yè)對(duì)數(shù)據(jù)的存儲(chǔ)、處理和分析的過程,加速了大數(shù)據(jù)的發(fā)展。隨著大數(shù)據(jù)系統(tǒng)建設(shè)的深入,企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施易出現(xiàn)計(jì)算資源浪費(fèi)、存儲(chǔ)性能低、管理成本過高等挑戰(zhàn)。相比存算一體架構(gòu),存算分離架構(gòu)具有性能與成本最優(yōu)、兼具靈活性等特點(diǎn),因此受到企業(yè)IT部門的青睞,并紛紛開始對(duì)Hadoop架構(gòu)進(jìn)行改造。
為滿足大數(shù)據(jù)不同場(chǎng)景需求,杉巖數(shù)據(jù)此前研發(fā)推出了兼容HDFS接口能力的高性能數(shù)據(jù)湖文件網(wǎng)關(guān),為使湖倉(cāng)一體方案更加完善,杉巖數(shù)據(jù)全新升級(jí)了面向AI訓(xùn)練、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等場(chǎng)景的高性能文件存儲(chǔ)——杉巖云原生文件存儲(chǔ)(以下簡(jiǎn)稱杉巖CNFS),為客戶實(shí)現(xiàn)All in One的存儲(chǔ)能力。
存算分離實(shí)現(xiàn)方案:客戶端模式
杉巖CNFS支持客戶端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件協(xié)議)接口實(shí)現(xiàn),對(duì)HDFS接口協(xié)議完全兼容,可以保證應(yīng)用層就像使用原生HDFS存儲(chǔ)一樣使用杉巖CNFS。
實(shí)際場(chǎng)景中,通過在計(jì)算平臺(tái)部署安裝專用的客戶端與簡(jiǎn)單的配置,即可實(shí)現(xiàn)Hadoop平臺(tái)的組件與分離部署的存儲(chǔ)交互。針對(duì)業(yè)界使用比較廣泛的CDH平臺(tái)(Hadoop商業(yè)發(fā)行版之一),杉巖CNFS也開發(fā)了配套的Parcel資源包,利用CDH自身的管理便捷地配置使用杉巖CNFS提供的存儲(chǔ)空間。
圖1 杉巖湖倉(cāng)一體方案存算分離實(shí)現(xiàn)(客戶端模式)
但是像所有HCFS接口實(shí)現(xiàn)一樣,侵入式的部署方式使計(jì)算組件有了額外的依賴需要管理,當(dāng)涉及計(jì)算組件自身的升級(jí)、替換等場(chǎng)景時(shí),就要考慮杉巖CNFS客戶端軟件包和配置的同步,增加了運(yùn)維工作。因此這種對(duì)接方式一定程度限制了計(jì)算組件自身的靈活性。
在實(shí)際應(yīng)用中,用戶如果有相對(duì)較為頻繁的升級(jí)更替計(jì)算組件的場(chǎng)景,往往不能接受侵入式的部署對(duì)接方式。
實(shí)現(xiàn)無(wú)縫對(duì)接!杉巖數(shù)據(jù)推出HDFS網(wǎng)關(guān)服務(wù)端組件
針對(duì)這一需求,杉巖數(shù)據(jù)研發(fā)推出了HDFS網(wǎng)關(guān)服務(wù)端組件,進(jìn)一步簡(jiǎn)化對(duì)接部署過程。HDFS網(wǎng)關(guān)實(shí)現(xiàn)了原生HDFS協(xié)議,可收發(fā)原生HDFS協(xié)議的請(qǐng)求,計(jì)算節(jié)點(diǎn)通過Hadoop環(huán)境自帶的原生HDFS-Client即可訪問存儲(chǔ)系統(tǒng),無(wú)需額外安裝專用客戶端。
圖2 杉巖湖倉(cāng)一體方案存算分離實(shí)現(xiàn)(服務(wù)端模式)
方案優(yōu)勢(shì)
原生HDFS協(xié)議,兼容性良好:HDFS網(wǎng)關(guān)支持幾乎所有的HDFS數(shù)據(jù)面接口,可對(duì)接市場(chǎng)上常見的大數(shù)據(jù)平臺(tái)。
無(wú)縫對(duì)接,簡(jiǎn)化對(duì)接部署過程:通過原生HDFS協(xié)議直接訪問存儲(chǔ)系統(tǒng),無(wú)需在計(jì)算層安裝專用客戶端。計(jì)算組件升級(jí)、替換時(shí),無(wú)需考慮客戶端配置,減少運(yùn)維工作量。
高數(shù)據(jù)吞吐能力,無(wú)單點(diǎn)故障:通過杉巖云原生文件存儲(chǔ)對(duì)HDFS網(wǎng)關(guān)的數(shù)據(jù)處理卸載能力,大大降低了HDFS網(wǎng)關(guān)的數(shù)據(jù)處理開銷,提升了整體的數(shù)據(jù)吞吐能力,并結(jié)合LVS實(shí)現(xiàn)了對(duì)HDFS網(wǎng)關(guān)的去中心化、水平擴(kuò)展。
性能測(cè)試
LVS只處理HDFS NameNode的元數(shù)據(jù)相關(guān)RPC,實(shí)際占大部分網(wǎng)絡(luò)帶寬的數(shù)據(jù)讀寫是DataNode角色的block讀寫流量,不通過LVS,而由HDFS Gateway通過NameNode RPC返回自身節(jié)點(diǎn)的IP,HDFS-Client直接和各HDFS Gateway通訊。所以LVS不會(huì)成為大數(shù)據(jù)讀寫的瓶頸,如下圖所示:
圖3 通過LVS訪問HDFS網(wǎng)關(guān)的交互
以下是在3節(jié)點(diǎn)存儲(chǔ)加3節(jié)點(diǎn)Hadoop集群環(huán)境,通過TestDFSIO讀寫9個(gè)30G文件的對(duì)比測(cè)試結(jié)果,可見HDFS網(wǎng)關(guān)對(duì)存儲(chǔ)系統(tǒng)帶寬影響較小。但HDFS網(wǎng)關(guān)的增加會(huì)使IO路徑長(zhǎng)度多一跳,對(duì)存儲(chǔ)網(wǎng)絡(luò)帶寬需求增加,規(guī)劃存儲(chǔ)網(wǎng)絡(luò)時(shí)應(yīng)考慮這一點(diǎn)。
圖4 存算分離場(chǎng)景杉巖CNFS直通和通過HDFS網(wǎng)關(guān)帶寬測(cè)試
值得一提的是,有些計(jì)算層組件可能針對(duì)HDFS做特別的優(yōu)化,例如Hbase就實(shí)現(xiàn)了自己的異步HDFS-Client,此情況下使用HDFS網(wǎng)關(guān)可以繼續(xù)使用計(jì)算側(cè)的特別優(yōu)化,能獲得更好的性能。
總結(jié)
隨著5G和IoT的快速發(fā)展,數(shù)據(jù)激增,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)逐漸深入,基于存算分離架構(gòu),計(jì)算承接豐富的應(yīng)用接入需求,存儲(chǔ)提供成熟穩(wěn)定的底座支撐業(yè)務(wù)發(fā)展和生態(tài)對(duì)接是大勢(shì)所趨。
上述內(nèi)容體現(xiàn)了杉巖云原生文件存儲(chǔ)在Hadoop大數(shù)據(jù)存算分離場(chǎng)景中的優(yōu)勢(shì),杉巖數(shù)據(jù)推出HDFS網(wǎng)關(guān)服務(wù)端組件,通過原生HDFS協(xié)議直接訪問存儲(chǔ)系統(tǒng),簡(jiǎn)化了對(duì)接部署過程,為用戶提供了更多的選擇,使基于杉巖大數(shù)據(jù)智能存儲(chǔ)為基座的湖倉(cāng)一體方案更加完善。
審核編輯:湯梓紅
-
存儲(chǔ)系統(tǒng)
+關(guān)注
關(guān)注
2文章
422瀏覽量
41274 -
Hadoop
+關(guān)注
關(guān)注
1文章
90瀏覽量
16375 -
HDFS
+關(guān)注
關(guān)注
1文章
31瀏覽量
9840 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8953瀏覽量
139654 -
存算分離
+關(guān)注
關(guān)注
0文章
6瀏覽量
112
發(fā)布評(píng)論請(qǐng)先 登錄
兆芯+圖云創(chuàng)智—可信分布式存儲(chǔ)系統(tǒng)解決方案

Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應(yīng)用與實(shí)踐
緩存對(duì)大數(shù)據(jù)處理的影響分析
中國(guó)聯(lián)通實(shí)現(xiàn)30TB樣本數(shù)據(jù)跨城存算分離訓(xùn)練
開源芯片系列講座第24期:基于SRAM存算的高效計(jì)算架構(gòu)

存算一體化與邊緣計(jì)算:重新定義智能計(jì)算的未來(lái)

WDS分布式存儲(chǔ)系統(tǒng)軟件助力電信工程海量數(shù)據(jù)存儲(chǔ)項(xiàng)目

emc企業(yè)級(jí)存儲(chǔ)系統(tǒng)的特點(diǎn)
基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

計(jì)算機(jī)存儲(chǔ)系統(tǒng)的工作原理和功能
計(jì)算機(jī)存儲(chǔ)系統(tǒng)的構(gòu)成
基于分布式存儲(chǔ)系統(tǒng)醫(yī)療影像數(shù)據(jù)存儲(chǔ)解決方案

基于CSS融合存儲(chǔ)系統(tǒng)的自動(dòng)化制造服務(wù)平臺(tái)存儲(chǔ)解決方案

評(píng)論