0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hadoop大數(shù)據(jù)存算分離方案:計(jì)算層無(wú)縫對(duì)接存儲(chǔ)系統(tǒng)

杉巖老李 ? 來(lái)源:杉巖老李 ? 作者:杉巖老李 ? 2022-12-26 14:45 ? 次閱讀

Hadoop的誕生改變了企業(yè)對(duì)數(shù)據(jù)的存儲(chǔ)、處理和分析的過程,加速了大數(shù)據(jù)的發(fā)展。隨著大數(shù)據(jù)系統(tǒng)建設(shè)的深入,企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施易出現(xiàn)計(jì)算資源浪費(fèi)、存儲(chǔ)性能低、管理成本過高等挑戰(zhàn)。相比存算一體架構(gòu),存算分離架構(gòu)具有性能與成本最優(yōu)、兼具靈活性等特點(diǎn),因此受到企業(yè)IT部門的青睞,并紛紛開始對(duì)Hadoop架構(gòu)進(jìn)行改造。

為滿足大數(shù)據(jù)不同場(chǎng)景需求,杉巖數(shù)據(jù)此前研發(fā)推出了兼容HDFS接口能力的高性能數(shù)據(jù)湖文件網(wǎng)關(guān),為使湖倉(cāng)一體方案更加完善,杉巖數(shù)據(jù)全新升級(jí)了面向AI訓(xùn)練、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等場(chǎng)景的高性能文件存儲(chǔ)——杉巖云原生文件存儲(chǔ)(以下簡(jiǎn)稱杉巖CNFS),為客戶實(shí)現(xiàn)All in One的存儲(chǔ)能力。

存算分離實(shí)現(xiàn)方案:客戶端模式

杉巖CNFS支持客戶端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件協(xié)議)接口實(shí)現(xiàn),對(duì)HDFS接口協(xié)議完全兼容,可以保證應(yīng)用層就像使用原生HDFS存儲(chǔ)一樣使用杉巖CNFS。

實(shí)際場(chǎng)景中,通過在計(jì)算平臺(tái)部署安裝專用的客戶端與簡(jiǎn)單的配置,即可實(shí)現(xiàn)Hadoop平臺(tái)的組件與分離部署的存儲(chǔ)交互。針對(duì)業(yè)界使用比較廣泛的CDH平臺(tái)(Hadoop商業(yè)發(fā)行版之一),杉巖CNFS也開發(fā)了配套的Parcel資源包,利用CDH自身的管理便捷地配置使用杉巖CNFS提供的存儲(chǔ)空間。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

圖1 杉巖湖倉(cāng)一體方案存算分離實(shí)現(xiàn)(客戶端模式)

但是像所有HCFS接口實(shí)現(xiàn)一樣,侵入式的部署方式使計(jì)算組件有了額外的依賴需要管理,當(dāng)涉及計(jì)算組件自身的升級(jí)、替換等場(chǎng)景時(shí),就要考慮杉巖CNFS客戶端軟件包和配置的同步,增加了運(yùn)維工作。因此這種對(duì)接方式一定程度限制了計(jì)算組件自身的靈活性。

在實(shí)際應(yīng)用中,用戶如果有相對(duì)較為頻繁的升級(jí)更替計(jì)算組件的場(chǎng)景,往往不能接受侵入式的部署對(duì)接方式。

實(shí)現(xiàn)無(wú)縫對(duì)接!杉巖數(shù)據(jù)推出HDFS網(wǎng)關(guān)服務(wù)端組件

針對(duì)這一需求,杉巖數(shù)據(jù)研發(fā)推出了HDFS網(wǎng)關(guān)服務(wù)端組件,進(jìn)一步簡(jiǎn)化對(duì)接部署過程。HDFS網(wǎng)關(guān)實(shí)現(xiàn)了原生HDFS協(xié)議,可收發(fā)原生HDFS協(xié)議的請(qǐng)求,計(jì)算節(jié)點(diǎn)通過Hadoop環(huán)境自帶的原生HDFS-Client即可訪問存儲(chǔ)系統(tǒng),無(wú)需額外安裝專用客戶端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

圖2 杉巖湖倉(cāng)一體方案存算分離實(shí)現(xiàn)(服務(wù)端模式)

方案優(yōu)勢(shì)

原生HDFS協(xié)議,兼容性良好:HDFS網(wǎng)關(guān)支持幾乎所有的HDFS數(shù)據(jù)面接口,可對(duì)接市場(chǎng)上常見的大數(shù)據(jù)平臺(tái)。

無(wú)縫對(duì)接,簡(jiǎn)化對(duì)接部署過程:通過原生HDFS協(xié)議直接訪問存儲(chǔ)系統(tǒng),無(wú)需在計(jì)算層安裝專用客戶端。計(jì)算組件升級(jí)、替換時(shí),無(wú)需考慮客戶端配置,減少運(yùn)維工作量。

高數(shù)據(jù)吞吐能力,無(wú)單點(diǎn)故障:通過杉巖云原生文件存儲(chǔ)對(duì)HDFS網(wǎng)關(guān)的數(shù)據(jù)處理卸載能力,大大降低了HDFS網(wǎng)關(guān)的數(shù)據(jù)處理開銷,提升了整體的數(shù)據(jù)吞吐能力,并結(jié)合LVS實(shí)現(xiàn)了對(duì)HDFS網(wǎng)關(guān)的去中心化、水平擴(kuò)展。

性能測(cè)試

LVS只處理HDFS NameNode的元數(shù)據(jù)相關(guān)RPC,實(shí)際占大部分網(wǎng)絡(luò)帶寬的數(shù)據(jù)讀寫是DataNode角色的block讀寫流量,不通過LVS,而由HDFS Gateway通過NameNode RPC返回自身節(jié)點(diǎn)的IP,HDFS-Client直接和各HDFS Gateway通訊。所以LVS不會(huì)成為大數(shù)據(jù)讀寫的瓶頸,如下圖所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

圖3 通過LVS訪問HDFS網(wǎng)關(guān)的交互

以下是在3節(jié)點(diǎn)存儲(chǔ)加3節(jié)點(diǎn)Hadoop集群環(huán)境,通過TestDFSIO讀寫9個(gè)30G文件的對(duì)比測(cè)試結(jié)果,可見HDFS網(wǎng)關(guān)對(duì)存儲(chǔ)系統(tǒng)帶寬影響較小。但HDFS網(wǎng)關(guān)的增加會(huì)使IO路徑長(zhǎng)度多一跳,對(duì)存儲(chǔ)網(wǎng)絡(luò)帶寬需求增加,規(guī)劃存儲(chǔ)網(wǎng)絡(luò)時(shí)應(yīng)考慮這一點(diǎn)。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

圖4 存算分離場(chǎng)景杉巖CNFS直通和通過HDFS網(wǎng)關(guān)帶寬測(cè)試

值得一提的是,有些計(jì)算層組件可能針對(duì)HDFS做特別的優(yōu)化,例如Hbase就實(shí)現(xiàn)了自己的異步HDFS-Client,此情況下使用HDFS網(wǎng)關(guān)可以繼續(xù)使用計(jì)算側(cè)的特別優(yōu)化,能獲得更好的性能。

總結(jié)

隨著5GIoT的快速發(fā)展,數(shù)據(jù)激增,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)逐漸深入,基于存算分離架構(gòu),計(jì)算承接豐富的應(yīng)用接入需求,存儲(chǔ)提供成熟穩(wěn)定的底座支撐業(yè)務(wù)發(fā)展和生態(tài)對(duì)接是大勢(shì)所趨。

上述內(nèi)容體現(xiàn)了杉巖云原生文件存儲(chǔ)在Hadoop大數(shù)據(jù)存算分離場(chǎng)景中的優(yōu)勢(shì),杉巖數(shù)據(jù)推出HDFS網(wǎng)關(guān)服務(wù)端組件,通過原生HDFS協(xié)議直接訪問存儲(chǔ)系統(tǒng),簡(jiǎn)化了對(duì)接部署過程,為用戶提供了更多的選擇,使基于杉巖大數(shù)據(jù)智能存儲(chǔ)為基座的湖倉(cāng)一體方案更加完善。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)系統(tǒng)
    +關(guān)注

    關(guān)注

    2

    文章

    422

    瀏覽量

    41274
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    16375
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    9840
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8953

    瀏覽量

    139654
  • 存算分離
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    112
收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    兆芯+圖云創(chuàng)智—可信分布式存儲(chǔ)系統(tǒng)解決方案

    圖云創(chuàng)智分布式存儲(chǔ)系統(tǒng)采用全分布式設(shè)計(jì)與先進(jìn)的存儲(chǔ)虛擬化技術(shù)相結(jié)合,由多個(gè)獨(dú)立的兆芯 x86 服務(wù)器作為存儲(chǔ)節(jié)點(diǎn),聯(lián)合道熵存儲(chǔ)軟件和思贊博微可信計(jì)算
    的頭像 發(fā)表于 04-23 10:29 ?164次閱讀
    兆芯+圖云創(chuàng)智—可信分布式<b class='flag-5'>存儲(chǔ)系統(tǒng)</b>解決<b class='flag-5'>方案</b>

    Hadoop 生態(tài)系統(tǒng)大數(shù)據(jù)處理中的應(yīng)用與實(shí)踐

    隨著數(shù)據(jù)量的爆發(fā)式增長(zhǎng),大數(shù)據(jù)處理技術(shù)成為企業(yè)關(guān)注焦點(diǎn),Hadoop 生態(tài)系統(tǒng)在其中扮演著核心角色。 Hadoop Distributed
    的頭像 發(fā)表于 01-21 17:48 ?387次閱讀

    緩存對(duì)大數(shù)據(jù)處理的影響分析

    緩存對(duì)大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個(gè)方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲(chǔ)通常采用分布式
    的頭像 發(fā)表于 12-18 09:45 ?692次閱讀

    中國(guó)聯(lián)通實(shí)現(xiàn)30TB樣本數(shù)據(jù)跨城分離訓(xùn)練

    的跨200公里分離拉遠(yuǎn)訓(xùn)練。 據(jù)中國(guó)聯(lián)通官方介紹,此次測(cè)試不僅驗(yàn)證了分離技術(shù)在長(zhǎng)距離
    的頭像 發(fā)表于 12-13 14:06 ?634次閱讀

    開源芯片系列講座第24期:基于SRAM的高效計(jì)算架構(gòu)

    先進(jìn)的計(jì)算架構(gòu)技術(shù),以克服傳統(tǒng)馮諾依曼架構(gòu)中計(jì)算單元與存儲(chǔ)單元分離導(dǎo)致的“內(nèi)存墻”問題。基于SRAM的
    的頭像 發(fā)表于 11-27 01:05 ?775次閱讀
    開源芯片系列講座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效<b class='flag-5'>計(jì)算</b>架構(gòu)

    一體化與邊緣計(jì)算:重新定義智能計(jì)算的未來(lái)

    隨著數(shù)據(jù)量爆炸式增長(zhǎng)和智能化應(yīng)用的普及,計(jì)算存儲(chǔ)的高效整合逐漸成為科技行業(yè)關(guān)注的重點(diǎn)。數(shù)據(jù)存儲(chǔ)和處理需求的快速增長(zhǎng)推動(dòng)了對(duì)
    的頭像 發(fā)表于 11-12 01:05 ?736次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b>一體化與邊緣<b class='flag-5'>計(jì)算</b>:重新定義智能<b class='flag-5'>計(jì)算</b>的未來(lái)

    WDS分布式存儲(chǔ)系統(tǒng)軟件助力電信工程海量數(shù)據(jù)存儲(chǔ)項(xiàng)目

    WDS分布式存儲(chǔ)系統(tǒng)軟件助力電信工程海量數(shù)據(jù)存儲(chǔ)項(xiàng)目
    的頭像 發(fā)表于 11-11 09:59 ?468次閱讀
    WDS分布式<b class='flag-5'>存儲(chǔ)系統(tǒng)</b>軟件助力電信工程海量<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>存儲(chǔ)</b>項(xiàng)目

    emc企業(yè)級(jí)存儲(chǔ)系統(tǒng)的特點(diǎn)

    在當(dāng)今這個(gè)數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,企業(yè)對(duì)于數(shù)據(jù)存儲(chǔ)的需求日益增長(zhǎng)。EMC,作為全球領(lǐng)先的數(shù)據(jù)存儲(chǔ)解決方案
    的頭像 發(fā)表于 11-01 15:24 ?924次閱讀

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。
    的頭像 發(fā)表于 10-08 15:12 ?326次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)的工作原理和功能

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)作為計(jì)算機(jī)系統(tǒng)中至關(guān)重要的組成部分,其原理和功能對(duì)于理解計(jì)算機(jī)的運(yùn)行機(jī)制具有關(guān)鍵意義。以下將詳細(xì)闡述計(jì)算機(jī)
    的頭像 發(fā)表于 09-26 16:42 ?2810次閱讀

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)的構(gòu)成

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)計(jì)算機(jī)中用于存放程序和數(shù)據(jù)的設(shè)備或部件的集合,它構(gòu)成了計(jì)算機(jī)信息處理的基礎(chǔ)。一個(gè)完整的計(jì)
    的頭像 發(fā)表于 09-26 15:25 ?2349次閱讀

    基于分布式存儲(chǔ)系統(tǒng)醫(yī)療影像數(shù)據(jù)存儲(chǔ)解決方案

    基于分布式存儲(chǔ)系統(tǒng)醫(yī)療影像數(shù)據(jù)存儲(chǔ)解決方案
    的頭像 發(fā)表于 09-14 09:53 ?637次閱讀
    基于分布式<b class='flag-5'>存儲(chǔ)系統(tǒng)</b>醫(yī)療影像<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>存儲(chǔ)</b>解決<b class='flag-5'>方案</b>

    基于CSS融合存儲(chǔ)系統(tǒng)的自動(dòng)化制造服務(wù)平臺(tái)存儲(chǔ)解決方案

    基于CSS融合存儲(chǔ)系統(tǒng)的自動(dòng)化制造服務(wù)平臺(tái)存儲(chǔ)解決方案
    的頭像 發(fā)表于 09-10 10:15 ?573次閱讀
    基于CSS融合<b class='flag-5'>存儲(chǔ)系統(tǒng)</b>的自動(dòng)化制造服務(wù)平臺(tái)<b class='flag-5'>存儲(chǔ)</b>解決<b class='flag-5'>方案</b>

    黑龍江電力高性能WDS分布式存儲(chǔ)系統(tǒng)解決方案

    黑龍江電力高性能WDS分布式存儲(chǔ)系統(tǒng)解決方案
    的頭像 發(fā)表于 07-01 09:54 ?634次閱讀
    黑龍江電力高性能WDS分布式<b class='flag-5'>存儲(chǔ)系統(tǒng)</b>解決<b class='flag-5'>方案</b>

    數(shù)據(jù)中心存儲(chǔ)系統(tǒng)出現(xiàn)故障的處理方法有哪些?數(shù)據(jù)中心存儲(chǔ)系統(tǒng)出現(xiàn)故障怎么辦?

    互聯(lián)網(wǎng)+時(shí)代,大數(shù)據(jù)非常重要,如果保護(hù)好如數(shù)據(jù)存儲(chǔ)系統(tǒng)相當(dāng)關(guān)鍵。如今,隨著互聯(lián)網(wǎng)的快速發(fā)展,各種攻擊變得越來(lái)越嚴(yán)重,數(shù)據(jù)存儲(chǔ)系統(tǒng)也變得越來(lái)越
    的頭像 發(fā)表于 06-19 11:30 ?1233次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品