0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓Ceph存儲的性能飆升的原因竟然是因為它?

存儲加速器 ? 來源:YXQ ? 2019-07-05 15:11 ? 次閱讀

?Ceph作為一款開源的分布式存儲軟件解決方案,由于其功能豐富、社區(qū)活躍,在公有云和私有云環(huán)境中有著廣泛的應(yīng)用。

然而,由于Ceph的大規(guī)模分布式架構(gòu)原因,其IO路徑過長,使得其性能一直被業(yè)界所詬病。

現(xiàn)實中,Ceph更多用在備份和歸檔等性能要求不高的場景。在這種場景下,一般存儲介質(zhì)采用HDD,很少采用全閃存的配置。

伴隨著固態(tài)盤(SSD)價格的不斷走低,云提供商紛紛開始著手為客戶打造具備卓越性能和高可靠性的全閃存存儲。

為此,他們迫切希望獲得基于 Ceph 的全閃存參考架構(gòu),并了解具體的性能表現(xiàn)和最佳優(yōu)化實踐。

英特爾?傲騰? 技術(shù)前所未有地集高吞吐量、低延遲、高服務(wù)質(zhì)量和高耐用性優(yōu)勢于一身,它由 3D XPoint? 內(nèi)存介質(zhì)和英特爾?軟件等組合而成。

這些構(gòu)建模塊相互配合,配合至強可擴展處理器,在降低延遲和加速系統(tǒng)性能方面實現(xiàn)了具體提升,能夠全面滿足工作負載對于大容量和快速存儲的需求。

本篇文章將圍繞 Ceph 全閃存存儲系統(tǒng)參考架構(gòu)和基于英特爾?至強?可擴展處理器的軟件優(yōu)化等方面,介紹Intel所取得的進展。

在本文中,將重點為您介紹Ceph 參考架構(gòu)和性能結(jié)果,該架構(gòu)的配置包括 RADOS 塊設(shè)備(RBD)接口、英特爾?傲騰? 技術(shù)和英特爾?至強?可擴展處理器產(chǎn)品家族(英特爾?至強?鉑金 8180 處理器和英特爾?至強?金牌 6140 處理器)。

我們先介紹采用英特爾?傲騰? 技術(shù)和英特爾?至強?可擴展處理器的Ceph 全閃存陣列(AFA)參考架構(gòu),然后介紹典型工作負載的性能結(jié)果和系統(tǒng)特性。

Intel建議Ceph AFA采用英特爾?至強?鉑金 8180 處理器,它是英特爾?至強?可擴展處理器產(chǎn)品家族中先進的處理器。

建議使用英特爾?傲騰? 固態(tài)盤(SSD)作為BlueStore WAL(Write-Ahead Logging) 設(shè)備,使用基于 NAND 固態(tài)盤作為數(shù)據(jù)硬盤,并使用 Mellanox 40 GbE 網(wǎng)絡(luò)接口卡(NIC)作為高速以太網(wǎng)數(shù)據(jù)端口,具備最高性能(吞吐量和延遲)。它是 I/O 密集型工作負載的最佳選擇。

測試系統(tǒng)由5個Ceph存儲服務(wù)器和5個客戶端節(jié)點組成。

每個存儲節(jié)點配置Intel Xeon Platinum 8180處理器和384 GB內(nèi)存,使用1x Intel Optane SSD DC P4800X 375GB作為BlueStore WAL設(shè)備,4x Intel SSD DC P3520 2TB作為數(shù)據(jù)驅(qū)動器,以及2x Mellanox 40 GbE NIC作為Ceph的獨立集群和公共網(wǎng)絡(luò)。

同時,每個節(jié)點均使用 Ceph 12.2.2,并且每個英特爾?固態(tài)盤 DC P3520 系列運行一個對象存儲守護程序(OSD)。用于測試的 RBD 池配置有 2 個副本。

對于客戶端,每個節(jié)點配置了英特爾?至強?鉑金 8180 處理器、384 GB 內(nèi)存和 1 個 Mellanox 40GbE 網(wǎng)卡。

Intel設(shè)計了四種不同的工作負載來模擬云中典型的全閃存 Ceph 集群(基于帶 librbd 的 fio),其中包括 4K 隨機讀寫和 64K 順序讀寫,以分別模擬隨機工作負載和順序工作負載。對于每個測試用例,IO 性能(IOPS 或帶寬)使用卷擴展數(shù)量(最大擴展到 100)來衡量,每個卷配置為 30 GB。

這些卷已預先分配,以消除 Ceph 精簡配置機制的影響,獲得穩(wěn)定且可復制的結(jié)果。每次測試之前停止 OSD 頁高速緩存,以消除頁高速緩存的影響。在每個測試用例中,fio 配置了 300 秒的準備時限和 300 秒的數(shù)據(jù)采集時限。

?

4K隨機寫特性

用戶空間消耗的CPU利用率為37%,占CPU總利用率的75%。分析結(jié)果顯示Ceph OSD過程消耗了大部分CPU周期; CPU還有空間的可疑原因是軟件線程和鎖定模型實現(xiàn)限制了Ceph在單個節(jié)點上的擴展能力,這仍然是下一步優(yōu)化工作。

4K隨機寫入的系統(tǒng)指標

?

4K隨機讀取特性

CPU利用率約為60%,其中IOWAIT約占15%,因此實際CPU消耗也約為45%;類似于隨機寫例。OSD磁盤的讀取IOPS非常穩(wěn)定在80K,40 GBbE NIC帶寬約為2.1 GB/s。沒有觀察到明顯的硬件瓶頸;疑似軟件瓶頸類似于4K隨機寫入案例,需要進一步調(diào)查。

4K隨機讀取的系統(tǒng)指標

64K順序?qū)懭胩匦?/strong>

順序?qū)懭氲腃PU利用率和內(nèi)存消耗非常低。由于OSD復制數(shù)為2,因此NIC數(shù)據(jù)的傳輸帶寬是接收帶寬的兩倍,傳輸帶寬包括兩個NIC的帶寬,一個用于公共網(wǎng)絡(luò),一個用于群集網(wǎng)絡(luò),每個NIC大約1.8 GB /每個端口。OSD磁盤AWAIT時間受到嚴重波動,最高磁盤延遲超過4秒,而磁盤IOPS非常穩(wěn)定。

64K順序?qū)懭氲南到y(tǒng)指標

?

64K順序讀取特性

對于順序讀取案例,我們觀察到一個NIC的帶寬達到4.4 GB/s,約占總帶寬的88%。順序?qū)懭氲腃PU利用率和內(nèi)存消耗非常低。OSD磁盤讀取IOPS和延遲穩(wěn)定。

64K順序讀取的系統(tǒng)指標

總體來看,基于英特爾Optane技術(shù)的Ceph AFA集群展示了出色的吞吐量和延遲。

64K順序讀寫吞吐量分別為21,949 MB/s和8,714 MB/s(最大為40 GbE NIC)。4K隨機讀取吞吐量為2,453K IOPS,平均延遲為5.36 ms,而4K隨機寫入吞吐量為500K IOPS,平均延遲為12.79 ms。

其實自從Ceph Giant發(fā)布以來,英特爾一直與社區(qū),生態(tài)系統(tǒng)和合作伙伴密切合作,一直優(yōu)化Ceph的性能。下圖顯示了Ceph主要版本和不同Intel平臺上4K隨機寫入工作負載的性能優(yōu)化歷史記錄。

憑借新的Ceph主要版本,后端存儲,結(jié)合核心平臺變化和SSD升級,單個節(jié)點的4K隨機寫入性能提高了27倍(每個節(jié)點每秒輸入/輸出操作3,673次(IOPS)至每個節(jié)點100,052 IOPS)!

這使得使用Ceph構(gòu)建高性能存儲解決方案成為可能。

在本文中,我們在英特爾至強可擴展處理器上看到了采用Ceph AFA參考架構(gòu)的英特爾Optane技術(shù)的性能結(jié)果。此配置展示了出色的吞吐量和延遲,除了延遲比傳統(tǒng)的高端存儲有些差距外,帶寬和IOPS都達到了高端存儲的水平。

對于讀取密集型工作負載,尤其是小塊讀,對CPU性能要求比較高,建議使用英特爾至強可擴展處理器系列的頂級處理器,例如英特爾至強鉑金8000系列處理器。

與采用英特爾至強可擴展處理器上的Ceph AFA集群的默認配置的英特爾Optane技術(shù)相比,軟件調(diào)優(yōu)和優(yōu)化還為讀取和寫入提供了高達19%的性能提升。

由于使用當前的硬件配置可以觀察到硬件性能還有凈空,因此性能有望在不久的將來通過持續(xù)的Ceph優(yōu)化(如RDMA messenger,NVMe-focus對象存儲,async-osd等)不斷改進。

相信有了英特爾?至強?可擴展處理器和傲騰?技術(shù)的支持,加上Ceph不斷優(yōu)化,未來Ceph的性能將會更好,Ceph也將越來越多用于主存儲場景,而不僅僅是目前聚焦的第二存儲場景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    38

    文章

    7633

    瀏覽量

    166390
  • Ceph
    +關(guān)注

    關(guān)注

    1

    文章

    23

    瀏覽量

    9512

原文標題:讓Ceph存儲的性能飆升的原因竟然是因為它?

文章出處:【微信號:TopStorage,微信公眾號:存儲加速器】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣
    的頭像 發(fā)表于 04-19 13:53 ?201次閱讀
    UPS(不間斷電源)故障頻發(fā)?<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>這樣

    紋波異常的原因竟然是這個?。?/a>

    的EMI性能?!緫?yīng)用】音響電源【規(guī)格】12V2A【問題描述】:紋波異常客戶描述紋波有異常的尖刺,測試輸出紋波發(fā)現(xiàn)確實有尖刺,總體紋波高達360mV把示波器時間調(diào)快
    的頭像 發(fā)表于 04-15 09:53 ?214次閱讀
    紋波異常的<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>這個??!

    蕪湖,起飛!樹莓派性能飆升的小秘訣~

    今天給大家分享一個超棒的內(nèi)容。這里面有超多樹莓派性能提升的小技巧哦。如果你是樹莓派愛好者,那這個文章絕對不能錯過。詳細地介紹了各種實用的方法,可以你的樹莓派發(fā)揮出更大的潛力。無論是提高運行
    的頭像 發(fā)表于 03-25 09:33 ?220次閱讀
    蕪湖,起飛!<b class='flag-5'>讓</b>樹莓派<b class='flag-5'>性能</b><b class='flag-5'>飆升</b>的小秘訣~

    EMMC存儲如何影響設(shè)備性能

    基于NAND閃存的存儲技術(shù),集成了控制器和NAND閃存在一個單一的封裝中。與傳統(tǒng)的SD卡或eMMC相比,EMMC提供了更高的數(shù)據(jù)傳輸速率和更低的功耗。EMMC的版本從4.41到5.1不等,每個版本都有不同的性能和特性。 1.
    的頭像 發(fā)表于 12-25 09:40 ?1817次閱讀

    PCM2704的ROM編程好了,竟然是亂碼,為什么?

    的說法將ROM編程好,接入系統(tǒng),插入USB后,顯示正在安裝驅(qū)動,沒想到安裝完畢后竟然名稱顯示為亂碼,百思不得其解。望各位大神幫我看看問題出在哪里 這是德州儀器官方數(shù)據(jù)表中關(guān)于ROM的三段重要描述 我按照說明編程如下 可是插入電腦后顯示是亂碼 求助大神,問題出在哪里?
    發(fā)表于 11-05 08:04

    遠程升級頻頻失敗?原因竟然是

    ?最近有客戶反饋在鄉(xiāng)村里頻繁出現(xiàn)掉線的情況。 趕緊排查原因! 通過換貨、換SIM卡對比排查測試,發(fā)現(xiàn)只有去年采購的那批模塊在客戶環(huán)境附近會出現(xiàn)掉線的情況,而今年采購的模塊批次就不會掉線。。。 繼續(xù)
    的頭像 發(fā)表于 10-14 07:07 ?454次閱讀
    遠程升級頻頻失???<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>…

    異常重啟怎么破?多方排查后,原因竟然是。。。

    ?又是異常重啟。。。人摸不到頭腦。 這幾天,看到客戶上報了重啟問題,說是查不出原因。 重啟現(xiàn)象是 ——有極個別設(shè)備在工作中不定時反復異常重啟,大部分設(shè)備正常;反復重啟設(shè)備,有時候又能持續(xù)正常工作
    的頭像 發(fā)表于 10-14 07:04 ?670次閱讀
    異常重啟怎么破?多方排查后,<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>。。。

    令人頭疼的異常重啟,竟然是KV的鍋…

    合宙模組異常重啟原因排查
    的頭像 發(fā)表于 09-26 18:14 ?751次閱讀
    令人頭疼的異常重啟,<b class='flag-5'>竟然是</b>KV的鍋…

    存儲器中的數(shù)據(jù)會因為斷電而丟失嗎

    存儲器中的數(shù)據(jù)是否會因為斷電而丟失,取決于存儲器的類型及其工作原理。在深入探討這個問題之前,我們首先需要了解存儲器的基本分類及其特性。
    的頭像 發(fā)表于 09-26 15:23 ?4324次閱讀

    必須要進行壓力表校驗的原因竟然是!

    壓力表
    華泰天科
    發(fā)布于 :2024年09月14日 09:37:57

    集成運放電路采用直接耦合方式是因為什么

    集成運放電路采用直接耦合方式的原因主要是由于其獨特的優(yōu)勢和應(yīng)用需求。直接耦合方式指的是在電路中不使用耦合電容,而是直接將一個放大級的輸出連接到下一個放大級的輸入。這種方式在集成運放電路中非
    的頭像 發(fā)表于 09-03 09:17 ?2953次閱讀

    谷景科普一體成型貼片電感很燙是因為短路嗎

    谷景科普一體成型貼片電感很燙是因為短路嗎 編輯:谷景電子 一體成型貼片電感對于電子電路運行的穩(wěn)定性是特別重要的,在電路中它可以抵抗電流的變化并存儲能量。但是,有時候在一些情況下會出現(xiàn)溫度過高的現(xiàn)象
    的頭像 發(fā)表于 08-16 09:18 ?542次閱讀

    基于DPU的Ceph存儲解決方案

    1. 方案背景和挑戰(zhàn) Ceph是一個高度可擴展、高性能的開源分布式存儲系統(tǒng),設(shè)計用于提供優(yōu)秀的對象存儲、塊存儲和文件
    的頭像 發(fā)表于 07-15 13:44 ?1620次閱讀
    基于DPU的<b class='flag-5'>Ceph</b><b class='flag-5'>存儲</b>解決方案

    警告!惡意域名瘋狂外聯(lián),原因竟然是……

    前言 ?? 在某個風和日麗的下午,突然收到客戶那邊運維發(fā)過來的消息說我司的DTA設(shè)備在瘋狂告警,說存在惡意域名外聯(lián),我急忙背上小背包前往客戶現(xiàn)場,經(jīng)過與客戶協(xié)同排查,最終確定該事件為一起挖礦病毒引起的惡意域名外聯(lián)事件。(因客戶信息保密且為了保證文章邏輯完整性,部分截圖為后期追加圖) 事件分析 ? 一看域名地址donate.v2.xmrig.com,xmrig這不門羅幣的礦池地址嗎,看來是個挖礦事件,從DTA上的告警時間和告警事件來看,確實是個挖礦
    的頭像 發(fā)表于 06-26 10:53 ?1202次閱讀
    警告!惡意域名瘋狂外聯(lián),<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>……

    晶體為什么會老化?原因竟然是....

    晶體
    TROQ創(chuàng)捷電子
    發(fā)布于 :2024年06月25日 08:52:52

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品