0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓Ceph存儲的性能飆升的原因竟然是因為它?

存儲加速器 ? 來源:YXQ ? 2019-07-05 15:11 ? 次閱讀

?Ceph作為一款開源的分布式存儲軟件解決方案,由于其功能豐富、社區(qū)活躍,在公有云和私有云環(huán)境中有著廣泛的應(yīng)用。

然而,由于Ceph的大規(guī)模分布式架構(gòu)原因,其IO路徑過長,使得其性能一直被業(yè)界所詬病。

現(xiàn)實中,Ceph更多用在備份和歸檔等性能要求不高的場景。在這種場景下,一般存儲介質(zhì)采用HDD,很少采用全閃存的配置。

伴隨著固態(tài)盤(SSD)價格的不斷走低,云提供商紛紛開始著手為客戶打造具備卓越性能和高可靠性的全閃存存儲。

為此,他們迫切希望獲得基于 Ceph 的全閃存參考架構(gòu),并了解具體的性能表現(xiàn)和最佳優(yōu)化實踐。

英特爾?傲騰? 技術(shù)前所未有地集高吞吐量、低延遲、高服務(wù)質(zhì)量和高耐用性優(yōu)勢于一身,它由 3D XPoint? 內(nèi)存介質(zhì)和英特爾?軟件等組合而成。

這些構(gòu)建模塊相互配合,配合至強可擴展處理器,在降低延遲和加速系統(tǒng)性能方面實現(xiàn)了具體提升,能夠全面滿足工作負載對于大容量和快速存儲的需求。

本篇文章將圍繞 Ceph 全閃存存儲系統(tǒng)參考架構(gòu)和基于英特爾?至強?可擴展處理器的軟件優(yōu)化等方面,介紹Intel所取得的進展。

在本文中,將重點為您介紹Ceph 參考架構(gòu)和性能結(jié)果,該架構(gòu)的配置包括 RADOS 塊設(shè)備(RBD)接口、英特爾?傲騰? 技術(shù)和英特爾?至強?可擴展處理器產(chǎn)品家族(英特爾?至強?鉑金 8180 處理器和英特爾?至強?金牌 6140 處理器)。

我們先介紹采用英特爾?傲騰? 技術(shù)和英特爾?至強?可擴展處理器的Ceph 全閃存陣列(AFA)參考架構(gòu),然后介紹典型工作負載的性能結(jié)果和系統(tǒng)特性。

Intel建議Ceph AFA采用英特爾?至強?鉑金 8180 處理器,它是英特爾?至強?可擴展處理器產(chǎn)品家族中先進的處理器。

建議使用英特爾?傲騰? 固態(tài)盤(SSD)作為BlueStore WAL(Write-Ahead Logging) 設(shè)備,使用基于 NAND 固態(tài)盤作為數(shù)據(jù)硬盤,并使用 Mellanox 40 GbE 網(wǎng)絡(luò)接口卡(NIC)作為高速以太網(wǎng)數(shù)據(jù)端口,具備最高性能(吞吐量和延遲)。它是 I/O 密集型工作負載的最佳選擇。

測試系統(tǒng)由5個Ceph存儲服務(wù)器和5個客戶端節(jié)點組成。

每個存儲節(jié)點配置Intel Xeon Platinum 8180處理器和384 GB內(nèi)存,使用1x Intel Optane SSD DC P4800X 375GB作為BlueStore WAL設(shè)備,4x Intel SSD DC P3520 2TB作為數(shù)據(jù)驅(qū)動器,以及2x Mellanox 40 GbE NIC作為Ceph的獨立集群和公共網(wǎng)絡(luò)。

同時,每個節(jié)點均使用 Ceph 12.2.2,并且每個英特爾?固態(tài)盤 DC P3520 系列運行一個對象存儲守護程序(OSD)。用于測試的 RBD 池配置有 2 個副本。

對于客戶端,每個節(jié)點配置了英特爾?至強?鉑金 8180 處理器、384 GB 內(nèi)存和 1 個 Mellanox 40GbE 網(wǎng)卡。

Intel設(shè)計了四種不同的工作負載來模擬云中典型的全閃存 Ceph 集群(基于帶 librbd 的 fio),其中包括 4K 隨機讀寫和 64K 順序讀寫,以分別模擬隨機工作負載和順序工作負載。對于每個測試用例,IO 性能(IOPS 或帶寬)使用卷擴展數(shù)量(最大擴展到 100)來衡量,每個卷配置為 30 GB。

這些卷已預先分配,以消除 Ceph 精簡配置機制的影響,獲得穩(wěn)定且可復制的結(jié)果。每次測試之前停止 OSD 頁高速緩存,以消除頁高速緩存的影響。在每個測試用例中,fio 配置了 300 秒的準備時限和 300 秒的數(shù)據(jù)采集時限。

?

4K隨機寫特性

用戶空間消耗的CPU利用率為37%,占CPU總利用率的75%。分析結(jié)果顯示Ceph OSD過程消耗了大部分CPU周期; CPU還有空間的可疑原因是軟件線程和鎖定模型實現(xiàn)限制了Ceph在單個節(jié)點上的擴展能力,這仍然是下一步優(yōu)化工作。

4K隨機寫入的系統(tǒng)指標

?

4K隨機讀取特性

CPU利用率約為60%,其中IOWAIT約占15%,因此實際CPU消耗也約為45%;類似于隨機寫例。OSD磁盤的讀取IOPS非常穩(wěn)定在80K,40 GBbE NIC帶寬約為2.1 GB/s。沒有觀察到明顯的硬件瓶頸;疑似軟件瓶頸類似于4K隨機寫入案例,需要進一步調(diào)查。

4K隨機讀取的系統(tǒng)指標

64K順序?qū)懭胩匦?/strong>

順序?qū)懭氲腃PU利用率和內(nèi)存消耗非常低。由于OSD復制數(shù)為2,因此NIC數(shù)據(jù)的傳輸帶寬是接收帶寬的兩倍,傳輸帶寬包括兩個NIC的帶寬,一個用于公共網(wǎng)絡(luò),一個用于群集網(wǎng)絡(luò),每個NIC大約1.8 GB /每個端口。OSD磁盤AWAIT時間受到嚴重波動,最高磁盤延遲超過4秒,而磁盤IOPS非常穩(wěn)定。

64K順序?qū)懭氲南到y(tǒng)指標

?

64K順序讀取特性

對于順序讀取案例,我們觀察到一個NIC的帶寬達到4.4 GB/s,約占總帶寬的88%。順序?qū)懭氲腃PU利用率和內(nèi)存消耗非常低。OSD磁盤讀取IOPS和延遲穩(wěn)定。

64K順序讀取的系統(tǒng)指標

總體來看,基于英特爾Optane技術(shù)的Ceph AFA集群展示了出色的吞吐量和延遲。

64K順序讀寫吞吐量分別為21,949 MB/s和8,714 MB/s(最大為40 GbE NIC)。4K隨機讀取吞吐量為2,453K IOPS,平均延遲為5.36 ms,而4K隨機寫入吞吐量為500K IOPS,平均延遲為12.79 ms。

其實自從Ceph Giant發(fā)布以來,英特爾一直與社區(qū),生態(tài)系統(tǒng)和合作伙伴密切合作,一直優(yōu)化Ceph的性能。下圖顯示了Ceph主要版本和不同Intel平臺上4K隨機寫入工作負載的性能優(yōu)化歷史記錄。

憑借新的Ceph主要版本,后端存儲,結(jié)合核心平臺變化和SSD升級,單個節(jié)點的4K隨機寫入性能提高了27倍(每個節(jié)點每秒輸入/輸出操作3,673次(IOPS)至每個節(jié)點100,052 IOPS)!

這使得使用Ceph構(gòu)建高性能存儲解決方案成為可能。

在本文中,我們在英特爾至強可擴展處理器上看到了采用Ceph AFA參考架構(gòu)的英特爾Optane技術(shù)的性能結(jié)果。此配置展示了出色的吞吐量和延遲,除了延遲比傳統(tǒng)的高端存儲有些差距外,帶寬和IOPS都達到了高端存儲的水平。

對于讀取密集型工作負載,尤其是小塊讀,對CPU性能要求比較高,建議使用英特爾至強可擴展處理器系列的頂級處理器,例如英特爾至強鉑金8000系列處理器。

與采用英特爾至強可擴展處理器上的Ceph AFA集群的默認配置的英特爾Optane技術(shù)相比,軟件調(diào)優(yōu)和優(yōu)化還為讀取和寫入提供了高達19%的性能提升。

由于使用當前的硬件配置可以觀察到硬件性能還有凈空,因此性能有望在不久的將來通過持續(xù)的Ceph優(yōu)化(如RDMA messenger,NVMe-focus對象存儲,async-osd等)不斷改進。

相信有了英特爾?至強?可擴展處理器和傲騰?技術(shù)的支持,加上Ceph不斷優(yōu)化,未來Ceph的性能將會更好,Ceph也將越來越多用于主存儲場景,而不僅僅是目前聚焦的第二存儲場景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    38

    文章

    7496

    瀏覽量

    163926
  • Ceph
    +關(guān)注

    關(guān)注

    1

    文章

    22

    瀏覽量

    9416

原文標題:讓Ceph存儲的性能飆升的原因竟然是因為它?

文章出處:【微信號:TopStorage,微信公眾號:存儲加速器】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    PCM2704的ROM編程好了,竟然是亂碼,為什么?

    的說法將ROM編程好,接入系統(tǒng),插入USB后,顯示正在安裝驅(qū)動,沒想到安裝完畢后竟然名稱顯示為亂碼,百思不得其解。望各位大神幫我看看問題出在哪里 這是德州儀器官方數(shù)據(jù)表中關(guān)于ROM的三段重要描述 我按照說明編程如下 可是插入電腦后顯示是亂碼 求助大神,問題出在哪里?
    發(fā)表于 11-05 08:04

    遠程升級頻頻失???原因竟然是

    ?最近有客戶反饋在鄉(xiāng)村里頻繁出現(xiàn)掉線的情況。 趕緊排查原因! 通過換貨、換SIM卡對比排查測試,發(fā)現(xiàn)只有去年采購的那批模塊在客戶環(huán)境附近會出現(xiàn)掉線的情況,而今年采購的模塊批次就不會掉線。。。 繼續(xù)
    的頭像 發(fā)表于 10-14 07:07 ?181次閱讀
    遠程升級頻頻失???<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>…

    異常重啟怎么破?多方排查后,原因竟然是。。。

    ?又是異常重啟。。。人摸不到頭腦。 這幾天,看到客戶上報了重啟問題,說是查不出原因。 重啟現(xiàn)象是 ——有極個別設(shè)備在工作中不定時反復異常重啟,大部分設(shè)備正常;反復重啟設(shè)備,有時候又能持續(xù)正常工作
    的頭像 發(fā)表于 10-14 07:04 ?284次閱讀
    異常重啟怎么破?多方排查后,<b class='flag-5'>原因</b><b class='flag-5'>竟然是</b>。。。

    令人頭疼的異常重啟,竟然是KV的鍋…

    合宙模組異常重啟原因排查
    的頭像 發(fā)表于 09-26 18:14 ?447次閱讀
    令人頭疼的異常重啟,<b class='flag-5'>竟然是</b>KV的鍋…

    必須要進行壓力表校驗的原因竟然是!

    壓力表
    華泰天科
    發(fā)布于 :2024年09月14日 09:37:57

    集成運放電路采用直接耦合方式是因為什么

    集成運放電路采用直接耦合方式的原因主要是由于其獨特的優(yōu)勢和應(yīng)用需求。直接耦合方式指的是在電路中不使用耦合電容,而是直接將一個放大級的輸出連接到下一個放大級的輸入。這種方式在集成運放電路中非
    的頭像 發(fā)表于 09-03 09:17 ?1702次閱讀

    谷景科普一體成型貼片電感很燙是因為短路嗎

    谷景科普一體成型貼片電感很燙是因為短路嗎 編輯:谷景電子 一體成型貼片電感對于電子電路運行的穩(wěn)定性是特別重要的,在電路中它可以抵抗電流的變化并存儲能量。但是,有時候在一些情況下會出現(xiàn)溫度過高的現(xiàn)象
    的頭像 發(fā)表于 08-16 09:18 ?324次閱讀

    基于DPU的Ceph存儲解決方案

    1. 方案背景和挑戰(zhàn) Ceph是一個高度可擴展、高性能的開源分布式存儲系統(tǒng),設(shè)計用于提供優(yōu)秀的對象存儲、塊存儲和文件
    的頭像 發(fā)表于 07-15 13:44 ?1329次閱讀
    基于DPU的<b class='flag-5'>Ceph</b><b class='flag-5'>存儲</b>解決方案

    晶體為什么會老化?原因竟然是....

    晶體
    TROQ創(chuàng)捷電子
    發(fā)布于 :2024年06月25日 08:52:52

    手機出問題的元兇找到了!萬萬沒想到,竟然是因為!#esd# 保護器件

    保護器件半導體元器件
    薩瑞微電子
    發(fā)布于 :2024年04月15日 16:07:27

    見證歷史!SpaceX的PCB供應(yīng)商竟然是

    北京時間3月14日晚,馬斯克旗下太空探索技術(shù)公司(SpaceX)的星艦重型運載火箭第三次試飛成功進入太空。
    的頭像 發(fā)表于 03-17 11:41 ?1836次閱讀
    見證歷史!SpaceX的PCB供應(yīng)商<b class='flag-5'>竟然是</b><b class='flag-5'>它</b>

    使用tc397進行收發(fā)的時候沒有響應(yīng)是因為什么?

    在使用 tc397 進行收發(fā)的時候,發(fā)現(xiàn)沒有響應(yīng),代碼是根據(jù)示例代碼修改,通過邏輯分析儀和示波器進行調(diào)試的 只修改了對應(yīng)的 tx,rx 引腳,請問可能是因為什么原因
    發(fā)表于 03-05 07:45

    IBM積極推進Ceph擴展,以打造AI領(lǐng)域的底層數(shù)據(jù)存儲基石

    BM正著手擴展Ceph的塊和文件存儲功能,希望將其定位為Storage Scale并行文件系統(tǒng)之下面向AI工作負載的后端數(shù)據(jù)存儲。
    發(fā)表于 02-20 16:15 ?407次閱讀

    N9H20 GPIO上電竟然是高電平,有沒有辦法解決?

    一直很納悶,GPIO上電竟然是高電平。有沒有辦法解決,是不是要改動啟動程序才能解決問題?
    發(fā)表于 01-17 08:27

    請問怎樣使用cephadm部署ceph集群呢?

    從紅帽ceph5開始使用cephadm代替之前的ceph-ansible作為管理整個集群生命周期的工具,包括部署,管理,監(jiān)控。
    的頭像 發(fā)表于 01-16 09:32 ?1509次閱讀
    請問怎樣使用cephadm部署<b class='flag-5'>ceph</b>集群呢?