0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Ceph分布式存儲簡介&Ceph數(shù)據(jù)恢復(fù)流程

Frombyte ? 來源:Frombyte ? 作者:Frombyte ? 2023-09-26 15:41 ? 次閱讀

Ceph存儲基本架構(gòu):
Ceph存儲可分為塊存儲,對象存儲和文件存儲。Ceph基于對象存儲,對外提供三種存儲接口,故稱為統(tǒng)一存儲。
Ceph的底層是RADOS(分布式對象存儲系統(tǒng)),RADOS由兩部分組成:OSD和MON。
MON負(fù)責(zé)監(jiān)控整個集群,維護(hù)集群的健康狀態(tài),維護(hù)展示集群狀態(tài)的各種圖表,如OSDMap、MonitorMap、PGMap和CRUSHMap。
OSD負(fù)責(zé)存儲數(shù)據(jù)、復(fù)制數(shù)據(jù)、平衡數(shù)據(jù)、恢復(fù)數(shù)據(jù),與其它OSD間進(jìn)行心跳檢查等。通常情況下一塊硬盤對應(yīng)一個OSD。

Ceph數(shù)據(jù)的存儲過程:
無論使用哪種存儲方式(對象、塊、文件),存儲的數(shù)據(jù)都會被切分成對象(Objects)。

存儲池:
不同用戶因為不同的目的把對象存儲在不同的存儲池里,這些對象分布于OSD上。
對象保存在不同的存儲池(Pool)中,是對象存儲的邏輯組,對應(yīng)不同的用戶。存儲池管理著歸置組數(shù)量、副本數(shù)量、和存儲池規(guī)則集。

歸置組:
歸置組(PGPlacementGroup)是對象池的片段,Ceph根據(jù)對象的Oid和一些其他信息做計算操作,映射到歸置組,無數(shù)的對象被劃分到不同的歸置組。PG是一個邏輯概念,它在數(shù)據(jù)尋址時類似于數(shù)據(jù)庫中的索引。
每個對象都會固定映射進(jìn)一個PG中,所以當(dāng)我們要尋找一個對象時,只需要先找到對象所屬的PG,然后遍歷這個PG就可以了,無需遍歷所有對象。而且在數(shù)據(jù)遷移時,也是以PG作為基本單位進(jìn)行遷移。

OSD:
最后PG會根據(jù)管理員設(shè)置的副本數(shù)量進(jìn)行復(fù)制,然后通過crush算法存儲到不同的OSD節(jié)點(diǎn)上,最終把PG中的所有對象存儲到OSD節(jié)點(diǎn)上。

BlueStore:
新版本中,Ceph默認(rèn)以Bluestore存儲引擎,作為RADOS中OSD的ObjectStore存儲底層實現(xiàn)BlueStore整體架構(gòu)。

存儲空間:
BlueStore將整個存儲空間分為3個部分:WAL,DB,SLOW
慢速(Slow)空間:主要用于存儲對象數(shù)據(jù),由BlueStore管理。
高速(DB)空間:存儲blufs和rocksdb產(chǎn)生的數(shù)據(jù),由BlueFS直接管理,如果不存在或者DB設(shè)備空間不足,則選擇Slow類型設(shè)備空間。
超高速(WAL)空間:主要存儲RocksDB的WAL(即.log)文件,由BlueFS直接管理,如果不存在或者WAL設(shè)備空間不足,則逐級降級選擇DB、SLOW分區(qū)。

Rocksdb:
BlueStore使用Rocksdb作為自己元數(shù)據(jù)存儲的底層實現(xiàn),將各種元數(shù)據(jù)以kv型記錄的方式存在數(shù)據(jù)庫中。
寫入機(jī)制:任何元數(shù)據(jù)的寫入都會先寫到WAL,然后再寫入MemoryTable(Memtable)。
當(dāng)一個Memtable寫滿了之后,就會變成immutable的Memtable,RocksDB在后臺會通過一個flush線程將這個Memtableflush到磁盤,生成一個SortedStringTable(SST)文件。

BlueFS:
BlueFS與通用文件系統(tǒng)不同,是Bluestore專為Rocksdb所設(shè)計的精簡文件系統(tǒng)。
BlueFS的文件和目錄的元數(shù)據(jù)以日志事務(wù)的形式保存在日志文件中,在上電過程中,replay日志文件中的事務(wù),就可以加載所有的元數(shù)據(jù)到內(nèi)存中。

北亞企安針對Ceph的數(shù)據(jù)恢復(fù)流程:
1、制作磁盤鏡像,用于數(shù)據(jù)提取和備份。
2、提取BlueFS中數(shù)據(jù)庫文件。從磁盤鏡像的分區(qū)獲取超級塊,得到日志的節(jié)點(diǎn)信息?;胤耪麄€日志中的事務(wù),得到目錄結(jié)構(gòu)和數(shù)據(jù)庫文件節(jié)點(diǎn)信息,根據(jù)數(shù)據(jù)庫文件節(jié)點(diǎn)信息提取數(shù)據(jù)庫文件。提取從每個OSD提取出來的數(shù)據(jù)庫中的object記錄。
3、對于損壞的數(shù)據(jù)庫,根據(jù)文件格式提取數(shù)據(jù)庫完好文件中的object記錄。
4、解析object記錄,從各鏡像上提取對應(yīng)的object數(shù)據(jù)。
5、根據(jù)object的id按序組合卷文件的所有object數(shù)據(jù)塊,還原整個卷數(shù)據(jù)。
6、修復(fù)卷的文件系統(tǒng)和其中文件。
對于損壞缺失程度不高的卷文件系統(tǒng),嘗試修復(fù)損壞的卷,得到卷中的文件。
對于有固定格式的文件,嘗試修復(fù)損壞文件。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)恢復(fù)

    關(guān)注

    10

    文章

    638

    瀏覽量

    18021
  • 分布式存儲
    +關(guān)注

    關(guān)注

    4

    文章

    179

    瀏覽量

    19802
  • Ceph
    +關(guān)注

    關(guān)注

    1

    文章

    24

    瀏覽量

    9522
收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于DPU的Ceph存儲解決方案

    1. 方案背景和挑戰(zhàn) Ceph是一個高度可擴(kuò)展、高性能的開源分布式存儲系統(tǒng),設(shè)計用于提供優(yōu)秀的對象存儲、塊存儲和文件
    的頭像 發(fā)表于 07-15 13:44 ?1630次閱讀
    基于DPU的<b class='flag-5'>Ceph</b><b class='flag-5'>存儲</b>解決方案

    基于全HDD aarch64服務(wù)器的Ceph性能調(diào)優(yōu)實踐總結(jié)

    1 簡介作為一個統(tǒng)一的分布式存儲系統(tǒng),Ceph為應(yīng)用程序提供了對象,塊和文件系統(tǒng)接口??紤]到TCO,我們搭建了一個全HDD的Ceph集群(每
    發(fā)表于 07-05 14:26

    Ceph是什么?Ceph的統(tǒng)一存儲方案簡析

    色:更低的TCO(總體擁有成本),Ceph可以部署在普通的商用服務(wù)器上,比專有存儲系統(tǒng)的預(yù)算更低。Ceph的每一個組件都是可靠的并支持高可用。分布式
    發(fā)表于 10-08 15:40

    Ceph分布式存儲中遇到的問題和解決辦法

    首先,原作者分析Ceph運(yùn)維中遇到的問題是真實存在的,甚至在實際的運(yùn)維過程中還出現(xiàn)過其他更復(fù)雜的問題。因為最初的Ceph只是社區(qū)提供的一套開源版,因而想要實現(xiàn)產(chǎn)品化需要趟過很多次“坑”,就像最早的安卓系統(tǒng)一樣。
    發(fā)表于 10-20 10:17 ?4454次閱讀

    還在用Ceph嗎?不如試試性能更好的碧海存儲

    對于分布式存儲產(chǎn)品,朋友們第一反應(yīng)總是:基于Ceph的嗎? Ceph、HDFS、Glusterfs、Lustre、BeeGFS都是優(yōu)秀的分布式
    發(fā)表于 03-27 07:25 ?765次閱讀

    元核云如何解決Ceph分布式存儲中的問題

    Ceph本身基于Crush算法,具備了多種數(shù)據(jù)復(fù)制策略,可以選擇在磁盤、主機(jī)、機(jī)柜等等位置附著。
    發(fā)表于 06-18 10:43 ?775次閱讀

    盤點(diǎn)分布式存儲系統(tǒng)的主流框架

    整個大數(shù)據(jù)處理的體系,按我的理解可以分為兩個部分,一個是分布式存儲系統(tǒng)、另一個是分布式計算框架。分布式
    發(fā)表于 08-06 09:07 ?2780次閱讀

    存儲中的Ceph分布式文件系統(tǒng)及節(jié)點(diǎn)選擇

    存儲中的¢eph分布式文件系統(tǒng)以其開原性和提供統(tǒng)一存儲能力的特點(diǎn)在企業(yè)和科研領(lǐng)域得到廣泛關(guān)注和應(yīng)用。 CRUSH算法是eph分布式文件系統(tǒng)中的偽隨機(jī)
    發(fā)表于 03-31 10:46 ?13次下載
    云<b class='flag-5'>存儲</b>中的<b class='flag-5'>Ceph</b><b class='flag-5'>分布式</b>文件系統(tǒng)及節(jié)點(diǎn)選擇

    Ceph分布式存儲系統(tǒng)性能優(yōu)化研究綜述

    Ceph是一個統(tǒng)一的分布式存儲系統(tǒng),可同時提供塊、文件和對象3種接口的存儲服務(wù)。與傳統(tǒng)的分布式存儲
    發(fā)表于 04-13 13:58 ?5次下載
    <b class='flag-5'>Ceph</b><b class='flag-5'>分布式</b><b class='flag-5'>存儲</b>系統(tǒng)性能優(yōu)化研究綜述

    ceph-dash Ceph監(jiān)控面板

    ceph-dash.zip
    發(fā)表于 04-26 09:49 ?3次下載
    <b class='flag-5'>ceph</b>-dash <b class='flag-5'>Ceph</b>監(jiān)控面板

    ceph-zabbix監(jiān)控Ceph集群文件系統(tǒng)

    ceph-zabbix.zip
    發(fā)表于 04-26 09:48 ?2次下載
    <b class='flag-5'>ceph</b>-zabbix監(jiān)控<b class='flag-5'>Ceph</b>集群文件系統(tǒng)

    autobuild-ceph遠(yuǎn)程部署Ceph及自動構(gòu)建Ceph

    autobuild-ceph.zip
    發(fā)表于 05-05 11:09 ?2次下載
    autobuild-<b class='flag-5'>ceph</b>遠(yuǎn)程部署<b class='flag-5'>Ceph</b>及自動構(gòu)建<b class='flag-5'>Ceph</b>

    一個去中心化的分布式存儲系統(tǒng)Ceph概述

    Ceph 是一個去中心化的分布式存儲系統(tǒng), 提供較好的性能、可靠性和可擴(kuò)展性。
    發(fā)表于 09-02 10:11 ?1991次閱讀

    一文參透分布式存儲系統(tǒng)Ceph的架構(gòu)設(shè)計、集群搭建

    Ceph 是一個去中心化的分布式存儲系統(tǒng), 提供較好的性能、可靠性和可擴(kuò)展性。Ceph 項目最早起源于 Sage 就讀博士期間的工作(最早的成果于 2004 年發(fā)表),并隨后貢獻(xiàn)給開源
    的頭像 發(fā)表于 01-07 13:44 ?1446次閱讀

    SDNLAB技術(shù)分享:Ceph在云英的實踐

    Ceph是最近開源系統(tǒng)中很火的一個項目,基于Sage Weil的一片博士論文發(fā)展而來的一個分布式文件系統(tǒng),可提供PB級,動態(tài)可擴(kuò)展,數(shù)據(jù)安全可靠的存儲服務(wù)。
    發(fā)表于 06-16 09:32 ?527次閱讀
    SDNLAB技術(shù)分享:<b class='flag-5'>Ceph</b>在云英的實踐

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品