華為云數(shù)據(jù)庫(kù)GaussDB揭秘:數(shù)據(jù)分級(jí)存儲(chǔ)
“只存儲(chǔ)這些數(shù)據(jù)一年就要花費(fèi)200多萬(wàn)?”
面對(duì)老板的質(zhì)疑,小王又重新講解了一遍評(píng)估方案。為了支撐生產(chǎn)分析和系統(tǒng)運(yùn)維,一個(gè)設(shè)備就需要幾十個(gè)檢測(cè)點(diǎn)數(shù)據(jù),所有設(shè)備24小時(shí)不斷采集數(shù)據(jù),一天的數(shù)據(jù)量就會(huì)達(dá)到TB級(jí),這些數(shù)據(jù)至少存儲(chǔ)2年,再加上高可用的3副本,總的數(shù)據(jù)量會(huì)達(dá)到PB級(jí)。
小王又展示了當(dāng)前云廠商存儲(chǔ)價(jià)格和性能對(duì)比的調(diào)研結(jié)果:
磁盤(pán)類(lèi)型
SATA——NVME
成本100G/月
9.9——100
IOPS
2200——50000
吞吐量
50M/s——350M/s
訪問(wèn)時(shí)延
5ms~10ms——1ms
不同存儲(chǔ)其性能差異很大。例如NVME盤(pán)的吞吐量是SATA盤(pán)的7倍,IOPS超過(guò)了20倍,當(dāng)然對(duì)應(yīng)的成本也高出10倍左右。根據(jù)測(cè)試評(píng)估,低成本的存儲(chǔ)性能無(wú)法滿足大量數(shù)據(jù)的寫(xiě)入和實(shí)時(shí)業(yè)務(wù)的監(jiān)控,只得使用性能高的SSD盤(pán),因此導(dǎo)致存儲(chǔ)的成本提高。
成本提高,老板自然不滿意。那如何才能既滿足性能需求,又能控制成本呢?小王想,“實(shí)際上,不是所有的數(shù)據(jù)處理都需要很高的性能,如果把價(jià)值高的數(shù)據(jù)放在高性能磁盤(pán)上滿足業(yè)務(wù)需求,價(jià)值低的數(shù)據(jù)放在低成本磁盤(pán)上降低成本,這樣不就既能滿足需求,又能降低成本了么?”
不過(guò),想法很美好,現(xiàn)實(shí)很殘酷,要實(shí)現(xiàn)這個(gè)方案,小王面臨著更多的難題:
(1)怎么在一套系統(tǒng)中既能使用高性能存儲(chǔ),又能使用低成本存儲(chǔ)?
(2)怎么區(qū)分高價(jià)值數(shù)據(jù)?
(3)高價(jià)值數(shù)據(jù)變成低價(jià)值數(shù)據(jù)后怎么自動(dòng)轉(zhuǎn)儲(chǔ)?
(4)當(dāng)前業(yè)務(wù)改造量要盡量少。
1.GaussDB(for Influx)解決方案
企業(yè)的數(shù)字化轉(zhuǎn)型,數(shù)據(jù)是基礎(chǔ)。為了能實(shí)時(shí)掌握設(shè)備、系統(tǒng)狀態(tài),需要采集大量的數(shù)據(jù)并進(jìn)行實(shí)時(shí)處理。這些數(shù)據(jù)都屬于時(shí)序數(shù)據(jù),帶有明顯的特點(diǎn),如時(shí)間戳、更新少、數(shù)據(jù)源唯一等。除了數(shù)據(jù)本身的特點(diǎn),在業(yè)務(wù)應(yīng)用上還具有如下特點(diǎn):
- 隨著時(shí)間的推移,其被查詢和分析的概率越來(lái)越低。
- 隨著時(shí)間的推移,對(duì)數(shù)據(jù)分析的實(shí)時(shí)性要求越來(lái)越低。
- 隨著時(shí)間的推移,數(shù)據(jù)的精度要求越來(lái)越低。
- 數(shù)據(jù)只保留一段時(shí)間,到期后會(huì)刪除。
如何結(jié)合時(shí)序數(shù)據(jù)的特點(diǎn),實(shí)現(xiàn)小王既滿足業(yè)務(wù)性能,又控制成本的美好愿望呢?華為云GaussDB(for Influx)時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)分級(jí)存儲(chǔ)功能完美解決了困擾小王的問(wèn)題。
- 華為云GaussDB(for Influx)依托云原生能力,實(shí)現(xiàn)了計(jì)算存儲(chǔ)分離的分布式架構(gòu),其中存儲(chǔ)基于華為分布式存儲(chǔ)DFV和對(duì)象存儲(chǔ)OBS,解決了在一套系統(tǒng)中既能使用高性能存儲(chǔ),又能使用低成本存儲(chǔ)的問(wèn)題,其具體架構(gòu)如下圖:
分布式DFV存儲(chǔ)屬于高性能存儲(chǔ),熱數(shù)據(jù)放在DFV中確保業(yè)務(wù)性能要求;OBS存儲(chǔ)屬于低成本存儲(chǔ),冷數(shù)據(jù)存儲(chǔ)在OBS中,降低客戶成本。
- 提供了冷熱數(shù)據(jù)自動(dòng)分離的方案,用戶在創(chuàng)建保留策略時(shí),可以指定冷熱數(shù)據(jù)的劃分時(shí)間,系統(tǒng)根據(jù)用戶的指定,自動(dòng)將數(shù)據(jù)分為熱數(shù)據(jù)和冷數(shù)據(jù),解決了數(shù)據(jù)如何劃分的問(wèn)題。
- 隨著時(shí)間的推移,熱數(shù)據(jù)轉(zhuǎn)冷,系統(tǒng)會(huì)自動(dòng)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到冷存儲(chǔ)上。
- 上述過(guò)程中只有在創(chuàng)建RP時(shí)需要指定冷熱數(shù)據(jù)策略。對(duì)于業(yè)務(wù)側(cè)是不感知的,避免業(yè)務(wù)的適配和改造。
2.GaussDB(for Influx)冷熱存儲(chǔ)的使用
GaussDB(for Influx)存儲(chǔ)分級(jí)功能使用十分方便,在購(gòu)買(mǎi)冷存儲(chǔ)后,設(shè)置RP策略時(shí)指定冷存儲(chǔ)的時(shí)間即可,系統(tǒng)會(huì)根據(jù)RP策略,自動(dòng)將冷數(shù)據(jù)轉(zhuǎn)儲(chǔ)到底成本存儲(chǔ)上。業(yè)務(wù)在訪問(wèn)冷數(shù)據(jù)時(shí),系統(tǒng)會(huì)自動(dòng)去冷存儲(chǔ)上讀取,整個(gè)過(guò)程業(yè)務(wù)是不感知的,對(duì)業(yè)務(wù)無(wú)影響。
2.1購(gòu)買(mǎi)冷存儲(chǔ)
GaussDB(for Influx)支持一鍵購(gòu)買(mǎi)冷存儲(chǔ)空間,可以在購(gòu)買(mǎi)實(shí)例時(shí)選擇是否夠買(mǎi)冷存儲(chǔ),選擇“是”,可以根據(jù)業(yè)務(wù)需求選擇冷存儲(chǔ)的大小,具體如下圖:
也可以在購(gòu)買(mǎi)實(shí)例后,獨(dú)立購(gòu)買(mǎi)冷存儲(chǔ)。進(jìn)入實(shí)例詳情頁(yè)面,點(diǎn)擊創(chuàng)建冷存儲(chǔ)空間,如下圖:
跳轉(zhuǎn)到如下頁(yè)面,按照業(yè)務(wù)需求進(jìn)行存儲(chǔ)空間大小選擇:
冷存儲(chǔ)空也支持在線擴(kuò)容,擴(kuò)容過(guò)程中不影響業(yè)務(wù)。
2.2設(shè)置冷數(shù)據(jù)規(guī)則
在購(gòu)買(mǎi)了冷存儲(chǔ)空間后,就可以按照業(yè)務(wù)需求設(shè)置冷數(shù)據(jù)的規(guī)則,系統(tǒng)會(huì)根據(jù)規(guī)則,自動(dòng)劃分冷熱數(shù)據(jù),并將冷數(shù)據(jù)存儲(chǔ)在冷存儲(chǔ)空間上??梢酝ㄟ^(guò)創(chuàng)建RP來(lái)指定冷熱數(shù)據(jù)規(guī)則,具體示例如下:
//在db名為mydb上創(chuàng)建名為myrp的RP,顯示指定WARM DURATION為6d,表示6天前的數(shù)據(jù)是冷數(shù)據(jù)。
create retention policy myrp on mydb duration 30d replication 1 warm duration 6d shard duration 3d
//在db名為mydb上創(chuàng)建名為myrp的RP,沒(méi)有指定WARM DURATION,表示沒(méi)有冷數(shù)據(jù)。
create retention policy myrp on mydb duration 30d replication 1 shard duration 3d
//創(chuàng)建名為mydb的db,并帶有名為myrp的RP,顯示指定WARM DURATION為3d,表示3天前的數(shù)據(jù)是冷數(shù)據(jù)。
create database mydb with duration 6d warm duration 3d name myrp
//修改WARM DURATION為7d,表示7天前的數(shù)據(jù)是冷數(shù)據(jù)。
alter retention policy myrp on mydb warm duration 7d
規(guī)則設(shè)置完成后,系統(tǒng)會(huì)根據(jù)指定的規(guī)則,自動(dòng)判斷哪些數(shù)據(jù)屬于冷數(shù)據(jù),并自動(dòng)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到冷存儲(chǔ)上。
2.3使用效果驗(yàn)證
冷數(shù)據(jù)規(guī)則設(shè)置好,插入數(shù)據(jù)一段時(shí)間后,系統(tǒng)會(huì)自動(dòng)判斷數(shù)據(jù)是否轉(zhuǎn)為冷數(shù)據(jù),如果已經(jīng)成為冷數(shù)據(jù),系統(tǒng)會(huì)自動(dòng)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到冷存儲(chǔ)上。可以通過(guò)show shards命令來(lái)查看數(shù)據(jù)的狀態(tài),如下圖所示:
> show shards
name: hsdb
id database retention_policy shard_group start_time end_time expiry_time owners tier
-- -------- ---------------- ----------- ---------- -------- ----------- ------ ----
5 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 4 cold
6 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 5 moving
7 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 6 warm
8 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 7 cold
cold:表示數(shù)據(jù)為冷數(shù)據(jù),已存儲(chǔ)在冷存儲(chǔ)中;
moving:表示數(shù)據(jù)為冷數(shù)據(jù),該數(shù)據(jù)正在轉(zhuǎn)儲(chǔ)到冷存儲(chǔ)中;
warm:表示數(shù)據(jù)為熱數(shù)據(jù)。
3.總結(jié)
在應(yīng)用了GaussDB(for Influx)的冷熱分級(jí)存儲(chǔ)方案后,存儲(chǔ)100T的數(shù)據(jù)量一年,按照1個(gè)月內(nèi)的數(shù)據(jù)是熱數(shù)據(jù),其余是冷數(shù)據(jù),其總體的存儲(chǔ)成本從250萬(wàn)降至37.5萬(wàn),可節(jié)省85%的存儲(chǔ)成本。
GaussDB(for Influx)除了冷熱分級(jí)存儲(chǔ)功能外,在集群化、讀寫(xiě)性能、壓縮率、高可用方面也做了深度優(yōu)化,能更好地滿足時(shí)序應(yīng)用的各種場(chǎng)景。
審核編輯 黃昊宇
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4340瀏覽量
86009 -
華為云
+關(guān)注
關(guān)注
3文章
2673瀏覽量
17505
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論