??近年來,時序數(shù)據(jù)的應用更為廣泛,包括物聯(lián)網(wǎng)、金融領域、監(jiān)控領域、醫(yī)學領域、農(nóng)業(yè)生產(chǎn)領域等各方面,都在大量使用時序數(shù)據(jù),通過數(shù)據(jù)來研究對象的趨勢性、規(guī)律性、異常性;并且在 5G 與人工智能的浪潮下,時序數(shù)據(jù)作為大數(shù)據(jù)、機器學習、實時預測的基礎數(shù)據(jù),作用更加顯著。因此,對時序數(shù)據(jù)的研究與應用應當更為深入。
??近 5 年來,時序數(shù)據(jù)庫發(fā)展十分迅猛,各大互聯(lián)網(wǎng)企業(yè)包括 Google、阿里、Amazon 都推出自己的時序數(shù)據(jù)。
圖 1 DB-Engines 統(tǒng)計不同類別數(shù)據(jù)庫關注度趨勢
??圖 1 為 DB-Engines 統(tǒng)計從2018年1月到2019 年 12 月截至 24 月各類數(shù)據(jù)庫的關注度趨勢,可以看到時序數(shù)據(jù)庫關注度同比 2017 年 12 月上漲 77.3%,相比第二名的圖形數(shù)據(jù)庫上漲近兩倍。圖 2 為 DB-Engines 統(tǒng)計從2013年12月到2019 年 12 月截至 6年來業(yè)內流行的時序數(shù)據(jù)庫的關注度和使用度排名。
圖 2 DB-Engines 統(tǒng)計時序數(shù)據(jù)庫關注度趨勢
??從圖中可以看到,從 2015 年開始,各種時序數(shù)據(jù)庫如雨后春筍般涌現(xiàn)。
??GaussDB(for Influx)時序數(shù)據(jù)庫依靠華為在數(shù)據(jù)存儲領域多年的實踐經(jīng)驗,整合華為云的計算、存儲、服務保障和安全等方面的能力,在架構、性能和數(shù)據(jù)壓縮等方面進行了突破性的技術創(chuàng)新,達到了較好的效果,對內支撐了華為云基礎設施服務,對外以服務的形式開放,幫助上云企業(yè)解決相關業(yè)務問題。
??GaussDB(for Influx) 具有支持億級時間線、極致寫入性能、低存儲成本、高性能多維聚合查詢和極致彈性擴縮容等5大特性。以下為特性的大致介紹:
??由于在時序數(shù)據(jù)庫系統(tǒng)中,無時無刻存在大量并發(fā)查詢和寫入操作,因此合理控制內存的使用量就顯得十分重要。而GaussDB(for Influx)便在這一問題上做了進一步優(yōu)化:
??l 在內存分配與回收上,使用內存池復用技術降低內存碎片,并實現(xiàn)算法動態(tài)調整GC頻率,加快內存回收。
??l 在單查詢上,實行Quota控制,避免單查詢耗盡內存。
??l 在緩存中,針對不同節(jié)點規(guī)格提供不同最優(yōu)配置。
2 、極致寫入性能
??GaussDB(for Influx)支持每天萬億條數(shù)據(jù)寫入,在工程實現(xiàn)上有以下優(yōu)化:
??l 利用所有節(jié)點并行寫入,充分發(fā)揮集群優(yōu)勢。
??l Shard節(jié)點采用針對場景優(yōu)化的LSM-Tree布局
??l 在大規(guī)模寫入場景下,GaussDB(for Influx)的寫入性能線性擴展度大于80%。
3 、低存儲成本
??GaussDB(for Influx)對數(shù)據(jù)采用列式存儲,相同類型的數(shù)據(jù)被集中存儲,更有利于數(shù)據(jù)壓縮。采用自研的時序數(shù)據(jù)自適應壓縮算法,在壓縮前對數(shù)據(jù)進行抽樣分析,根據(jù)數(shù)據(jù)量、數(shù)據(jù)分布以及數(shù)據(jù)類型選擇最合適的數(shù)據(jù)壓縮算法。同時提供了時序數(shù)據(jù)的分級存儲,支持用戶自定義冷熱數(shù)據(jù),實現(xiàn)數(shù)據(jù)的冷熱分離。熱數(shù)據(jù)相對數(shù)據(jù)量小,訪問頻繁,被存儲在性能更好、成本較高的存儲介質上;冷數(shù)據(jù)相對數(shù)據(jù)量大,訪問概率低,保存時間較久,被存儲在成本較低的存儲介質上,進而達到節(jié)約存儲成本的目的。
4 、高性能多維聚合查詢
??在提升聚合查詢整體性能方面,GaussDB(for Influx)做了如下優(yōu)化:
??l 采用MPP架構:一條查詢語句可以在多節(jié)點及多核并發(fā)執(zhí)行。
??l 向量化查詢引擎:在查詢結果數(shù)據(jù)量很大時,GaussDB(for Influx)內部實現(xiàn)了向量化查詢引擎,每次迭代批量返回數(shù)據(jù),大大減少了額外開銷。
??l 增量聚合引擎:基于滑動窗口的聚合查詢,大部分從聚合結果緩存中直接命中,僅需要聚合增量數(shù)據(jù)部分即可。
??l 多維倒排索引:支持多維多條件組合查詢,加快數(shù)據(jù)查詢中過濾無關數(shù)據(jù)。
5 、極致彈性擴縮容
??在時序數(shù)據(jù)庫的運行過程中,隨著業(yè)務量的增加,常常需要對數(shù)據(jù)庫進行在線擴容,以滿足業(yè)務的要求。
??l 傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)存儲在本地,擴容后往往需要遷移數(shù)據(jù)。當數(shù)據(jù)量達到一定規(guī)模時,數(shù)據(jù)遷移所耗費的時間往往按天計算,給運維帶來了很大的困難。
??l GaussDB(for Influx)相比于傳統(tǒng)的數(shù)據(jù)庫,最大的特點就是將計算與存儲分離,能夠輕松實現(xiàn)分鐘級擴容。
??此外,在能源、制造、IOT、互聯(lián)網(wǎng)等行業(yè)的監(jiān)控統(tǒng)計及分析的應用場景中,時序洞察提供了針對時序數(shù)據(jù)的可視化功能。在監(jiān)控領域,我們??吹侥軐崟r反映整個系統(tǒng)運行情況的絢麗監(jiān)控大屏,這便是數(shù)據(jù)庫的監(jiān)控看板功能,可以高效地運用監(jiān)控數(shù)據(jù)輔助定位故障、性能調優(yōu)、容量規(guī)劃;可以查看各產(chǎn)品的監(jiān)控數(shù)據(jù)走勢及對比;跨產(chǎn)品展示關鍵指標的實時數(shù)據(jù)、歷史數(shù)據(jù)和整體走勢。業(yè)務人員可以根據(jù)該信息對業(yè)務進行及時調整。
??通過對時序數(shù)據(jù)庫的發(fā)展分析,時序數(shù)據(jù)庫的發(fā)展空間巨大,但也存在很多問題,GaussDB(for Influx)針對其存在的問題,都進行了針對性的創(chuàng)新與發(fā)展,可以說GaussDB(for Influx)為時序數(shù)據(jù)庫的發(fā)展提供了巨大推動力。
審核編輯 黃昊宇
-
華為
+關注
關注
216文章
34473瀏覽量
252016 -
數(shù)據(jù)庫
+關注
關注
7文章
3817瀏覽量
64496
發(fā)布評論請先 登錄
相關推薦
評論