0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為PB級時序數(shù)據(jù)庫Gauss DB,助力海量數(shù)據(jù)處理

禿頭也愛科技 ? 來源:禿頭也愛科技 ? 作者:禿頭也愛科技 ? 2022-10-15 19:15 ? 次閱讀

??近年來,時序數(shù)據(jù)的應用更為廣泛,包括物聯(lián)網(wǎng)、金融領域、監(jiān)控領域、醫(yī)學領域、農(nóng)業(yè)生產(chǎn)領域等各方面,都在大量使用時序數(shù)據(jù),通過數(shù)據(jù)來研究對象的趨勢性、規(guī)律性、異常性;并且在 5G人工智能的浪潮下,時序數(shù)據(jù)作為大數(shù)據(jù)、機器學習、實時預測的基礎數(shù)據(jù),作用更加顯著。因此,對時序數(shù)據(jù)的研究與應用應當更為深入。

??近 5 年來,時序數(shù)據(jù)庫發(fā)展十分迅猛,各大互聯(lián)網(wǎng)企業(yè)包括 Google、阿里、Amazon 都推出自己的時序數(shù)據(jù)。

PB1.png

圖 1 DB-Engines 統(tǒng)計不同類別數(shù)據(jù)庫關注度趨勢

??圖 1 為 DB-Engines 統(tǒng)計從2018年1月到2019 年 12 月截至 24 月各類數(shù)據(jù)庫的關注度趨勢,可以看到時序數(shù)據(jù)庫關注度同比 2017 年 12 月上漲 77.3%,相比第二名的圖形數(shù)據(jù)庫上漲近兩倍。圖 2 為 DB-Engines 統(tǒng)計從2013年12月到2019 年 12 月截至 6年來業(yè)內流行的時序數(shù)據(jù)庫的關注度和使用度排名。

PB2.png

圖 2 DB-Engines 統(tǒng)計時序數(shù)據(jù)庫關注度趨勢

??從圖中可以看到,從 2015 年開始,各種時序數(shù)據(jù)庫如雨后春筍般涌現(xiàn)。

??GaussDB(for Influx)時序數(shù)據(jù)庫依靠華為在數(shù)據(jù)存儲領域多年的實踐經(jīng)驗,整合華為云的計算、存儲、服務保障和安全等方面的能力,在架構、性能和數(shù)據(jù)壓縮等方面進行了突破性的技術創(chuàng)新,達到了較好的效果,對內支撐了華為云基礎設施服務,對外以服務的形式開放,幫助上云企業(yè)解決相關業(yè)務問題。

??GaussDB(for Influx) 具有支持億級時間線、極致寫入性能、低存儲成本、高性能多維聚合查詢和極致彈性擴縮容等5大特性。以下為特性的大致介紹:

PB3.png

??由于在時序數(shù)據(jù)庫系統(tǒng)中,無時無刻存在大量并發(fā)查詢和寫入操作,因此合理控制內存的使用量就顯得十分重要。而GaussDB(for Influx)便在這一問題上做了進一步優(yōu)化:

??l 在內存分配與回收上,使用內存池復用技術降低內存碎片,并實現(xiàn)算法動態(tài)調整GC頻率,加快內存回收。

??l 在單查詢上,實行Quota控制,避免單查詢耗盡內存。

??l 在緩存中,針對不同節(jié)點規(guī)格提供不同最優(yōu)配置。

2 、極致寫入性能

??GaussDB(for Influx)支持每天萬億條數(shù)據(jù)寫入,在工程實現(xiàn)上有以下優(yōu)化:

??l 利用所有節(jié)點并行寫入,充分發(fā)揮集群優(yōu)勢。

??l Shard節(jié)點采用針對場景優(yōu)化的LSM-Tree布局

??l 在大規(guī)模寫入場景下,GaussDB(for Influx)的寫入性能線性擴展度大于80%。

3 、低存儲成本

??GaussDB(for Influx)對數(shù)據(jù)采用列式存儲,相同類型的數(shù)據(jù)被集中存儲,更有利于數(shù)據(jù)壓縮。采用自研的時序數(shù)據(jù)自適應壓縮算法,在壓縮前對數(shù)據(jù)進行抽樣分析,根據(jù)數(shù)據(jù)量、數(shù)據(jù)分布以及數(shù)據(jù)類型選擇最合適的數(shù)據(jù)壓縮算法。同時提供了時序數(shù)據(jù)的分級存儲,支持用戶自定義冷熱數(shù)據(jù),實現(xiàn)數(shù)據(jù)的冷熱分離。熱數(shù)據(jù)相對數(shù)據(jù)量小,訪問頻繁,被存儲在性能更好、成本較高的存儲介質上;冷數(shù)據(jù)相對數(shù)據(jù)量大,訪問概率低,保存時間較久,被存儲在成本較低的存儲介質上,進而達到節(jié)約存儲成本的目的。

4 、高性能多維聚合查詢

??在提升聚合查詢整體性能方面,GaussDB(for Influx)做了如下優(yōu)化:

??l 采用MPP架構:一條查詢語句可以在多節(jié)點及多核并發(fā)執(zhí)行。

??l 向量化查詢引擎:在查詢結果數(shù)據(jù)量很大時,GaussDB(for Influx)內部實現(xiàn)了向量化查詢引擎,每次迭代批量返回數(shù)據(jù),大大減少了額外開銷。

??l 增量聚合引擎:基于滑動窗口的聚合查詢,大部分從聚合結果緩存中直接命中,僅需要聚合增量數(shù)據(jù)部分即可。

??l 多維倒排索引:支持多維多條件組合查詢,加快數(shù)據(jù)查詢中過濾無關數(shù)據(jù)。

5 、極致彈性擴縮容

??在時序數(shù)據(jù)庫的運行過程中,隨著業(yè)務量的增加,常常需要對數(shù)據(jù)庫進行在線擴容,以滿足業(yè)務的要求。

??l 傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)存儲在本地,擴容后往往需要遷移數(shù)據(jù)。當數(shù)據(jù)量達到一定規(guī)模時,數(shù)據(jù)遷移所耗費的時間往往按天計算,給運維帶來了很大的困難。

??l GaussDB(for Influx)相比于傳統(tǒng)的數(shù)據(jù)庫,最大的特點就是將計算與存儲分離,能夠輕松實現(xiàn)分鐘級擴容。

??此外,在能源、制造、IOT、互聯(lián)網(wǎng)等行業(yè)的監(jiān)控統(tǒng)計及分析的應用場景中,時序洞察提供了針對時序數(shù)據(jù)的可視化功能。在監(jiān)控領域,我們??吹侥軐崟r反映整個系統(tǒng)運行情況的絢麗監(jiān)控大屏,這便是數(shù)據(jù)庫的監(jiān)控看板功能,可以高效地運用監(jiān)控數(shù)據(jù)輔助定位故障、性能調優(yōu)、容量規(guī)劃;可以查看各產(chǎn)品的監(jiān)控數(shù)據(jù)走勢及對比;跨產(chǎn)品展示關鍵指標的實時數(shù)據(jù)、歷史數(shù)據(jù)和整體走勢。業(yè)務人員可以根據(jù)該信息對業(yè)務進行及時調整。

??通過對時序數(shù)據(jù)庫的發(fā)展分析,時序數(shù)據(jù)庫的發(fā)展空間巨大,但也存在很多問題,GaussDB(for Influx)針對其存在的問題,都進行了針對性的創(chuàng)新與發(fā)展,可以說GaussDB(for Influx)為時序數(shù)據(jù)庫的發(fā)展提供了巨大推動力。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    34473

    瀏覽量

    252016
  • 數(shù)據(jù)庫

    關注

    7

    文章

    3817

    瀏覽量

    64496
收藏 人收藏

    評論

    相關推薦

    時序數(shù)據(jù)庫TDengine 2024年保持高增長,實現(xiàn)收入翻倍

    近日,時序數(shù)據(jù)庫 (Time Series Database) TDengine 正式公布了 2024 年重大成就和發(fā)展成績盤點。在這一年中,TDengine 以持續(xù)創(chuàng)新的技術能力、迅猛增長的市場
    的頭像 發(fā)表于 01-02 13:50 ?113次閱讀
    <b class='flag-5'>時序數(shù)據(jù)庫</b>TDengine 2024年保持高增長,實現(xiàn)收入翻倍

    康謀分享 | 如何應對ADAS/AD海量數(shù)據(jù)處理挑戰(zhàn)?

    如何有效處理ADAS/AD海量數(shù)據(jù)并從中獲得見解?IVEX數(shù)據(jù)處理流程可自動從原始傳感器數(shù)據(jù)等輸入中識別出值得關注的事件和場景,推動
    的頭像 發(fā)表于 12-25 10:05 ?2289次閱讀
    康謀分享 | 如何應對ADAS/AD<b class='flag-5'>海量</b><b class='flag-5'>數(shù)據(jù)處理</b>挑戰(zhàn)?

    數(shù)據(jù)庫數(shù)據(jù)恢復—Mysql數(shù)據(jù)庫表記錄丟失的數(shù)據(jù)恢復流程

    Mysql數(shù)據(jù)庫故障: Mysql數(shù)據(jù)庫表記錄丟失。 Mysql數(shù)據(jù)庫故障表現(xiàn): 1、Mysql數(shù)據(jù)庫表中無任何數(shù)據(jù)或只有部分
    的頭像 發(fā)表于 12-16 11:05 ?175次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復—Mysql<b class='flag-5'>數(shù)據(jù)庫</b>表記錄丟失的<b class='flag-5'>數(shù)據(jù)</b>恢復流程

    群暉PB高密度存儲,滿足海量數(shù)據(jù)存儲、備份與存檔

    很多大型企業(yè),或是有海量數(shù)據(jù)存儲需求的企業(yè),對于PB數(shù)據(jù)存儲一直尋求運行穩(wěn)定、安全高效且高性價比的解決方案。PB
    的頭像 發(fā)表于 12-07 18:08 ?566次閱讀
    群暉<b class='flag-5'>PB</b><b class='flag-5'>級</b>高密度存儲,滿足<b class='flag-5'>海量</b><b class='flag-5'>數(shù)據(jù)</b>存儲、備份與存檔

    海量數(shù)據(jù)處理需要多少RAM內存

    海量數(shù)據(jù)處理所需的RAM(隨機存取存儲器)內存量取決于多個因素,包括數(shù)據(jù)的具體規(guī)模、處理任務的復雜性、數(shù)據(jù)庫管理系統(tǒng)的效率以及所使用軟件的優(yōu)
    的頭像 發(fā)表于 11-11 09:56 ?345次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復—通過拼接數(shù)據(jù)庫碎片恢復SQLserver數(shù)據(jù)庫

    一個運行在存儲上的SQLServer數(shù)據(jù)庫,有1000多個文件,大小幾十TB。數(shù)據(jù)庫每10天生成一個NDF文件,每個NDF幾百GB大小。數(shù)據(jù)庫包含兩個LDF文件。 存儲損壞,數(shù)據(jù)庫
    的頭像 發(fā)表于 10-31 13:21 ?255次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復—通過拼接<b class='flag-5'>數(shù)據(jù)庫</b>碎片恢復SQLserver<b class='flag-5'>數(shù)據(jù)庫</b>

    有云服務器還需要租用數(shù)據(jù)庫嗎?

    如果你的應用程序需要處理大量的數(shù)據(jù),并且這些數(shù)據(jù)需要高效的查詢和分析能力,那么租用專業(yè)的數(shù)據(jù)庫服務可能是更好的選擇。這些服務通常提供了更高的性能、更好的可擴展性和更強的
    的頭像 發(fā)表于 10-31 10:50 ?112次閱讀

    一文講清什么是分布式云化數(shù)據(jù)庫!

    分布式云化數(shù)據(jù)庫是一種先進的數(shù)據(jù)管理系統(tǒng),它將傳統(tǒng)的數(shù)據(jù)庫技術與分布式計算、云計算和大數(shù)據(jù)處理技術相融合。這種數(shù)據(jù)庫架構旨在提供高可用性、高
    的頭像 發(fā)表于 10-14 10:06 ?231次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復—SQL Server數(shù)據(jù)庫出現(xiàn)823錯誤的數(shù)據(jù)恢復案例

    SQL Server數(shù)據(jù)庫故障: SQL Server附加數(shù)據(jù)庫出現(xiàn)錯誤823,附加數(shù)據(jù)庫失敗。數(shù)據(jù)庫沒有備份,無法通過備份恢復數(shù)據(jù)庫
    的頭像 發(fā)表于 09-20 11:46 ?365次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復—SQL Server<b class='flag-5'>數(shù)據(jù)庫</b>出現(xiàn)823錯誤的<b class='flag-5'>數(shù)據(jù)</b>恢復案例

    小米試點業(yè)務系統(tǒng)上線OceanBase,數(shù)據(jù)庫性能飛躍新高度

    在科技日新月異的今天,小米集團作為全球領先的智能設備制造商,其業(yè)務的快速發(fā)展對底層技術架構提出了前所未有的挑戰(zhàn)。特別是在數(shù)據(jù)庫領域,面對海量數(shù)據(jù)處理、高并發(fā)訪問以及嚴苛的故障應對需求,傳統(tǒng)數(shù)據(jù)
    的頭像 發(fā)表于 07-03 15:39 ?683次閱讀

    雙向賦能:AI與數(shù)據(jù)庫的修行之道

    雖然硬件性能的提升為數(shù)據(jù)庫處理海量數(shù)據(jù)提供了基礎,但要真正發(fā)揮這些算力,需要對數(shù)據(jù)庫內核進行深度優(yōu)化。云和恩墨通過改進
    的頭像 發(fā)表于 06-28 23:07 ?482次閱讀
    雙向賦能:AI與<b class='flag-5'>數(shù)據(jù)庫</b>的修行之道

    數(shù)據(jù)庫數(shù)據(jù)恢復—raid5陣列上層Sql Server數(shù)據(jù)庫數(shù)據(jù)恢復案例

    數(shù)據(jù)庫數(shù)據(jù)恢復環(huán)境: 5塊硬盤組建一組RAID5陣列,劃分LUN供windows系統(tǒng)服務器使用。windows系統(tǒng)服務器內運行了Sql Server數(shù)據(jù)庫,存儲空間在操作系統(tǒng)層面劃分了三個邏輯分區(qū)
    的頭像 發(fā)表于 05-08 11:43 ?523次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復—raid5陣列上層Sql Server<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復案例

    時序數(shù)據(jù)庫是什么?時序數(shù)據(jù)庫的特點

    時序數(shù)據(jù)庫是一種在處理時間序列數(shù)據(jù)方面具有高效和專門化能力的數(shù)據(jù)庫。它主要用于存儲和處理時間序列數(shù)據(jù)
    的頭像 發(fā)表于 04-26 16:02 ?671次閱讀

    華為云原生多模數(shù)據(jù)庫 GeminiDB 架構與應用實踐

    近日,2023 全球分布式云大會·深圳站順利召開,華為云 NoSQL 數(shù)據(jù)庫研發(fā)總監(jiān)余汶龍在會上發(fā)表了題為《華為云原生多模數(shù)據(jù)庫 GeminiDB 架構與應用實踐》的精彩演講。 余汶龍
    的頭像 發(fā)表于 04-08 18:23 ?1187次閱讀
    <b class='flag-5'>華為</b>云原生多模<b class='flag-5'>數(shù)據(jù)庫</b> GeminiDB 架構與應用實踐

    數(shù)據(jù)庫數(shù)據(jù)恢復】Oracle數(shù)據(jù)庫ASM實例無法掛載的數(shù)據(jù)恢復案例

    oracle數(shù)據(jù)庫ASM磁盤組掉線,ASM實例不能掛載。數(shù)據(jù)庫管理員嘗試修復數(shù)據(jù)庫,但是沒有成功。
    的頭像 發(fā)表于 02-01 17:39 ?533次閱讀
    【<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復】Oracle<b class='flag-5'>數(shù)據(jù)庫</b>ASM實例無法掛載的<b class='flag-5'>數(shù)據(jù)</b>恢復案例