0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ClickHouse增強計劃之“資源隔離”

jf_ro2CN3Fa ? 來源:芋道源碼 ? 作者:芋道源碼 ? 2022-11-07 10:25 ? 次閱讀

相信大家都對大名鼎鼎的ClickHouse有一定的了解了,它強大的數(shù)據(jù)分析性能讓人印象深刻。但在字節(jié)大量生產(chǎn)使用中,發(fā)現(xiàn)了ClickHouse依然存在了一定的限制。例如:

  • 缺少完整的upsert和delete操作
  • 多表關聯(lián)查詢能力弱
  • 集群規(guī)模較大時可用性下降(對字節(jié)尤其如此)
  • 沒有資源隔離能力

因此,我們決定將ClickHouse能力進行全方位加強,打造一款更強大的數(shù)據(jù)分析平臺。后面我們將從五個方面來和大家分享,本篇將詳細介紹我們是如何為ClickHouse增強資源隔離能力的。

廣告業(yè)務遇到的資源管控問題

ClickHouse的資源管控能力不夠完善,在 insert、select 并發(fā)高的場景下會導致執(zhí)行失敗,影響用戶體驗。這是因為社區(qū)版ClickHouse目前僅提供依據(jù)不同用戶的最大內存控制,在超過閾值時會殺死執(zhí)行的 query。

在字節(jié)的廣告業(yè)務中,需要區(qū)分不同查詢的優(yōu)先級;對查詢性能抖動的容忍度較低;同時也需要支持adhoc能力;查詢類型廣泛、資源占用可能會較多。

ClickHouse提供的粗粒度并發(fā)控制不能滿足需求;

  1. 無法靈活控制并發(fā),導致查詢迅速占滿集群資源,部分后來的高優(yōu)查詢持續(xù)pending,導致報錯。
  2. 無法給特定業(yè)務預留cpu資源,出現(xiàn)大查詢占滿cpu,而后來的查詢執(zhí)行時間大幅增加。

ByteHouse的解決方案:Resource Group

在這種情況下,字節(jié)在ByteHouse(字節(jié)基于ClickHouse能力增強的版本)中開發(fā)了資源管理的組件:Resource Group。

基本思路是將并發(fā)、內存、CPU等資源拆分給不同的資源組,同時通過資源組的父子關系實現(xiàn)不同資源組共享部分資源的能力。當用戶的查詢提交給引擎,依照定義的規(guī)則選定相應的資源組,然后評估該資源組以及父資源組是否能夠執(zhí)行該查詢,如是則直接執(zhí)行,否則進入該資源組的等待隊列,等待資源釋放。

78d30704-5e42-11ed-a3b6-dac502259ad0.png

并發(fā)控制

max_concurrent_queries 配置項控制一個資源組能夠同時運行的查詢上限。當資源組并發(fā)達到上限,或者該資源組的父資源組并發(fā)達到上限,引擎會把查詢放入該資源組的等待隊列。當該資源組有一個查詢結束,引擎會執(zhí)行該資源組等待隊列中最早的查詢;如果此時該資源組等待隊列為空,則會觸發(fā)父資源組的資源釋放,進一步觸發(fā)該父資源組的其他子資源組的等待隊列查詢執(zhí)行,實現(xiàn)并發(fā)quota在一個父資源組之間的共享。

內存控制

每一個資源組可以配置一個軟性的內存上限,當資源組中的查詢使用內存超過這個軟性限制之后,新查詢將會進入等待隊列。和并發(fā)控制類似,內存也會判斷父資源組的限制,并使用類似的邏輯實現(xiàn)內存在一個父資源組之間的共享。

由于目前還沒有一個準確的查詢占用內存預估的模型,當前采取的策略是預估+實際內存矯正的模式,當一個新查詢進入時,引擎會按照預估內存評估是否可以執(zhí)行,在開始執(zhí)行之后則是利用查詢現(xiàn)有的memory_tracker在下一輪判斷之前矯正預估值。

此軟性的內存限制不同于原生ClickHouse的硬性內存限制,并不會殺死已經(jīng)在執(zhí)行的查詢,而是用于控制新查詢的可執(zhí)行判斷,因此可以配合使用。

CPU控制

ByteHouse使用cgroups提供的cpu controller實現(xiàn)資源組的CPU控制。Cpu controler通過使用 CFS 調度器將CPU資源按照相同的時間分片進行分配,以實現(xiàn)不同group按照預定義的cpu shares占用相應的CPU資源。

在ByteHouse內部,我們實現(xiàn)了一個新的線程池類,在該類中給查詢分配線程資源時,會依據(jù)當前Context中記錄的資源組信息分配關聯(lián)到相應cgroup的線程。

由于采用的CFS調度器,我們可以很容易的得到以下結論:

  1. 當所有資源組都有查詢在執(zhí)行時,每個資源組可以使用的CPU比例為 cpu_shares / sum(cpu_shares)

  2. 當只有一個資源組有查詢在執(zhí)行時,該資源組可以使用的CPU比例為 100%

因此每個資源組可以使用的CPU資源比例范圍就是 [cpu_shares/sum(cpu_shares), 100%],通過這個功能我們也就實現(xiàn)了兩個預期效果:

  1. 保證了每個資源可以使用的CPU資源下限

  2. 保證了在任何workload情況下服務器CPU資源的總體利用率

Resource Group帶來的效果提升

Resource Group能夠顯著的提升查詢體驗,為優(yōu)先業(yè)務的查詢提供保障,并且減小查詢返回時間的方差。與此同時,也能夠為集群穩(wěn)定性帶來提升,不會因為OOM殺死執(zhí)行中的查詢,以及防止一個服務出現(xiàn)故障而拖垮整個集群。

ByteHouse的Resource Group主要有以下優(yōu)點:

  • 能夠在CPU、內存、并發(fā)控制等全方位的提供資源隔離的能力

  • 可以限制低優(yōu)先級查詢帶來的影響

  • 降低寫入語句可能帶來的不良影響

在上文提到的廣告業(yè)務中,使用ByteHouse替換ClickHouse后,查詢時間明顯縮短,體驗明顯改善。

78e15cbe-5e42-11ed-a3b6-dac502259ad0.png

應用前:

790c8dc6-5e42-11ed-a3b6-dac502259ad0.png

應用后:

792f612a-5e42-11ed-a3b6-dac502259ad0.png

可以看到上線前用戶每天的查詢平均耗時在2.3s到14.1s之間抖動,十分劇烈,用戶的使用體驗很差。上線后每天的查詢平均耗時則在0.4s到1.7s之之間抖動,較好的保證了該優(yōu)先業(yè)務的查詢資源,并且顯著縮短的平均查詢返回時間。

這是本次ClickHouse增強計劃系列文章的最后一篇啦,除了這五篇文章提到的能力,ByteHouse還有有一個與ClickHouse使用不同執(zhí)行引擎的版本,能夠實現(xiàn)全面的存算分離,是真正的云原生數(shù)據(jù)倉庫!后續(xù)我們也將為大家?guī)?a href="http://wenjunhu.com/article/zt/" target="_blank">專題介紹。

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內存
    +關注

    關注

    8

    文章

    3025

    瀏覽量

    74060
  • 資源
    +關注

    關注

    0

    文章

    59

    瀏覽量

    17787
  • 數(shù)據(jù)分析

    關注

    2

    文章

    1449

    瀏覽量

    34060

原文標題:火山引擎:ClickHouse增強計劃之“資源隔離”

文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ClickHouse:強大的數(shù)據(jù)分析引擎

    作者:京東物流 陳昌浩 最近的工作中接觸到CK,一開始還不知道CK是什么,通過查詢才知道CK是ClickHouse,ClickHouse 是俄羅斯的Yandex于2016年開源的列式存儲數(shù)據(jù)庫
    的頭像 發(fā)表于 12-10 10:23 ?78次閱讀
    <b class='flag-5'>ClickHouse</b>:強大的數(shù)據(jù)分析引擎

    TPSI3050Q1EVM汽車類增強隔離式開關驅動器

    電子發(fā)燒友網(wǎng)站提供《TPSI3050Q1EVM汽車類增強隔離式開關驅動器.pdf》資料免費下載
    發(fā)表于 11-16 15:11 ?0次下載
    TPSI3050Q1EVM汽車類<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>式開關驅動器

    ISO1644DWEVM具有GPIO的增強隔離式I2C評估模塊

    電子發(fā)燒友網(wǎng)站提供《ISO1644DWEVM具有GPIO的增強隔離式I2C評估模塊.pdf》資料免費下載
    發(fā)表于 11-16 14:00 ?0次下載
    ISO1644DWEVM具有GPIO的<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>式I2C評估模塊

    ISO224增強隔離放大器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ISO224增強隔離放大器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-19 11:34 ?0次下載
    ISO224<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>放大器數(shù)據(jù)表

    AMC1351-Q1汽車精密增強隔離放大器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1351-Q1汽車精密增強隔離放大器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-19 11:33 ?0次下載
    AMC1351-Q1汽車精密<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>放大器數(shù)據(jù)表

    AMC1350-Q1汽車精密增強隔離放大器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1350-Q1汽車精密增強隔離放大器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-19 11:32 ?0次下載
    AMC1350-Q1汽車精密<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>放大器數(shù)據(jù)表

    AMC1305x高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1305x高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-19 10:13 ?0次下載
    AMC1305x高精度、<b class='flag-5'>增強</b><b class='flag-5'>隔離</b>式Δ-Σ調制器數(shù)據(jù)表

    AMC1304x具有LDO的高精度、增強隔離式 Δ-Σ調制器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1304x具有LDO的高精度、增強隔離式 Δ-Σ調制器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-19 09:44 ?0次下載
    AMC1304x具有LDO的高精度、<b class='flag-5'>增強</b><b class='flag-5'>隔離</b>式 Δ-Σ調制器數(shù)據(jù)表

    AMC1350精密增強隔離放大器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1350精密增強隔離放大器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-16 11:24 ?0次下載
    AMC1350精密<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>放大器數(shù)據(jù)表

    AMC1303x小型、高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1303x小型、高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-16 09:36 ?0次下載
    AMC1303x小型、高精度、<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>式Δ-Σ調制器數(shù)據(jù)表

    AMC1306x小型、高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《AMC1306x小型、高精度、增強隔離式Δ-Σ調制器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-16 09:34 ?0次下載
    AMC1306x小型、高精度、<b class='flag-5'>增強</b>型<b class='flag-5'>隔離</b>式Δ-Σ調制器數(shù)據(jù)表

    供應鏈場景使用ClickHouse最佳實踐

    關于ClickHouse的基礎概念這里就不做太多的贅述了,ClickHouse官網(wǎng)都有很詳細說明。結合供應鏈數(shù)字化團隊在使用ClickHouse時總結出的一些注意事項,尤其在命名方面要求研發(fā)嚴格遵守
    的頭像 發(fā)表于 07-18 15:05 ?291次閱讀
    供應鏈場景使用<b class='flag-5'>ClickHouse</b>最佳實踐

    ClickHouse內幕(3)基于索引的查詢優(yōu)化

    ClickHouse索引采用唯一聚簇索引的方式,即Part內數(shù)據(jù)按照order by keys有序,在整個查詢計劃中,如果算子能夠有效利用輸入數(shù)據(jù)的有序性,對算子的執(zhí)行性能將有巨大的提升。本文討論
    的頭像 發(fā)表于 06-11 10:46 ?1025次閱讀
    <b class='flag-5'>ClickHouse</b>內幕(3)基于索引的查詢優(yōu)化

    增強隔離雙通道門驅動器UCC2154x數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《增強隔離雙通道門驅動器UCC2154x數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 03-28 13:52 ?0次下載
    <b class='flag-5'>增強</b><b class='flag-5'>隔離</b>雙通道門驅動器UCC2154x數(shù)據(jù)表

    【技術分享】基本隔離 vs 增強隔離,到底有什么區(qū)別?#電氣隔離 #電氣安全

    電氣電氣隔離
    蘇州納芯微電子股份有限公司
    發(fā)布于 :2024年03月14日 13:30:48