波多野たの结衣a片1126,久久精品国产欧美亚洲人人爽 ,女人热人av三级精品

對于彈性伸縮和高可用的系統(tǒng)來說，一般有大量的指標數據需要收集和存儲，如何為這樣的系統(tǒng)打造一個監(jiān)控方案呢?本文介紹了如何使用 Thanos+Prometheus+Grafana 構建監(jiān)控系統(tǒng)。

集群容量概覽

直到今年 1 月，我一直在使用一款企業(yè)級監(jiān)控解決方案來監(jiān)控 Kubernetes 集群，這款監(jiān)控方案還用于 APM。它用起來很自然，與 Kubernetes 的集成非常容易，只需要進行一些細微的調整，并且可以集成 APM 和基礎設施指標。

盡管這款監(jiān)控方案可以很容易地收集和存儲數據，但使用指標創(chuàng)建警報卻有很大的查詢限制。經常我們收到的告警和儀表盤上顯示的內容會不一樣。更不用說我們有 6 個集群，收集和存儲的指標數量非常多，這在很大程度上增加了我們的經濟成本。

經過一番考慮，我們認識到繼續(xù)使用這款監(jiān)控方案弊大于利。是時候替換我們的監(jiān)控方案了!但是，該使用什么產品或者工具呢?Grafana 是可視化工具的最佳選項，但我們的“后端”需要具備彈性伸縮和高可用能力，該使用什么工具呢?

純粹使用 OpenTSDB 的話，安裝需要太多的工作和精力;單機 Prometheus 不提供復制能力，還需要為其配備多個數據庫;TimeScaleDB 看起來不錯，但我不太會使用 PostgreSQL。

在對以上這些方案進行了一些實驗后，我查看了 CNCF 網站，最后找到了 Thanos!它滿足我們所有的需求：可長期保留數據、可復制、高可用、適合微服務、對使用相同數據庫的所有集群有一個 global view!

架構

我們的集群上沒有可用的持久化存儲(所有服務都保持無狀態(tài))，所以默認的 Prometheus + Thanos sidecar 方法不可用，metric 存儲必須置于集群之外。此外，集群之間相互隔離，將 Thanos 組件綁定到一組特定的集群是不可能的，必須從“外部”監(jiān)控集群。

綜上所述，考慮到高可用性以及 Thanos 在虛擬機上運行的可能性，我們最終的架構是這樣的：

如圖所示，我們是多數據中心的架構。其中每個中心都有一組 Grafana + Query 服務器，一組存儲服務器和三個 Receive 服務器(集群數量的一半)。

Grafana 使用的數據庫還有一個 AWS RDS。這個數據庫不必很龐大(降低成本)，我們團隊也不需要管理 MySQL。

在 Thanos 提供的所有組件中，我們實現了其中的 4 個：

Receive：負責 TSDB，還管理所有運行 receive 的服務器和 TSBD 塊上傳到 S3 之間的復制。

Query：負責查詢 receive 數據庫。

Store：讀取 S3 以獲取不再存儲在 receive 中的長期 metrics。

Compactor：管理存儲在 S3 中的 TSDB 塊的數據下采樣和壓縮。

Data Ingestion

所有集群的 data ingestion 都由集群內運行的專用 Prometheus Pod 管理。它從 control plate(API 服務器、控制器和調度程序)、etcd 集群以及集群內的 Pod 收集指標，這些集群內具有與基礎設施和 Kubernetes 本身相關的指標(Kube-proxy、Kubelet、Node Exporter、State Metrics 、Metrics Server 和其他具有 scraping annotation 的 Pod)。

Prometheus Pod 然后將信息發(fā)送到使用遠程存儲配置管理 TSDB 的 receive 服務器之一。

data ingestion

所有數據都發(fā)送到單個服務器，然后復制到其他服務器。Prometheus 使用的 DNS 地址是一個 DNS GSLB，它探測每個 receive 服務器并平衡健康的服務器之間的 DNS 解析，在所有服務器之間分擔負載，因為 DNS 解析只為每個 DNS 查詢提供一個 IP。

需要強調一下，數據必須發(fā)送到單個 receive 實例并讓它管理復制，發(fā)送相同的 metric 會導致復制失敗和行為異常。

在這個層面上，metrics 也會上傳到 S3 存儲桶進行長期留存。Receive 每 2 小時(當每個 TSDB 塊關閉時)上傳一次 block，這些 metric 可用于使用 Store 組件進行查詢。

還可以設置本地數據的保留時間。在這種情況下，所有本地數據都會保留 30 天以供日常使用和故障排除，這樣可以加快查詢速度。

超過 30 天的數據僅在 S3 上可用，最長可保留 1 年，用于長期評估和比較。

數據查詢

數據被收集并存儲在 receiver 中以供查詢。這部分也設置為多數據中心可用。

每臺服務器都運行 Grafana 和 Query，如果其中一臺(或兩臺)出現故障，我們可以更輕松地從負載均衡器中識別并刪除。在 Grafana 中，數據源配置為 localhost，因此它始終使用本地 Query 來獲取數據。

對于查詢配置，它必須知道所有存儲了 metrics 的服務器(Receiver 和 Store)。query 組件知道哪個服務器在線并且能夠從它們收集 metrics。

數據查詢

它還管理重復數據刪除，因為它查詢所有服務器并配置了 replication，所有 metrics 都有多個副本?？梢允褂梅峙浣o metrics 的標簽和查詢參數 (--query.replica-label=QUERY.REPLICA-LABEL) 來完成。通過這些配置，query 組件知道從 Receiver 和 Store 收集的 metrics 是否重復并僅使用一個數據點。

長期數據

如前所述，數據在本地最多保留 30 天，其他所有內容都存儲在 S3 上。這樣可以減少 Receiver 上所需的空間量并降低成本，因為塊存儲比對象存儲更貴。更何況查詢超過 30 天的數據不是很常見，主要用于資源使用歷史和預測。

遠程數據查詢

該 Store 還保留存儲在 S3 存儲桶上的每個 TSDB 塊的索引的本地副本，因此如果需要查詢超過 30 天的數據，它知道要下載和使用哪些塊來提供數據。

數據情況

考慮到所有集群，該監(jiān)控方案：

監(jiān)控了 6 個 Kubernetes 集群;

收集了 670 個服務的 metrics;

使用 Node Exporter 監(jiān)控了 246 個服務器;

每分鐘收集約 27w 個指標;

每天 ingest 約 7.3 GB 的數據，或每月 ingest 約 226.3 GB 的數據;

為 Kubernetes 組件創(chuàng)建了 40 個專用儀表盤;

在 Grafana 上創(chuàng)建了 116 個警報。

對于每月費用，由于大部分組件在本地運行，成本降低了 90.61%，從每月 38,421.25 美元降至 3,608.99 美元，其中包括 AWS 服務成本。

總結

配置和設置上述架構大約需要一個月左右的時間，包括測試其他一些解決方案、驗證架構、實現、在集群上開啟收集以及創(chuàng)建所有儀表盤。

在第一周，好處是顯而易見的。監(jiān)控集群變得更加容易，儀表盤可以快速構建和定制，收集 metrics 幾乎是即插即用的，大多數應用程序以 Prometheus 格式導出 metrics，并根據 annotations 自動收集。

此外，通過集成 Grafana 的 LDAP 可以達到更精細的團隊權限控制。開發(fā)人員和 SRE 可以訪問大量儀表盤，其中包含有關其命名空間、ingress 等的相關 metrics。

原文標題：使用 Thanos 和 Prometheus 打造一個高可用的 Kubernetes 監(jiān)控系統(tǒng)

文章出處：【微信公眾號：馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

監(jiān)控系統(tǒng)

監(jiān)控系統(tǒng)

+關注

關注
21

文章
3914

瀏覽量
174687
kubernetes

kubernetes

+關注

關注
0

文章
224

瀏覽量
8715
Prometheus

Prometheus

+關注

關注
0

文章
27

瀏覽量
1716

原文標題：使用 Thanos 和 Prometheus 打造一個高可用的 Kubernetes 監(jiān)控系統(tǒng)

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

Prometheus的架構原理從“監(jiān)控”談起

Prometheus是繼Kubernetes（k8s）之后，CNCF畢業(yè)的第二個開源項目，其來源于Google的Borgmon。本文從監(jiān)控這件事說起，深入淺出Prometheus的架構原理、目標發(fā)現

發(fā)表于 10-10 15:47 ?4485次閱讀

<b class='flag-5'>Prometheus</b>的架構原理從“<b class='flag-5'>監(jiān)控</b>”談起

Prometheus的基本原理與開發(fā)指南

? 導讀??? ? 本文由梯度科技云管研發(fā)部高級工程師周宇明撰寫，共分為7章，緊密圍繞Prometheus的基本原理與開發(fā)指南展開介紹： 監(jiān)控系統(tǒng)概述 Prometheus入門 Pro

發(fā)表于 11-09 10:45 ?1126次閱讀

<b class='flag-5'>Prometheus</b>的基本原理與開發(fā)指南

阿里云容器Kubernetes監(jiān)控(二) - 使用Grafana展現Pod監(jiān)控數據

摘要：簡介在kubernetes的監(jiān)控方案中，Heapster+Influxdb+Grafana的組合相比prometheus等開源方案而言更為簡單直接。而且Heapster在

發(fā)表于 05-10 15:28

prometheus做監(jiān)控服務的整個流程介紹

最近有個新項目需要搞一套完整的監(jiān)控告警系統(tǒng)，我們使用了開源監(jiān)控告警系統(tǒng)Prometheus；其功能強大，可以很方便對其進行擴展，并且可以安裝

發(fā)表于 12-23 17:34

簡述linux-arm64 UOS安裝開源Grafana的步驟

（linux-arm64）UOS安裝開源Grafana-7.2.0,和CentOS安裝步驟一樣Grafana是一款用Go語言開發(fā)的開源數據可視化工具，可以做數據監(jiān)控和數據統(tǒng)計，帶有告警功能，支持

發(fā)表于 06-16 15:00

Prometheus、InfluxDB與Grafana打造監(jiān)控平臺怎么樣

在本文中，我將把幾個常用的監(jiān)控部分給梳理一下。前面我們提到過，在性能監(jiān)控圖譜中，有操作系統(tǒng)、應用服務器、中間件、隊列、緩存、數據庫、網絡、前端、負載均衡、Web 服務器、存儲、代碼等很多需要監(jiān)

發(fā)表于 11-01 10:05 ?1674次閱讀

Thanos大規(guī)模Prometheus集群解決方案

thanos.zip

發(fā)表于 04-25 10:58 ?0次下載

Prometheus服務監(jiān)控系統(tǒng)

prometheus.zip

發(fā)表于 04-26 10:23 ?3次下載

關于Prometheus監(jiān)控系統(tǒng)相關的知識體系

今天浩道跟大家分享關于Prometheus監(jiān)控系統(tǒng)相關的知識體系，讓你通過本文可以大體掌握其相關知識體系！

發(fā)表于 10-20 09:06 ?1198次閱讀

SpringBoot+Prometheus+Grafana實現自定義監(jiān)控

為 /actuator/Prometheus 的 HTTP 服務來供 Prometheus 抓取數據，不過默認該服務是關閉的，該配置將打開所有的 Actuator 服務。

發(fā)表于 12-26 16:02 ?1665次閱讀

prometheus下載安裝教程

Prometheus 是一個開放性的監(jiān)控解決方案，用戶可以非常方便的安裝和使用 Prometheus 并且能夠非常方便的對其進行擴展。在Prometheus的架構設計中，

發(fā)表于 01-13 16:07 ?8030次閱讀

Grafana 9泰酷了吧

Grafana 9.0 的主要重點是改善 Grafana 的用戶體驗，使可觀察性和數據可視化更易用也更容易獲得。無論是通過 Prometheus 和 Loki 可視化查詢生成器還是面板和儀表板搜索

發(fā)表于 05-30 11:30 ?561次閱讀

基于kube-prometheus的大數據平臺監(jiān)控系統(tǒng)設計

本文介紹了如何基于 kube-prometheus 設計一個監(jiān)控系統(tǒng)，以靈活簡單的方式對 kubernetes 上的應用進行指標采集，并實現監(jiān)控報警功能。

發(fā)表于 05-30 17:02 ?677次閱讀

40個步驟安裝部署Prometheus監(jiān)控系統(tǒng)

Prometheus是一套開源的監(jiān)控&報警&時間序列數據庫的組合，起始是由SoundCloud公司開發(fā)的。隨著發(fā)展，越來越多公司和組織接受采用Prometheus，社區(qū)也十分活躍，他們便將它獨立成開源項目，并且有公司來運作。

發(fā)表于 08-14 11:53 ?5.2w次閱讀

基于Prometheus開源的完整監(jiān)控解決方案

每一個被 Prometheus 監(jiān)控的服務都是一個 Job，Prometheus 為這些 Job 提供了官方的 SDK ，利用這個 SDK 可以自定義并導出自己的業(yè)務指標，也可以

發(fā)表于 10-18 09:15 ?486次閱讀