新型電力系統(tǒng)—電網端監(jiān)控方案
1.新能源的頻率與系統(tǒng)頻率相同。
2. 新能源出口電壓與系統(tǒng)電壓相同,其最大誤差應在5%以內。
3. 新能源相序與系統(tǒng)相序相同。
4.新能源電壓相位與系統(tǒng)電壓相位一致。
運維平臺- 監(jiān)控系統(tǒng)
設計方案
一、概述
監(jiān)控系統(tǒng)是一種可以對特定設備、網絡、應用程序或服務進行實時監(jiān)控和管理的技術。監(jiān)控系統(tǒng)的主要目的是檢測和識別系統(tǒng)或服務的故障或異常,以便能夠在問題發(fā)生之前識別和糾正它們。監(jiān)控系統(tǒng)可以幫助企業(yè)或組織實時了解其系統(tǒng)或服務的健康狀況,并做出相應的決策。
二、監(jiān)控系統(tǒng)通常由以下幾個組成部分:
1.數(shù)據(jù)采集:
它們是在設備或服務上安裝的軟件或硬件組件,它們收集數(shù)據(jù)并將其發(fā)送到監(jiān)控系統(tǒng)進行處理和分析。
2.數(shù)據(jù)服務器:
它們是處理和存儲來自監(jiān)控代理的數(shù)據(jù)的計算機。監(jiān)控服務器通常擁有強大的計算能力和存儲能力,以便處理和存儲大量的監(jiān)控數(shù)據(jù)。
3.HMI控制臺:
它是監(jiān)控系統(tǒng)的用戶界面,通常是一個應用程序或客戶端,用戶可以通過它來查看系統(tǒng)或服務的實時狀態(tài)、性能和運行狀況,以及查看歷史數(shù)據(jù)和生成報告等。
監(jiān)控系統(tǒng)通??梢员O(jiān)控網絡流量、服務器資源使用率、應用程序性能、安全事件和用戶活動等方面的數(shù)據(jù)。這些數(shù)據(jù)可以用來識別潛在的問題并及時解決它們,從而提高系統(tǒng)的可靠性、性能和安全性。
4.監(jiān)控目標
監(jiān)控系統(tǒng)的目標是提供實時、準確的系統(tǒng)性能和狀態(tài)數(shù)據(jù),以幫助管理員和運維人員及時發(fā)現(xiàn)和解決問題,從而實現(xiàn)以下幾個目標:
預防系統(tǒng)故障:
監(jiān)控系統(tǒng)可以及早發(fā)現(xiàn)系統(tǒng)中的異常,如網絡擁塞、硬件故障、軟件崩潰等,從而提前預防系統(tǒng)故障,減少停機時間和對業(yè)務的影響。
提高系統(tǒng)性能:
監(jiān)控系統(tǒng)可以檢測系統(tǒng)性能瓶頸和資源利用率,優(yōu)化系統(tǒng)配置和調整資源分配,從而提高系統(tǒng)的性能和可擴展性。
5.提高系統(tǒng)安全性:
監(jiān)控系統(tǒng)可以檢測安全事件和攻擊,如惡意軟件、入侵、數(shù)據(jù)泄漏等,從而及時采取安全措施,保護系統(tǒng)和數(shù)據(jù)的安全性。
6.優(yōu)化運維效率:
監(jiān)控系統(tǒng)可以自動化和簡化監(jiān)控和管理任務,減少人工干預,從而提高運維效率和降低管理成本。
7.改進用戶體驗:
監(jiān)控系統(tǒng)可以檢測應用程序或服務的性能和可用性,從而幫助企業(yè)或組織提高用戶體驗,提高用戶滿意度。
8.監(jiān)控系統(tǒng)的目標:
是為企業(yè)或組織提供實時的系統(tǒng)性能和狀態(tài)數(shù)據(jù),從而提高系統(tǒng)的可靠性、性能、安全性和用戶體驗,同時也為企業(yè)或組織提供更高效、更可靠的運維管理和資源利用方式。
9.監(jiān)控作用和價值
監(jiān)控系統(tǒng)是運維系統(tǒng)或平臺系統(tǒng)中較為核心的組成部分,它承載了運維工作中數(shù)據(jù)閉環(huán)的部分。從功能角度,監(jiān)控系統(tǒng)分為數(shù)據(jù)采集功能、數(shù)據(jù)上報功能、數(shù)據(jù)存儲功能、告警功能、大屏功能、報表功能等功能模塊;從技術場景角度,監(jiān)控系統(tǒng)又可以分為機房監(jiān)控、硬件監(jiān)控、網絡監(jiān)控、操作系統(tǒng)監(jiān)控、中間件監(jiān)控、云平臺監(jiān)控、業(yè)務監(jiān)控、撥測監(jiān)控等垂直技術領域;從業(yè)務場景角度,監(jiān)控系統(tǒng)還可以分為資源類監(jiān)控、成本類監(jiān)控、審計類監(jiān)控、質量類監(jiān)控、運營類監(jiān)控、安全類監(jiān)控等垂直業(yè)務領域。
監(jiān)控系統(tǒng)在現(xiàn)代互聯(lián)網技術中具有非常重要的作用和價值,主要體現(xiàn)在以下方面:
系統(tǒng)可靠性和穩(wěn)定性:
監(jiān)控系統(tǒng)可以實時監(jiān)測系統(tǒng)的運行狀態(tài)、性能指標和錯誤日志,及時發(fā)現(xiàn)故障并進行處理,從而保證系統(tǒng)的可靠性和穩(wěn)定性。
性能優(yōu)化:
監(jiān)控系統(tǒng)可以通過分析性能數(shù)據(jù),發(fā)現(xiàn)系統(tǒng)中的瓶頸和性能瓶頸,從而進行優(yōu)化和改進,提高系統(tǒng)的性能和響應速度。
安全保障:
監(jiān)控系統(tǒng)可以監(jiān)測網絡流量、安全日志和異常事件,發(fā)現(xiàn)和處理安全威脅,提高系統(tǒng)的安全性和防御能力。
預測性維護:
監(jiān)控系統(tǒng)可以通過收集和分析設備傳感器數(shù)據(jù),預測設備故障,并及時進行維護,避免設備損壞和停機造成的損失。
費用控制:監(jiān)控系統(tǒng)可以通過數(shù)據(jù)分析和自動化處理,提高管理效率,減少不必要的人工成本和管理費用。
決策支持:監(jiān)控系統(tǒng)可以提供實時數(shù)據(jù)和分析結果,幫助管理者進行決策,優(yōu)化業(yè)務流程和提高管理效率。
監(jiān)控系統(tǒng)可以幫助企業(yè)和組織提高系統(tǒng)可靠性、性能、安全性和效率,降低成本和風險,為企業(yè)和組織的業(yè)務發(fā)展提供有力的支持和保障。
在穩(wěn)定性保障體系中,核心就是在干一件事,減少故障。我們可以看一下故障的生命周期:
減少故障有兩個層面的意思,一個是做好常態(tài)預防,不讓故障發(fā)生;另一個是如果故障發(fā)生,要能盡快止損,減少故障時長。而監(jiān)控的典型作用,就是幫助我們發(fā)現(xiàn)及定位故障,這兩個環(huán)節(jié)對于減少故障時長至關重要。
運維人員和研發(fā)人員是典型的關注穩(wěn)定性的人,不過側重點不同。發(fā)生故障的時候,運維人員更希望快速找到問題根因,及時止損。而研發(fā)人員,更希望能“自證清白”。不管出于何種目的,監(jiān)控都是不可或缺的工具。
其實,監(jiān)控的作用還有很多,比如用于日常巡檢,作為性能調優(yōu)的數(shù)據(jù)佐證,提前發(fā)現(xiàn)一些設備、中間件不合理的配置。
隨著時代的發(fā)展,監(jiān)控也從最開始的一句話需求 -- 及時感知系統(tǒng)出現(xiàn)的問題,發(fā)展到了希望預知問題,并且可以洞察業(yè)務經營數(shù)據(jù),越來越多的訴求讓我們逐漸意識到監(jiān)控的重要作用。
10.業(yè)界主流監(jiān)控系統(tǒng)
現(xiàn)在運維監(jiān)控工具非常多,對于監(jiān)控系統(tǒng)的選型需要充分了解其優(yōu)缺點再做決定。
11.數(shù)據(jù)處理能力
對于大規(guī)模和高復雜性的監(jiān)控場景可能需要更為專業(yè)和靈活的監(jiān)控系統(tǒng)。
警報功能 功能相對有限,不能實現(xiàn)復雜的警報規(guī)則和多種警報通知方式。
界面視覺效果較弱:相對于其他監(jiān)控系統(tǒng),界面視覺效果較弱,不夠美觀和易用。i適用于中小型網絡和系統(tǒng)管理,可以幫助用戶監(jiān)控其IT基礎設施和應用程序的性能和可用性。但是,對于大規(guī)模和高復雜性的監(jiān)控場景,可能需要更為專業(yè)和靈活的監(jiān)控系統(tǒng)。
三、大規(guī)模和高復雜性的監(jiān)控場景監(jiān)控系統(tǒng)
1.監(jiān)控指標
硬件監(jiān)控、系統(tǒng)監(jiān)控、應用監(jiān)控、網絡監(jiān)控、流量分析、日志監(jiān)控、安全監(jiān)控、API監(jiān)控、性能監(jiān)控、業(yè)務監(jiān)控。
2.硬件監(jiān)控
查看硬件設備燈光閃爍情況判斷是否故障
通過對硬件詳細情況進行監(jiān)控,并對電壓電流等設置報警設置報警閾值。
3.系統(tǒng)監(jiān)控
監(jiān)控系統(tǒng)資源的使用情況,系統(tǒng)監(jiān)控是監(jiān)控體系的基礎。
4.應用監(jiān)控
硬件監(jiān)控和系統(tǒng)監(jiān)控和相關的服務都需要監(jiān)控起來。
5.網絡監(jiān)控
網絡監(jiān)控是監(jiān)控平臺是必須要考慮的,監(jiān)控點可以借助很多商業(yè)的監(jiān)控工具,服務提供商還可以幫助你監(jiān)控狀態(tài)。
6.日志監(jiān)控
通常情況下,隨著系統(tǒng)的運行,操作系統(tǒng)會產生系統(tǒng)日志,應用程序會產生應用程序的訪問日志、錯誤日志,運行日志,網絡日志,我們可以進行日志監(jiān)控。
7.安全監(jiān)控
數(shù)據(jù)庫、配置檢測、全面檢測主機、Web應用漏洞自主挖掘和行業(yè)共享相結合漏洞,杜絕最新安全隱患。
8.API監(jiān)控
由于API變得越來越重要,很顯然我們也需要這樣的數(shù)據(jù)來分辨我們提供的 API是否能夠正常運作。
9.性能監(jiān)控
全面監(jiān)控網頁性能,響應時間、建立連接時間、頁面性能指數(shù)、響應時間、可用率、元素大小等。
10.業(yè)務監(jiān)控
沒有業(yè)務指標監(jiān)控的監(jiān)控平臺,不是一個完善的監(jiān)控平臺,通常在我們的監(jiān)控系統(tǒng)中,必須將我們重要的業(yè)務指標進行監(jiān)控,并設置閾值進行告警通知。
重要指標都可以通過監(jiān)控系統(tǒng)進行監(jiān)控展示。
11.監(jiān)控系統(tǒng)設計
運維監(jiān)控平臺不是簡單的監(jiān)控的環(huán)境。
構建一個智能的運維監(jiān)控平臺,必須以運行監(jiān)控和故障報警這兩個方面為重點,將所有業(yè)務系統(tǒng)中所涉及的網絡資源、硬件資源、軟件資源、數(shù)據(jù)庫資源等納入統(tǒng)一的運維監(jiān)控平臺中,并通過消除管理軟件的差別,數(shù)據(jù)采集手段的差別,對各種不同的數(shù)據(jù)來源實現(xiàn)統(tǒng)一管理、統(tǒng)一規(guī)范、統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一用戶登錄、統(tǒng)一權限控制,最終實現(xiàn)運維規(guī)范化、自動化、智能化的大運維管理。
智能的運維監(jiān)控平臺,設計架構分為6層,三大模塊。
數(shù)據(jù)收集層:位于最底層,主要收集網絡數(shù)據(jù)、業(yè)務系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、操作系統(tǒng)數(shù)據(jù)等,然后將收集到的數(shù)據(jù)進行規(guī)范化并進行存儲。
數(shù)據(jù)展示層:位于第二層,是一個Web展示界面,主要是將數(shù)據(jù)收集層獲取到的數(shù)據(jù)進行統(tǒng)一展示,展示的方式可以是曲線圖、柱狀圖、餅狀態(tài)等,通過將數(shù)據(jù)圖形化,可以幫助運維人員了解一段時間內主機或網絡的運行狀態(tài)和運行趨勢,并作為運維人員排查問題或解決問題的依據(jù)。
數(shù)據(jù)提取層:位于第三層,主要是對從數(shù)據(jù)收集層獲取到的數(shù)據(jù)進行規(guī)格化和過濾處理,提取需要的數(shù)據(jù)到監(jiān)控報警模塊,這個部分是監(jiān)控和報警兩個模塊的銜接點。
報警規(guī)則配置層:位于第四層,主要是根據(jù)第三層獲取到的數(shù)據(jù)進行報警規(guī)則設置、報警閥值設置、報警聯(lián)系人設置和報警方式設置等。
報警事件生成層:位于第五層,主要是對報警事件進行實時記錄,將報警結果存入數(shù)據(jù)庫以備調用,并將報警結果形成分析報表,以統(tǒng)計一段時間內的故障率和故障發(fā)生趨勢。
用戶展示管理層:位于最頂層,是一個Web展示界面,主要是將監(jiān)控統(tǒng)計結果、報警故障結果進行統(tǒng)一展示,并實現(xiàn)多用戶、多權限管理,實現(xiàn)統(tǒng)一用戶和統(tǒng)一權限控制。
從功能實現(xiàn)劃分,又分為三個模塊,分別是數(shù)據(jù)收集模塊、數(shù)據(jù)提取模塊和監(jiān)控報警模塊,每個模塊完成的功能如下:
數(shù)據(jù)收集模塊:此模塊主要完成基礎數(shù)據(jù)的收集與圖形展示。數(shù)據(jù)收集的方式有很多種,可以通過代理模塊實現(xiàn),還可以通過自定義腳本實現(xiàn)。
數(shù)據(jù)提取模塊:此模板主要完成數(shù)據(jù)的篩選過濾和采集,將需要的數(shù)據(jù)從數(shù)據(jù)收集模塊提取到監(jiān)控報警模塊中??梢酝ㄟ^數(shù)據(jù)收集模塊提供的接口或自定義腳本實現(xiàn)數(shù)據(jù)的提取。
監(jiān)控報警模塊:此模塊主要完成監(jiān)控腳本的設置、報警規(guī)則設置,報警閥值設置、報警聯(lián)系人設置等,并將報警結果進行集中展現(xiàn)和歷史記錄。
四、通過軟件實現(xiàn)智能運維監(jiān)控系統(tǒng)。
其中,數(shù)據(jù)提取模塊用于其他兩個模塊之間的數(shù)據(jù)通信,而數(shù)據(jù)收集模塊可以有一臺或多臺數(shù)據(jù)收集服務器組成,每個數(shù)據(jù)收集服務器可以直接從服務器群組收集各種數(shù)據(jù)指標,經過規(guī)范數(shù)據(jù)格式,最終將數(shù)據(jù)存儲到數(shù)據(jù)收集服務器中。
監(jiān)控報警模塊通過數(shù)據(jù)抽取模塊從數(shù)據(jù)收集服務器獲取需要的數(shù)據(jù),然后設置報警閥值、報警聯(lián)系人等,最終實現(xiàn)實時報警。報警方式支持手機短信報警、郵件報警等,另外,也可以通過插件或者自定義腳本來擴展報警方式。這樣一整套監(jiān)控報警平臺就基本實現(xiàn)了。
監(jiān)控系統(tǒng)的關鍵技術主要有如下5點:
1、采集器
采集器決定了監(jiān)控數(shù)據(jù)的來源,采集器的好壞決定了監(jiān)控數(shù)據(jù)的覆蓋面、數(shù)據(jù)質量和及時性。一個好的監(jiān)控系統(tǒng)應該配備大量針對常見技術場景的采集器,并提供方便的自定義數(shù)據(jù)接口。標準場景的監(jiān)控數(shù)據(jù)占所有監(jiān)控數(shù)據(jù)的 70% 左右,大量的標準采集器可以大大降低監(jiān)控系統(tǒng)的持有成本;自定義監(jiān)控數(shù)據(jù)占所有監(jiān)控數(shù)據(jù)的 30% 左右,設計良好的自定義監(jiān)控數(shù)據(jù)接口可以更好的調度、組織和收集自定義數(shù)據(jù)源,并為后續(xù)的二次開發(fā)工作夯實工程基礎。
采集器負責采集監(jiān)控數(shù)據(jù),有兩種典型的部署方式,一種是跟隨監(jiān)控對象部署,比如所有的機器上都部署一個采集器,采集機器相關的指標;另一種是遠程測試式執(zhí)行命令采集數(shù)據(jù)。
2、時間序列存儲技術
時間序列的管理、存儲和處理是監(jiān)控閉環(huán)中的核心環(huán)節(jié),在設計或評估一個監(jiān)控系統(tǒng)時應著重考察時間序列存儲的技術方案。時間序列技術的關鍵點在于可用性、可靠性、壓縮比、舊數(shù)據(jù)清理、指標項管理、多維度聚合等多個方面。
監(jiān)控系統(tǒng)的架構中,最核心的就是時序庫
數(shù)據(jù)的查詢效率會影響監(jiān)控系統(tǒng)的使用效率,尤其在告警計算、報表生成、數(shù)據(jù)統(tǒng)計等使用場景下,低下的查詢效率會極大影響對數(shù)據(jù)使用方式的想象空間。
3、告警引擎
告警引擎的核心職責就是處理告警規(guī)則,生成告警事件。通常來講,用戶會配置數(shù)百甚至數(shù)千條告警規(guī)則,一些超大型的公司可能要配置數(shù)萬條告警規(guī)則。每個規(guī)則里含有數(shù)據(jù)過濾條件、閾值、執(zhí)行頻率等,有一些配置豐富的監(jiān)控系統(tǒng),還支持配置規(guī)則生效時段、持續(xù)時長、留觀時長等。
告警引擎通常有兩種架構,一種是數(shù)據(jù)觸發(fā)式,一種是周期輪詢式。
數(shù)據(jù)觸發(fā)式,是指服務端接收到監(jiān)控數(shù)據(jù)之后,除了存儲到時序庫,還會轉發(fā)一份數(shù)據(jù)給告警引擎,告警引擎每收到一條監(jiān)控數(shù)據(jù),就要判斷是否關聯(lián)了告警規(guī)則,做告警判斷。因為監(jiān)控數(shù)據(jù)量比較大,告警規(guī)則的量也可能比較大,所以告警引擎是會做分片部署的,即部署多個實例。
周期輪詢式,架構簡單,通常是一個規(guī)則一個協(xié)程,按照用戶配置的執(zhí)行頻率,周期性查詢判斷即可。
生成事件之后,通常是交給一個單獨的模塊來做告警發(fā)送,這個模塊負責事件聚合、收斂,根據(jù)不同的條件發(fā)送給不同的接收者和不同的通知媒介。告警事件的處理,是一個非常通用的需求,而且非常零碎、復雜,每個監(jiān)控系統(tǒng)都去實現(xiàn)一套,通常不會做得很完備。
對告警策略配置方式的考量,應該以靈活性和可維護性為目標?;旌霞軜?、微服服等新技術催生了更現(xiàn)代化的業(yè)務系統(tǒng)技術棧,這對告警策略的靈活性提出更高要求,告警策略應該支持條件告警、組合條件告警、同比環(huán)比、回歸、線性擬合等高級功能,最好能支持基于聚類算法的告警合并
4、數(shù)據(jù)展示
監(jiān)控數(shù)據(jù)的可視化也是一個非常通用且重要的需求,支持不同類型的數(shù)據(jù)源,圖表非常豐富,基本可以看做是開源領域的事實標準。
監(jiān)控數(shù)據(jù)可視化,通常有兩類需求,一個是即時查詢,一個是監(jiān)控大盤(Dashboard)。即時查詢是臨時起意,比如線上有個問題,需要追查監(jiān)控數(shù)據(jù),還原現(xiàn)場排查問題,這就需要有個方便我們查看的指標瀏覽功能,快速找到想要的指標。監(jiān)控大盤通常用于日常巡檢和問題排查,由資深工程師創(chuàng)建,放置了一些特別值得重點關注的指標,一定程度上可以引發(fā)我們思考,具有很強的知識沉淀效果。如果想要了解某個組件的原理,這個組件的監(jiān)控大盤通??梢詭Ыo你一些啟發(fā)。
五、監(jiān)控系統(tǒng)未來發(fā)展趨勢
1、人工智能
我們的架構應該支持數(shù)據(jù)科學技術和機器學習技術的引入,技術還在快速發(fā)展之中,很多算法和數(shù)據(jù)方法還在不斷變化,應該為這類變化保留足夠的靈活性。
人工智能技術將逐漸應用于監(jiān)控系統(tǒng)中,以實現(xiàn)智能化的監(jiān)控和預測分析。通過對大數(shù)據(jù)的分析和機器學習,監(jiān)控系統(tǒng)將能夠實現(xiàn)更加準確、高效的故障預測和預警,從而提高系統(tǒng)的可靠性和穩(wěn)定性。
2、大數(shù)據(jù)
監(jiān)控系統(tǒng)越來越發(fā)揮整體運維系統(tǒng)的中樞作用,運維系統(tǒng)逐漸由流程驅動轉變?yōu)閿?shù)據(jù)驅動。我們應該更加重視監(jiān)控系統(tǒng)的開放性,使監(jiān)控系統(tǒng)具有與其它所有運維子系統(tǒng)對接、整合的能力,并對外做出數(shù)據(jù)、算法等技術輸出。
隨著大數(shù)據(jù)技術的不斷發(fā)展,監(jiān)控系統(tǒng)將能夠處理更加龐大的數(shù)據(jù)量,實現(xiàn)更加精細的監(jiān)控和分析。同時,監(jiān)控系統(tǒng)還將能夠更加靈活地支持各種數(shù)據(jù)源,并實現(xiàn)數(shù)據(jù)的實時采集、存儲和查詢。
云、容器和微服務的出現(xiàn)使被監(jiān)控對象的數(shù)量增加了兩到三個數(shù)量級,所以高維度的數(shù)據(jù)管理能力尤其重要,我們的時間序列管理技術架構應該為 10 億級別時序數(shù)據(jù)個數(shù)作好充足準備。
3、云服務
云計算技術的發(fā)展將推動監(jiān)控系統(tǒng)向云化方向發(fā)展。未來的監(jiān)控系統(tǒng)將不僅支持本地部署,還將提供云服務,使得用戶可以隨時隨地訪問監(jiān)控數(shù)據(jù),同時還需支持混合云架構,目前不少企業(yè)IT架構是混合云架構。
4、自動化
云原生技術浪潮帶來了混合的技術棧和高動態(tài)的服務端架構,我們應該重視采集器的自主能力,在面向復雜多變的被監(jiān)控環(huán)境時,采集器盡可能做到對環(huán)境的自動識別,對指標的自主采集。
自動化技術將成為監(jiān)控系統(tǒng)未來發(fā)展的重要方向。未來的監(jiān)控系統(tǒng)將能夠實現(xiàn)自動化配置、自動化發(fā)現(xiàn)和自動化報警等功能,從而減輕運維人員的工作負擔,提高工作效率。
5、安全性
隨著網絡安全問題的日益嚴重,監(jiān)控系統(tǒng)的安全性將成為未來的重要關注點。未來的監(jiān)控系統(tǒng)將需要更加強大的安全機制,保障監(jiān)控數(shù)據(jù)的安全和隱私。
總之未來的監(jiān)控系統(tǒng)將面臨更多的挑戰(zhàn)和機遇。只有不斷地創(chuàng)新和發(fā)展,才能更好地滿足用戶的需求,推動監(jiān)控系統(tǒng)的發(fā)展和進步。
6、總結
運維監(jiān)控平臺是運維工作中不可或缺的一部分,如何構建適合自己的運維監(jiān)控平臺,每個公司的需求不一樣,每個運維面對的痛點也不盡相同,但,不管有什么需求,多少需求,萬變不離其宗,有了機器上的各種監(jiān)控數(shù)據(jù),運維就能做很多事情。
編輯:黃飛
?
評論
查看更多