對于數(shù)據中心運營,可能很難確定哪些數(shù)據至關重要,哪些數(shù)據是背景噪音。篩選數(shù)據的能力至關重要,因為數(shù)據中心經理必須迅速確定哪些警報至關重要,哪些警報可以幫助提供有關其基礎架構運行情況的信息。
在2020年數(shù)據中心世界大會上,在《Real-time Environmental Monitoring for Your Data Center Management Platforms and Getting Common Data Into Your New Hybrid World》的演講中,Critical Environments Group公司數(shù)據中心解決方案主管Andrew Graham和RLE Technologies公司國際和西方國家銷售主管Cam Rogers介紹了一個框架,該框架可以幫助企業(yè)在混合環(huán)境中設置實時監(jiān)控,以有效管理和擴展基礎架構。
為了成功部署實時監(jiān)控,IT團隊應該解決五個問題:誰、什么、何時、何地、為什么以及如何。
1. 弄清楚為什么需要實時監(jiān)控
在IT團隊投資于任何類型的實時監(jiān)控前,他們應該弄清楚為什么在數(shù)據中心內需要實時監(jiān)控。潛在的原因包括降低成本、提高生產率、簡化管理以及減少意外和停機時間。
當企業(yè)試圖將基礎設施擴展到本地數(shù)據中心之外,并整合主機托管和邊緣作為整個基礎結構的一部分時,這些原因尤其引人注目。Graham說,隨著混合IT不斷發(fā)展,那些運營自己數(shù)據中心的企業(yè)發(fā)現(xiàn),容量管理成為巨大的問題。
實時監(jiān)控技術最初用于提供數(shù)據中心基礎設施的快照,因此非常適合幫助IT團隊更有效地管理數(shù)據中心,并幫助解決日益復雜的設置問題—其中涉及多種技術類型。
RSP Architects的負責人Rajan Battish說:“實時監(jiān)控已經取得很大的進步;它一直存在。多年來,我們看到的是,它們在機架級別獲取信息,并嘗試通過基礎架構對其進行優(yōu)化。監(jiān)控系統(tǒng)開始獲取數(shù)據中心的運行情況數(shù)據,并且它成為自動化和優(yōu)化的方式。”
2. 確定誰必須參與
當IT團隊建立業(yè)務用例,他們就必須考慮誰應該參與到新的實時監(jiān)控設置中。
這包括必須向誰報告問題、該系統(tǒng)應及時將信息提供給誰、誰關注設施狀況、哪些人員負責新應用的推出,以及哪些團隊關注流程的改進和有效性。
如果企業(yè)具有非本地基礎架構,則管理員必須說明可能需要報告的任何外部方,例如托管服務提供商、主機托管和云提供商、合作伙伴和供應商。
IT團隊必須建立主要的利益相關者,因為這樣做會影響報告結構和軟件警報。這還可以減少報告的冗余。
Rogers表示:“每個利益相關者都有不同的優(yōu)先事項,IT經理可能與設施經理有不同的需求。應該由他們決定什么重要,什么不那么重要?!?/p>
他補充說,企業(yè)可以從本地化警報開始,這些警報不一定關聯(lián)所有事物。
他說:“除非你的員工24/7全天候工作,否則當你無法看到警報時,問題就會非常迅速地發(fā)酵。你需要查看設施并將警報發(fā)送給合適的人?!?/p>
3. 查看最有用的指標是哪些
企業(yè)有很多數(shù)據需要跟蹤-特別是在基礎架構方面。通過實時監(jiān)視設置,管理人員應確定哪些指標對他們很重要,以及哪些指標可以快速提供信息。
Rogers說:“這實際上取決于你希望管理和匯集哪些資產?!?/p>
大多數(shù)企業(yè)都依賴一些通用指標,例如電源使用效率(PUE)、數(shù)據中心基礎架構效率(DCIE)、能耗降低和IT設備利用率。但是管理員應謹慎對待這些指標。
PUE是廣泛使用的度量標準,但它基于對IT設施功率和總設備功率的總體估計。如果團隊進行IT升級,則PUE可能會上升。Graham建議,IT管理員使用PUE作為內部度量,而不是嘗試將其與企業(yè)外部的其他數(shù)據中心進行比較。
Graham和Rogers解釋說,管理人員可以使用PUE和DCIE之外的其他指標,例如冷卻指標,但是這些指標可能需要更多數(shù)據和分析,從而導致部署率較低。
4. 確定何時部署監(jiān)控或擴大容量
對于何時增加容量或系統(tǒng)應用程序,可能很困難,尤其是隨著IT需求的不斷變化。你的團隊應該考慮你的監(jiān)視和管理工具是否可以幫助內部開發(fā)和改進的規(guī)劃、進度和性能。
Graham說:“你不能只是考慮你何時需要使設備可用和運行以推出應用程序。你需要從上線日期開始工作,以覆蓋部署過程中每一步所需的所有資源?!?/p>
實時監(jiān)控還可以通過針對特定事件的指標來為日常工作提供幫助:事件發(fā)生的時間、報告時間和解決的時間。識別這些時間可以幫助企業(yè)更加主動地響應事件,特別是如果這些實例顯示出隨時間變化的模式或以特定間隔定期發(fā)生的情況。
5. 了解基礎設施的位置
企業(yè)還應該考慮他們應該在何處部署監(jiān)控軟件和硬件-無論是在本地數(shù)據中心、在邊緣節(jié)點的異地還是在主機托管地點。從內部角度來看,應該有連續(xù)的流程來跟蹤容量和連接的設備。
還有云提供商提供的信息,因此IT團隊應詢問是否可以在云端跟蹤和追蹤數(shù)據,并確定任何合規(guī)性需求–文檔或專用應用程序等。
通過更準確地了解所有數(shù)據和硬件在IT設置中所處的位置,企業(yè)可以確定哪種實時監(jiān)控產品最能滿足其需求,并且可以支持所有必需的技術類型。在部署實時監(jiān)控后,這將確保一致的性能和有效的容量管理。
6. 了解如何監(jiān)控基礎架構
在IT團隊、管理人員和利益相關者討論完何時、何地以及什么后,管理員應調查企業(yè)應如何部署實時監(jiān)控并增加基礎架構容量。這涉及了解可能影響基礎架構增長的因素,例如熱點、地面空間用盡、中斷、缺乏冷卻資源和水資源等。
Battish說,大多數(shù)企業(yè)在部署過程中都面臨挑戰(zhàn),特別是在使硬件和軟件相互通信方面。
這使得匯聚協(xié)議非常重要,因為大多數(shù)企業(yè)通過多家供應商來構建數(shù)據中心基礎架構。然而,傳感器和協(xié)議轉換器可以幫助收集數(shù)據并提高實時監(jiān)視功能。
Rogers說:“傳感器有很多選擇,因此請確保做好功課,不要將自己鎖定在專有產品,而沒有辦法支持明天及未來需要的功能。”
行業(yè)產品包括用于配電單元和不間斷電源的有線和無線傳感器,以及一系列軟件,企業(yè)可購買現(xiàn)成產品或根據內部需求定制產品。傳感器和軟件的這種組合可以幫助管理員和經歷減少日常補救任務的數(shù)量。
Graham稱:“當人們在不斷解決相同的問題時,這對士氣不利。我們并不是說每個人都需要單一視圖,但他們應該減少冗余,整合并解決正確的問題。監(jiān)視和管理的轉變允許人們要更有效率,并在我們的行業(yè)中處于領先地位,并專注于更多的優(yōu)化工作?!?br /> 責編AJX
-
數(shù)據
+關注
關注
8文章
7074瀏覽量
89137 -
監(jiān)控系統(tǒng)
+關注
關注
21文章
3922瀏覽量
175185 -
數(shù)據中心
+關注
關注
16文章
4794瀏覽量
72189
發(fā)布評論請先 登錄
相關推薦
評論