故障現(xiàn)象
某運營商TECS資源池上報“主機磁盤分區(qū)使用率過高”的告警,如下圖所示。
故障分析
查看“主機磁盤分區(qū)使用率過高”告警詳情,通過處理當前告警的節(jié)點和對應(yīng)的磁盤分區(qū)能夠快速的處理和恢復(fù)告警。
告警處理完成后需要進一步排查分區(qū)增長的原因,有如下4種情況:
空間分配不足,規(guī)劃的分區(qū)空間不滿足現(xiàn)場集群和規(guī)模的要求。
出現(xiàn)大量crash和異常debug日志短時間沖擊磁盤分區(qū),可能是人為或者進程死循環(huán)導致。
日志文件或者定期輪詢文件未生效,導致歷史文件超限。
后端存儲異?;蛘吆蠖舜鎯?fù)用,導致磁盤使用率過高。
具體分析過程如下:
1. 根據(jù)告警詳細信息,使用SSH方式登錄相應(yīng)節(jié)點。
2. 在異常節(jié)點中執(zhí)行df -h命令,檢查輸出和操作系統(tǒng)運行情況,查看是否有系統(tǒng)只讀不可寫等系統(tǒng)內(nèi)核崩潰情況,如下圖所示。
3. 檢查/var目錄下是否有過大問題。通過在每級目錄中執(zhí)行du -sh * 命令,檢查文件大小,從而排查最大異常問題,按照經(jīng)驗var下異常大小文件一般是/var/log下的日志,如下圖所示。
4. 檢查日志存儲文件大小,如下圖所示。
5. 根據(jù)檢查結(jié)果發(fā)現(xiàn),logrotate機制未生效,日志文件未按照設(shè)定參數(shù)被壓縮,轉(zhuǎn)儲不成功,導致日志文件過大,占用磁盤空間。
故障處理
1. 執(zhí)行如下命令,清理磁盤。
a. 執(zhí)行> /var/lib/logrotate/logrotate.status命令,清空轉(zhuǎn)儲記錄。
b. 執(zhí)行l(wèi)ogrotate -d /etc/logrotate.conf命令,手動進行日志轉(zhuǎn)儲。
c. 執(zhí)行echo > /var/log/tecs/access/neutron/neutron-api.log命令,寫入空,覆蓋到日志文件內(nèi),如下圖所示。
2. 清理完成后重新檢查文件大小和磁盤占用情況,問題解決。
3. 總結(jié):對于磁盤分區(qū)使用率高問題,如果使用率達到100%就會導致節(jié)點不可用,系統(tǒng)自動備份失敗,數(shù)據(jù)庫定時備份失敗,無法登錄root用戶,等相關(guān)問題,存在很大的隱患,發(fā)現(xiàn)問題需要盡快定位對象主機上磁盤占用高的文件,進行處理。
本次是由于logrotate機制未生效,日志文件未按照設(shè)定參數(shù)被壓縮、轉(zhuǎn)儲,從而使日志文件不停增大,占用全部磁盤空間導致。
清理文件,觸發(fā)轉(zhuǎn)儲服務(wù)后,磁盤占用恢復(fù)正常。
建議定期檢查系統(tǒng)磁盤空間占用,預(yù)防此類事件發(fā)生。
-
主機
+關(guān)注
關(guān)注
0文章
1029瀏覽量
35724 -
磁盤
+關(guān)注
關(guān)注
1文章
386瀏覽量
25554 -
命令
+關(guān)注
關(guān)注
5文章
719瀏覽量
22627
原文標題:TECS OpenStack-資源池主機磁盤分區(qū)使用率過高的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
【雨林木風系統(tǒng)下載教程】利用XP系統(tǒng)磁盤分區(qū)來提升讀寫...
linux的三種磁盤分區(qū)
Linux系統(tǒng)教程之磁盤分區(qū)和LVM系統(tǒng)的詳細資料概述

Windows 10 2004版或解決CPU和磁盤使用率過高的問題
微軟Windows 10研究新的方法管理現(xiàn)代磁盤分區(qū)
微軟Win10搜索磁盤和CPU使用率過高的問題修復(fù)
預(yù)裝Win7系統(tǒng)劃分更多的磁盤分區(qū)的方法

獲取磁盤分區(qū)UUID的方法介紹

linux系統(tǒng)如何進行磁盤分區(qū)?
磁盤分區(qū)工具parted的使用方法
TECS OpenStack資源池虛機殘留導致網(wǎng)元異常的問題處理

TECS OpenStack資源池時間同步失敗的故障分析

TECS OpenStack資源池虛機寫磁盤時延高告警的問題處理

評論