DNS 是網(wǎng)絡(luò)堆棧中一個關(guān)鍵但經(jīng)常被忽略的組件。監(jiān)控 DNS 查詢異常可以幫助您檢測和糾正潛在問題。
“一勞永逸”是大多數(shù)網(wǎng)絡(luò)團隊在其權(quán)威域名系統(tǒng) (DNS)中遵循的方法。如果系統(tǒng)正常工作并且最終用戶找到了與創(chuàng)收應(yīng)用程序、服務(wù)和內(nèi)容的網(wǎng)絡(luò)連接,那么管理員通常會說你不應(yīng)該成功。
不幸的是,DNS 的可靠性常常讓我們認為這是理所當然的。很容易將 DNS 作為后臺服務(wù)注銷,因為它的性能非常好。然而,這種非常“一勞永逸”的策略常常讓性能和可靠性問題得不到診斷,從而給網(wǎng)絡(luò)團隊造成盲點。當這些未診斷的問題堆積起來或暫時未得到解決時,它們很容易轉(zhuǎn)移為更重要的網(wǎng)絡(luò)性能問題。
事實上,與任何機器或系統(tǒng)一樣,DNS 需要偶爾進行調(diào)整。即使它運行良好,也需要注意特定的 DNS 錯誤,這樣小問題就不會爆發(fā)為更重要的問題。
我想就網(wǎng)絡(luò)團隊在解決 DNS 問題時要尋找的內(nèi)容分享一些建議。
設(shè)置基準 DNS 指標
沒有兩個網(wǎng)絡(luò)配置相同。沒有兩個網(wǎng)絡(luò)具有相同的性能配置文件。每個網(wǎng)絡(luò)都有使其獨一無二的怪癖和特點。這就是為什么在診斷任何問題之前了解網(wǎng)絡(luò)的“正?!鼻闆r很重要的原因。
DNS 數(shù)據(jù)可以讓您了解一段時間內(nèi)的平均查詢量。對于大多數(shù)企業(yè)來說,這將是一個相對穩(wěn)定的數(shù)字??赡軙屑竟?jié)性變化(尤其是在零售等行業(yè)),但這些通常是可以預(yù)測的。隨著客戶群或服務(wù)量的增長,大多數(shù)企業(yè)會看到查詢量逐漸增加,但這通常也遵循既定模式。
查看查詢量的組合也很重要。您的大部分 DNS 流量是否流向特定域?各種后端資源之間的 DNS 查詢組合有多穩(wěn)定(或多變)?這些問題的答案對于每個企業(yè)都是不同的,并且可能會根據(jù)網(wǎng)絡(luò)團隊對負載平衡、產(chǎn)品資源和交付成本等問題的決策而改變。
監(jiān)控 NXDOMAIN 響應(yīng)
NXDOMAIN 響應(yīng)清楚地表明出現(xiàn)了問題。對于“胖手指”查詢、標準重定向錯誤和可能超出網(wǎng)絡(luò)團隊控制范圍的用戶端問題,至少返回一些 NXDOMAIN 是正常的。
IBM 公司最近的全球 DNS 數(shù)據(jù)報告NS1顯示,出于某種原因,3-6% 的 DNS 查詢會收到 NXDOMAIN 響應(yīng)。在“正?!本W(wǎng)絡(luò)設(shè)置中,可能會出現(xiàn)處于或接近該范圍的任何情況。
當您超過兩位數(shù)時,可能會發(fā)生更大的事情。不過,模式的性質(zhì)很重要。NXDOMAIN 響應(yīng)緩慢但穩(wěn)定地增加可能是一個長期存在的錯誤配置問題,它模擬了整體流量。NXDOMAIN 的突然激增可能是本地化(但影響很大)的錯誤配置或 DDoS 攻擊。
關(guān)鍵是要密切關(guān)注 NXDOMAIN 響應(yīng)占整體查詢量的百分比。偏離規(guī)范通常是某事不對的明顯標志——然后就變成了為什么不對以及如何解決它的問題。在大多數(shù)情況下,更深入地研究異常上升的時間和特征將提供有關(guān)其發(fā)生原因的線索。
NXDOMAIN 響應(yīng)并不總是壞事。事實上,它們可能代表著潛在的商機。如果有人試圖查詢您的域或子域,但結(jié)果是空的,這可能表明您應(yīng)該購買或開始使用該域。
注意內(nèi)部 DNS 數(shù)據(jù)的暴露
一種特別令人擔憂的 NXDOMAIN 響應(yīng)類型是由將內(nèi)部 DNS 區(qū)域和記錄數(shù)據(jù)暴露到互聯(lián)網(wǎng)的錯誤配置引起的。這種錯誤配置不僅會產(chǎn)生不必要的查詢量,從而影響性能,而且還是一個嚴重的安全問題。
陳舊的 URL 重定向通常是暴露內(nèi)部記錄的原因。在合并或收購的劇變中,系統(tǒng)有時會指向逐漸消失或被重新用于其他用途的屬性。系統(tǒng)仍在公開尋找舊連接,但沒有找到預(yù)期的答案。工作量越小,就越有可能被忽視。
注意地理
如果您為流量的來源設(shè)置標準基線,就可以更輕松地發(fā)現(xiàn)異常DDoS 攻擊、錯誤配置,甚至在它們出現(xiàn)時發(fā)現(xiàn)更廣泛的使用模式變化。特定區(qū)域服務(wù)器的流量突然增加與整體查詢量的更廣泛增加是不同類型的問題。按地理位置跟蹤您的 DNS 數(shù)據(jù)有助于確定您面臨的問題,并最終提供有關(guān)如何處理它的線索。
檢查 SERVFAIL 是否配置錯誤的別名記錄
別名記錄是錯誤配置的常見來源,它們本身就值得定期審計。我發(fā)現(xiàn) SERVFAIL 響應(yīng)的增加——無論是突然激增還是逐漸增加——通常可以追溯到別名記錄的問題。
沒有錯誤數(shù)據(jù)?考慮 IPv6
NXDOMAIN 的響應(yīng)非常簡單——沒有找到記錄。當您看到返回的響應(yīng)為 NOERROR 時,事情變得有點微妙,但您也看到?jīng)]有返回任何答案。雖然沒有針對這種情況的官方 RFC 代碼,但當應(yīng)答計數(shù)器返回“0”時,通常稱為 NOERROR NODATA 響應(yīng)。NOERROR NODATA 表示已找到記錄,但它不是應(yīng)該存在的記錄類型。
如果您看到很多 NOERROR NODATA 響應(yīng),根據(jù)我們的經(jīng)驗,解析器通常正在尋找 AAAA 記錄。如果您收到大量 NOERROR NODATA 響應(yīng),我發(fā)現(xiàn)添加對 IPv6 的支持通??梢越鉀Q問題。
DNS 基數(shù)和安全隱患
在 DNS 的世界里,有兩種類型的基數(shù)需要擔心。解析器基數(shù)是指查詢您的 DNS 記錄的解析器數(shù)量。查詢名稱基數(shù)是指您每分鐘收到查詢的不同 DNS 名稱的數(shù)量。
測量 DNS 基數(shù)很重要,因為它可能指示惡意活動。具體來說,DNS 查詢名稱基數(shù)的增加可能表示隨機標簽攻擊或大規(guī)模探測您的基礎(chǔ)設(shè)施。解析器基數(shù)的增加可能表明您正成為僵尸網(wǎng)絡(luò)的目標。如果您突然發(fā)現(xiàn)解析器基數(shù)增加,則可能表明存在某種攻擊。
審核編輯:湯梓紅
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7568瀏覽量
88796 -
DNS
+關(guān)注
關(guān)注
0文章
218瀏覽量
19844 -
代碼
+關(guān)注
關(guān)注
30文章
4788瀏覽量
68625
原文標題:網(wǎng)絡(luò)團隊的 5 個 DNS 故障排除技巧
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論