當(dāng)你發(fā)現(xiàn) Linux 服務(wù)器上的系統(tǒng)性能問(wèn)題,在最開(kāi)始的 1 分鐘時(shí)間里,你會(huì)查看哪些系統(tǒng)指標(biāo)呢?
Netflix 在 AWS 上有著大規(guī)模的 EC2 集群,以及各種各樣的性能分析和監(jiān)控工具。比如我們使用 Atlas 來(lái)監(jiān)控整個(gè)平臺(tái),用 Vector 實(shí)時(shí)分析 EC2 實(shí)例的性能。這些工具已經(jīng)能夠幫助我們解決大部分的問(wèn)題,但是有時(shí)候我們還是要登錄進(jìn)機(jī)器內(nèi)部,用一些標(biāo)準(zhǔn)的 Linux 性能分析工具來(lái)定位問(wèn)題。
在這篇文章里,Netflix 性能工程團(tuán)隊(duì)會(huì)介紹一些我們使用的標(biāo)準(zhǔn)的 Linux 命令行工具,在發(fā)現(xiàn)問(wèn)題的前 60 秒內(nèi)去分析和定位問(wèn)題。
在這 60 秒內(nèi),你可以使用下面這 10 個(gè)命令行了解系統(tǒng)整體的運(yùn)行情況,以及當(dāng)前運(yùn)行的進(jìn)程對(duì)資源的使用情況。
在這些指標(biāo)里面,我們先關(guān)注和錯(cuò)誤、以及和資源飽和率相關(guān)的指標(biāo),然后再看資源使用率。相對(duì)來(lái)講,錯(cuò)誤和資源飽和率比較容易理解。飽和的意思是指一個(gè)資源(CPU,內(nèi)存,磁盤(pán))上的負(fù)載超過(guò)了它能夠處理的能力,這時(shí)候我們觀察到的現(xiàn)象就是請(qǐng)求隊(duì)列開(kāi)始堆積,或者請(qǐng)求等待的時(shí)間變長(zhǎng)。
uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top
有些命令行依賴于 sysstat 包。通過(guò)這些命令行的使用,你可以熟悉一下分析系統(tǒng)性能問(wèn)題時(shí)常用的一套方法或者流程:USE 。這個(gè)方法主要從資源使用率(Utilization)、資源飽和度(Satuation)、錯(cuò)誤(Error),這三個(gè)方面對(duì)所有的資源進(jìn)行分析(CPU,內(nèi)存,磁盤(pán)等等)。
在這個(gè)分析的過(guò)程中,我們也要時(shí)刻注意我們已經(jīng)排除過(guò)的資源問(wèn)題,以便縮小我們定位的范圍,給下一步的定位提供更明確的方向。
下面的章節(jié)對(duì)每個(gè)命令行做了一個(gè)說(shuō)明,并且使用了我們?cè)谏a(chǎn)環(huán)境的數(shù)據(jù)作為例子。對(duì)這些命令行更詳細(xì)的描述,請(qǐng)查看相應(yīng)的幫助文檔。
1.uptime
$ uptime
這個(gè)命令能很快地檢查系統(tǒng)平均負(fù)載,你可以認(rèn)為這個(gè)負(fù)載的值顯示的是有多少任務(wù)在等待運(yùn)行。在 Linux 系統(tǒng)里,這包含了想要或者正在使用 CPU 的任務(wù),以及在 io 上被阻塞的任務(wù)。這個(gè)命令能使我們對(duì)系統(tǒng)的全局狀態(tài)有一個(gè)大致的了解,但是我們依然需要使用其它工具獲取更多的信息。
這三個(gè)值是系統(tǒng)計(jì)算的 1 分鐘、5 分鐘、15 分鐘的指數(shù)加權(quán)的動(dòng)態(tài)平均值,可以簡(jiǎn)單地認(rèn)為就是這個(gè)時(shí)間段內(nèi)的平均值。根據(jù)這三個(gè)值,我們可以了解系統(tǒng)負(fù)載隨時(shí)間的變化。比如,假設(shè)現(xiàn)在系統(tǒng)出了問(wèn)題,你去查看這三個(gè)值,發(fā)現(xiàn) 1 分鐘的負(fù)載值比 15 分鐘的負(fù)載值要小很多,那么你很有可能已經(jīng)錯(cuò)過(guò)了系統(tǒng)出問(wèn)題的時(shí)間點(diǎn)。
在上面這個(gè)例子里面,負(fù)載的平均值顯示 1 分鐘為 30,比 15 分鐘的 19 相比增長(zhǎng)較多。有很多原因會(huì)導(dǎo)致負(fù)載的增加,也許是 CPU 不夠用了;vmstat 或者 mpstat 可以進(jìn)一步確認(rèn)問(wèn)題在哪里。
2.dmesg | tail
$ dmesg | tail
[1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0
[...]
[1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child
[1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, file-rss:0kB
[2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request. Check SNMP count
這個(gè)命令顯示了最新的幾條系統(tǒng)日志。這里我們主要找一下有沒(méi)有一些系統(tǒng)錯(cuò)誤會(huì)導(dǎo)致性能的問(wèn)題。上面的例子包含了 oom-killer 以及 TCP 丟包。
不要略過(guò)這一步!dmesg 永遠(yuǎn)值得看一看。
3. vmstat 1
$ vmstat 1
procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
34 0 0 200889792 73708 591828 0 0 0 5 6 10 96 1 3 0 0
32 0 0 200889920 73708 591860 0 0 0 592 13284 4282 98 1 1 0 0
32 0 0 200890112 73708 591860 0 0 0 0 9501 2154 99 1 0 0 0
32 0 0 200889568 73712 591856 0 0 0 48 11900 2459 99 0 0 0 0
32 0 0 200890208 73712 591860 0 0 0 0 15898 4840 98 1 1 0 0
^C
vmstat 展示了虛擬內(nèi)存、CPU 的一些情況。上面這個(gè)例子里命令行的 1 表示每隔 1 秒鐘顯示一次。在這個(gè)版本的 vmstat 里,第一行表示了這一次啟動(dòng)以來(lái)的各項(xiàng)指標(biāo),我們可以暫時(shí)忽略掉第一行。
需要查看的指標(biāo):
-
r:處在 runnable 狀態(tài)的任務(wù),包括正在運(yùn)行的任務(wù)和等待運(yùn)行的任務(wù)。這個(gè)值比平均負(fù)載能更好地看出 CPU 是否飽和。這個(gè)值不包含等待 io 相關(guān)的任務(wù)。當(dāng) r 的值比當(dāng)前 CPU 個(gè)數(shù)要大的時(shí)候,系統(tǒng)就處于飽和狀態(tài)了。
-
free:以 KB 計(jì)算的空閑內(nèi)存大小。
-
si,so:換入換出的內(nèi)存頁(yè)。如果這兩個(gè)值非零,表示內(nèi)存不夠了。
-
us,sy,id,wa,st:CPU 時(shí)間的各項(xiàng)指標(biāo)(對(duì)所有 CPU 取均值),分別表示:用戶態(tài)時(shí)間,內(nèi)核態(tài)時(shí)間,空閑時(shí)間,等待 io,偷取時(shí)間(在虛擬化環(huán)境下系統(tǒng)在其它租戶上的開(kāi)銷)
把用戶態(tài) CPU 時(shí)間(us)和內(nèi)核態(tài) CPU 時(shí)間(sy)加起來(lái),我們可以進(jìn)一步確認(rèn) CPU 是否繁忙。等待 IO 的時(shí)間(wa)高的話,表示磁盤(pán)是瓶頸;注意,這個(gè)也被包含在空閑時(shí)間里面(id), CPU 這個(gè)時(shí)候也是空閑的,任務(wù)此時(shí)阻塞在磁盤(pán) IO 上了。你可以把等待 IO 的時(shí)間(wa)看做另一種形式的 CPU 空閑,它可以告訴你 CPU 為什么是空閑的。
系統(tǒng)處理 IO 的時(shí)候,肯定是會(huì)消耗內(nèi)核態(tài)時(shí)間(sy)的。如果內(nèi)核態(tài)時(shí)間較多的話,比如超過(guò) 20%,我們需要進(jìn)一步分析,也許內(nèi)核對(duì) IO 的處理效率不高。
在上面這個(gè)例子里,CPU 時(shí)間大部分都消耗在了用戶態(tài),表明主要是應(yīng)用層的代碼在使用 CPU。CPU 利用率(us + sy)也超過(guò)了 90%,這不一定是一個(gè)問(wèn)題;我們可以通過(guò) r 和 CPU 個(gè)數(shù)確定 CPU 的飽和度。
4. mpstat -P ALL 1
$ mpstat -P ALL 1
Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU)
0749 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
0750 PM all 98.47 0.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.78
0750 PM 0 96.04 0.00 2.97 0.00 0.00 0.00 0.00 0.00 0.00 0.99
0750 PM 1 97.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 2.00
0750 PM 2 98.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00
0750 PM 3 96.97 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 3.03
[...]
這個(gè)命令把每個(gè) CPU 的時(shí)間都打印出來(lái),可以看看 CPU 對(duì)任務(wù)的處理是否均勻。比如,如果某一單個(gè) CPU 使用率很高的話,說(shuō)明這是一個(gè)單線程應(yīng)用。
5. pidstat 1
$ pidstat 1
Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU)
0702 PM UID PID %usr %system %guest %CPU CPU Command
0703 PM 0 9 0.00 0.94 0.00 0.94 1 rcuos/0
0703 PM 0 4214 5.66 5.66 0.00 11.32 15 mesos-slave
0703 PM 0 4354 0.94 0.94 0.00 1.89 8 java
0703 PM 0 6521 1596.23 1.89 0.00 1598.11 27 java
0703 PM 0 6564 1571.70 7.55 0.00 1579.25 28 java
0703 PM 60004 60154 0.94 4.72 0.00 5.66 9 pidstat
0703 PM UID PID %usr %system %guest %CPU CPU Command
0704 PM 0 4214 6.00 2.00 0.00 8.00 15 mesos-slave
0704 PM 0 6521 1590.00 1.00 0.00 1591.00 27 java
0704 PM 0 6564 1573.00 10.00 0.00 1583.00 28 java
0704 PM 108 6718 1.00 0.00 0.00 1.00 0 snmp-pass
0704 PM 60004 60154 1.00 4.00 0.00 5.00 9 pidstat
^C
pidstat 和 top 很像,不同的是它可以每隔一個(gè)間隔打印一次,而不是像 top 那樣每次都清屏。這個(gè)命令可以方便地查看進(jìn)程可能存在的行為模式,你也可以直接 copy past,可以方便地記錄隨著時(shí)間的變化,各個(gè)進(jìn)程運(yùn)行狀況的變化。
上面的例子說(shuō)明有 2 個(gè) Java 進(jìn)程消耗了大量 CPU。這里的 %CPU 表明的是對(duì)所有 CPU 的值,比如 1591% 標(biāo)識(shí)這個(gè) Java 進(jìn)程幾乎消耗了 16 個(gè) CPU。
6. iostat -xz 1
$ iostat -xz 1
Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 x86_64 (32 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
73.96 0.00 3.73 0.03 0.06 22.21
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
xvda 0.00 0.23 0.21 0.18 4.52 2.08 34.37 0.00 9.98 13.80 5.42 2.44 0.09
xvdb 0.01 0.00 1.02 8.94 127.97 598.53 145.79 0.00 0.43 1.78 0.28 0.25 0.25
xvdc 0.01 0.00 1.02 8.86 127.79 595.94 146.50 0.00 0.45 1.82 0.30 0.27 0.26
dm-0 0.00 0.00 0.69 2.32 10.47 31.69 28.01 0.01 3.23 0.71 3.98 0.13 0.04
dm-1 0.00 0.00 0.00 0.94 0.01 3.78 8.00 0.33 345.84 0.04 346.81 0.01 0.00
dm-2 0.00 0.00 0.09 0.07 1.35 0.36 22.50 0.00 2.55 0.23
iostat 是理解塊設(shè)備(磁盤(pán))的當(dāng)前負(fù)載和性能的重要工具。幾個(gè)指標(biāo)的含義:
-
r/s,w/s,rkB/s,wkB/s:系統(tǒng)發(fā)往設(shè)備的每秒的讀次數(shù)、每秒寫(xiě)次數(shù)、每秒讀的數(shù)據(jù)量、每秒寫(xiě)的數(shù)據(jù)量。這幾個(gè)指標(biāo)反映的是系統(tǒng)的工作負(fù)載。系統(tǒng)的性能問(wèn)題很有可能就是負(fù)載太大。
-
await:系統(tǒng)發(fā)往 IO 設(shè)備的請(qǐng)求的平均響應(yīng)時(shí)間。這包括請(qǐng)求排隊(duì)的時(shí)間,以及請(qǐng)求處理的時(shí)間。超過(guò)經(jīng)驗(yàn)值的平均響應(yīng)時(shí)間表明設(shè)備處于飽和狀態(tài),或者設(shè)備有問(wèn)題。
-
avgqu-sz:設(shè)備請(qǐng)求隊(duì)列的平均長(zhǎng)度。隊(duì)列長(zhǎng)度大于 1 表示設(shè)備處于飽和狀態(tài)。
-
%util:設(shè)備利用率。設(shè)備繁忙的程度,表示每一秒之內(nèi),設(shè)備處理 IO 的時(shí)間占比。大于 60% 的利用率通常會(huì)導(dǎo)致性能問(wèn)題(可以通過(guò) await 看到),但是每種設(shè)備也會(huì)有有所不同。接近 100% 的利用率表明磁盤(pán)處于飽和狀態(tài)。
如果這個(gè)塊設(shè)備是一個(gè)邏輯塊設(shè)備,這個(gè)邏輯快設(shè)備后面有很多物理的磁盤(pán)的話,100% 利用率只能表明有些 IO 的處理時(shí)間達(dá)到了 100%;后端的物理磁盤(pán)可能遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到飽和狀態(tài),可以處理更多的負(fù)載。
還有一點(diǎn)需要注意的是,較差的磁盤(pán) IO 性能并不一定意味著應(yīng)用程序會(huì)有問(wèn)題。應(yīng)用程序可以有許多方法執(zhí)行異步 IO,而不會(huì)阻塞在 IO 上面;應(yīng)用程序也可以使用諸如預(yù)讀取,寫(xiě)緩沖等技術(shù)降低 IO 延遲對(duì)自身的影響。
7. free -m
$ free -m
total used free shared buffers cached
Mem: 245998 24545 221453 83 59 541
-/+ buffers/cache: 23944 222053
Swap:
右邊的兩列顯式:
-
buffers:用于塊設(shè)備 I/O 的緩沖區(qū)緩存。
-
cached:用于文件系統(tǒng)的頁(yè)面緩存。
我們只是想要檢查這些不接近零的大小,其可能會(huì)導(dǎo)致更高磁盤(pán) I/O(使用 iostat 確認(rèn)),和更糟糕的性能。上面的例子看起來(lái)還不錯(cuò),每一列均有很多 M 個(gè)大小。
比起第一行,-/+ buffers/cache 提供的內(nèi)存使用量會(huì)更加準(zhǔn)確些。Linux 會(huì)把暫時(shí)用不上的內(nèi)存用作緩存,一旦應(yīng)用需要的時(shí)候就立刻重新分配給它。所以部分被用作緩存的內(nèi)存其實(shí)也算是空閑的內(nèi)存。為了解釋這一點(diǎn), 甚至有人專門(mén)建了個(gè)網(wǎng)站:http://www.linuxatemyram.com/。
如果使用 ZFS 的話,可能會(huì)有點(diǎn)困惑。ZFS 有自己的文件系統(tǒng)緩存,在 free -m 里面看不到;系統(tǒng)看起來(lái)空閑內(nèi)存不多了,但是有可能 ZFS 有很多的緩存可用。
8. sar -n DEV 1
$ sar -n DEV 1
Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU)
1248 AM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil
1249 AM eth0 18763.00 5032.00 20686.42 478.30 0.00 0.00 0.00 0.00
1249 AM lo 14.00 14.00 1.36 1.36 0.00 0.00 0.00 0.00
1249 AM docker0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
1249 AM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil
1250 AM eth0 19763.00 5101.00 21999.10 482.56 0.00 0.00 0.00 0.00
1250 AM lo 20.00 20.00 3.25 3.25 0.00 0.00 0.00 0.00
1250 AM docker0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
^C
這個(gè)工具可以查看網(wǎng)絡(luò)接口的吞吐量:rxkB/s 和 txkB/s 可以測(cè)量負(fù)載,也可以看是否達(dá)到網(wǎng)絡(luò)流量限制了。在上面的例子里,eth0 的吞吐量達(dá)到了大約 22 Mbytes/s,差不多 176 Mbits/sec ,比 1 Gbit/sec 還要少很多。
這個(gè)例子里也有 %ifutil 標(biāo)識(shí)設(shè)備利用率,我們也用 Brenan 的 nicstat tool 測(cè)量。和 nicstat 一樣,這個(gè)設(shè)備利用率很難測(cè)量正確,上面的例子里好像這個(gè)值還有點(diǎn)問(wèn)題。
9. sar -n TCP,ETCP 1
$ sar -n TCP,ETCP 1
Linux 3.13.0-49-generic (titanclusters-xxxxx) 07/14/2015 _x86_64_ (32 CPU)
1219 AM active/s passive/s iseg/s oseg/s
1220 AM 1.00 0.00 10233.00 18846.00
1219 AM atmptf/s estres/s retrans/s isegerr/s orsts/s
1220 AM 0.00 0.00 0.00 0.00 0.00
1220 AM active/s passive/s iseg/s oseg/s
1221 AM 1.00 0.00 8359.00 6039.00
1220 AM atmptf/s estres/s retrans/s isegerr/s orsts/s
1221 AM 0.00 0.00 0.00 0.00 0.00
^C
這是對(duì) TCP 重要指標(biāo)的一些概括,包括:
-
active/s:每秒鐘本地主動(dòng)開(kāi)啟的 TCP 連接,也就是本地程序使用 connect() 系統(tǒng)調(diào)用
-
passive/s:每秒鐘從源端發(fā)起的 TCP 連接,也就是本地程序使用 accept() 所接受的連接
-
retrans/s:每秒鐘的 TCP 重傳次數(shù)
-
atctive 和 passive 的數(shù)目通??梢杂脕?lái)衡量服務(wù)器的負(fù)載:接受連接的個(gè)數(shù)(passive),下游連接的個(gè)數(shù)(active)??梢院?jiǎn)單認(rèn)為 active 為出主機(jī)的連接,passive 為入主機(jī)的連接;但這個(gè)不是很嚴(yán)格的說(shuō)法,比如 loalhost 和 localhost 之間的連接。
重傳表示網(wǎng)絡(luò)或者服務(wù)器的問(wèn)題。也許是網(wǎng)絡(luò)不穩(wěn)定了,也許是服務(wù)器負(fù)載過(guò)重開(kāi)始丟包了。上面這個(gè)例子表示每秒只有 1 個(gè)新連接建立。
10. top
$ top
top - 0040 up 21:56, 1 user, load average: 31.09, 29.87, 29.92
Tasks: 871 total, 1 running, 868 sleeping, 0 stopped, 2 zombie
%Cpu(s): 96.8 us, 0.4 sy, 0.0 ni, 2.7 id, 0.1 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 25190241+total, 24921688 used, 22698073+free, 60448 buffers
KiB Swap: 0 total, 0 used, 0 free. 554208 cached Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
20248 root 20 0 0.227t 0.012t 18748 S 3090 5.2 29812:58 java
4213 root 20 0 2722544 64640 44232 S 23.5 0.0 233:35.37 mesos-slave
66128 titancl+ 20 0 24344 2332 1172 R 1.0 0.0 0:00.07 top
5235 root 20 0 38.227g 547004 49996 S 0.7 0.2 2:02.74 java
4299 root 20 0 20.015g 2.682g 16836 S 0.3 1.1 33:14.42 java
1 root 20 0 33620 2920 1496 S 0.0 0.0 0:03.82 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.02 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 0:05.35 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
top 命令涵蓋了我們前面講述的許多指標(biāo)。我們可以用它來(lái)看和我們之前查看的結(jié)果有沒(méi)有很大的不同,如果有的話,那表示系統(tǒng)的負(fù)載在變化。
top 的缺點(diǎn)就是你很難找到這些指標(biāo)隨著時(shí)間的一些行為模式,在這種情況下,vmstat 或者 pidstat 這種可以提供滾動(dòng)輸出的命令是更好的方式。如果你不以足夠快的速度暫停輸出(Ctrl-S 暫停,Ctrl-Q 繼續(xù)),一些間歇性問(wèn)題的線索也可能由于被清屏而丟失。
-
cpu
+關(guān)注
關(guān)注
68文章
10890瀏覽量
212421 -
Linux
+關(guān)注
關(guān)注
87文章
11329瀏覽量
209970 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9256瀏覽量
85763
原文標(biāo)題:如何在 60 秒內(nèi)優(yōu)化提升 Linux 性能?只有 2% 的人知道
文章出處:【微信號(hào):良許Linux,微信公眾號(hào):良許Linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論