歡迎光臨
每天分享高質量文章

服務器病了嗎? Linux 服務器的那些性能引數指標

來源:Linux愛好者

ID:LinuxHub

一個基於 Linux 操作系統的服務器運行的同時,也會表徵出各種各樣引數信息。通常來說運維人員、系統管理員會對這些資料會極為敏感,但是這些引數對於開發者來說也十分重要,尤其當你的程式非正常工作的時候,這些蛛絲馬跡往往會幫助快速定位跟蹤問題。

這裡只是一些簡單的工具查看系統的相關引數,當然很多工具也是通過分析加工 /proc、/sys 下的資料來工作的,而那些更加細緻、專業的性能監測和調優,可能還需要更加專業的工具(perf、systemtap 等)和技術才能完成哦。畢竟來說,系統性能監控本身就是個大學問。


一、CPU和記憶體類

1.1 top

➜ ~ top

第一行後面的三個值是系統在之前 1、5、15 的平均負載,也可以看出系統負載是上升、平穩、下降的趨勢,當這個值超過 CPU 可執行單元的數目,則表示 CPU 的性能已經飽和成為瓶頸了。


第二行統計了系統的任務狀態信息。running 很自然不必多說,包括正在 CPU 上運行的和將要被調度運行的;sleeping 通常是等待事件(比如 IO 操作)完成的任務,細分可以包括 interruptible 和 uninterruptible 的型別;stopped 是一些被暫停的任務,通常發送 SIGSTOP 或者對一個前臺任務操作 Ctrl-Z 可以將其暫停;zombie 僵屍任務,雖然行程終止資源會被自動回收,但是含有退出任務的 task descriptor 需要父行程訪問後才能釋放,這種行程顯示為 defunct 狀態,無論是因為父行程提前退出還是未 wait 呼叫,出現這種行程都應該格外註意程式是否設計有誤。

第三行 CPU 占用率根據型別有以下幾種情況:

  • (us) user:CPU 在低 nice 值(高優先級)用戶態所占用的時間(nice<=0)。正常情況下只要服務器不是很閑,那麼大部分的 CPU 時間應該都在此執行這類程式

  • (sy) system:CPU 處於內核態所占用的時間,操作系統通過系統呼叫(system call)從用戶態陷入內核態,以執行特定的服務;通常情況下該值會比較小,但是當服務器執行的 IO 比較密集的時候,該值會比較大

  • (ni) nice:CPU 在高 nice 值(低優先級)用戶態以低優先級運行占用的時間(nice>0)。預設新啟動的行程 nice=0,是不會計入這裡的,除非手動通過 renice 或者 setpriority() 的方式修改程式的nice值

  • (id) idle:CPU 在空閑狀態(執行 kernel idle handler )所占用的時間

  • (wa) iowait:等待 IO 完成做占用的時間

  • (hi) irq:系統處理硬體中斷所消耗的時間

  • (si) softirq:系統處理軟中斷所消耗的時間,記住軟中斷分為 softirqs、tasklets (其實是前者的特例)、work queues,不知道這裡是統計的是哪些的時間,畢竟 work queues 的執行已經不是中斷背景關係了

  • (st) steal:在虛擬機情況下才有意義,因為虛擬機下 CPU 也是共享物理 CPU 的,所以這段時間表明虛擬機等待 hypervisor 調度 CPU 的時間,也意味著這段時間 hypervisor 將 CPU 調度給別的 CPU 執行,這個時段的 CPU 資源被“stolen”了。這個值在我 KVM 的 VPS 機器上是不為 0 的,但也只有 0.1 這個數量級,是不是可以用來判斷 VPS 超售的情況?


CPU 占用率高很多情況下意味著一些東西,這也給服務器 CPU 使用率過高情況下指明瞭相應地排查思路:

  1. 當 user 占用率過高的時候,通常是某些個別的行程占用了大量的 CPU,這時候很容易通過 top 找到該程式;此時如果懷疑程式異常,可以通過 perf 等思路找出熱點呼叫函式來進一步排查;

  2. 當 system 占用率過高的時候,如果 IO 操作(包括終端 IO)比較多,可能會造成這部分的 CPU 占用率高,比如在 file server、database server 等型別的服務器上,否則(比如>20%)很可能有些部分的內核、驅動模塊有問題;

  3. 當 nice 占用率過高的時候,通常是有意行為,當行程的發起者知道某些行程占用較高的 CPU,會設置其 nice 值確保不會淹沒其他行程對 CPU 的使用請求;

  4. 當 iowait 占用率過高的時候,通常意味著某些程式的 IO 操作效率很低,或者 IO 對應設備的性能很低以至於讀寫操作需要很長的時間來完成;

  5. 當 irq/softirq 占用率過高的時候,很可能某些外設出現問題,導致產生大量的irq請求,這時候通過檢查 /proc/interrupts 檔案來深究問題所在;

  6. 當 steal 占用率過高的時候,黑心廠商虛擬機超售了吧!


第四行和第五行是物理記憶體和虛擬記憶體(交換分割槽)的信息:
total = free + used + buff/cache,現在buffers和cached Mem信息總和到一起了,但是buffers和cached

Mem 的關係很多地方都沒說清楚。其實通過對比資料,這兩個值就是 /proc/meminfo 中的 Buffers 和 Cached 欄位:Buffers 是針對 raw disk 的塊快取,主要是以 raw block 的方式快取檔案系統的元資料(比如超級塊信息等),這個值一般比較小(20M左右);而 Cached 是針對於某些具體的檔案進行讀快取,以增加檔案的訪問效率而使用的,可以說是用於檔案系統中檔案快取使用。

而 avail Mem 是一個新的引數值,用於指示在不進行交換的情況下,可以給新開啟的程式多少記憶體空間,大致和 free + buff/cached 相當,而這也印證了上面的說法,free + buffers + cached Mem才是真正可用的物理記憶體。並且,使用交換分割槽不見得是壞事情,所以交換分割槽使用率不是什麼嚴重的引數,但是頻繁的 swap in/out 就不是好事情了,這種情況需要註意,通常表示物理記憶體緊缺的情況。


最後是每個程式的資源占用串列,其中 CPU 的使用率是所有 CPU core 占用率的總和。通常執行 top 的時候,本身該程式會大量的讀取 /proc 操作,所以基本該 top 程式本身也會是名列前茅的。

top 雖然非常強大,但是通常用於控制台實時監測系統信息,不適合長時間(幾天、幾個月)監測系統的負載信息,同時對於短命的行程也會遺漏無法給出統計信息。


1.2 vmstat

vmstat 是除 top 之外另一個常用的系統檢測工具,下麵截圖是我用-j4編譯boost的系統負載。

r 表示可運行行程數目,資料大致相符;而b表示的是 uninterruptible 睡眠的行程數目;swpd 表示使用到的虛擬記憶體數量,跟 top-Swap-used 的數值是一個含義,而如手冊所說,通常情況下 buffers 數目要比 cached Mem 小的多,buffers 一般20M這麼個數量級;io 域的 bi、bo 表明每秒鐘向磁盤接收和發送的塊數目(blocks/s);system 域的 in 表明每秒鐘的系統中斷數(包括時鐘中斷),cs表明因為行程切換導致背景關係切換的數目。

說到這裡,想到以前很多人糾結編譯 linux kernel 的時候 -j 引數究竟是 CPU Core 還是 CPU Core+1?通過上面修改 -j 引數值編譯 boost 和 linux kernel 的同時開啟 vmstat 監控,發現兩種情況下 context switch 基本沒有變化,且也只有顯著增加 -j 值後 context switch 才會有顯著的增加,看來不必過於糾結這個引數了,雖然具體編譯時間長度我還沒有測試。資料說如果不是在系統啟動或者 benchmark 的狀態,引數 context switch>100000 程式肯定有問題。


1.3 pidstat


如果想對某個行程進行全面具體的追蹤,沒有什麼比 pidstat 更合適的了——棧空間、缺頁情況、主被動切換等信息盡收眼底。這個命令最有用的引數是-t,可以將行程中各個執行緒的詳細信息羅列出來。


-r: 顯示缺頁錯誤和記憶體使用狀況,缺頁錯誤是程式需要訪問映射在虛擬記憶體空間中但是還尚未被加載到物理記憶體中的一個分頁,缺頁錯誤兩個主要型別是

  1. minflt/s 指的 minor faults,當需要訪問的物理頁面因為某些原因(比如共享頁面、快取機制等)已經存在於物理記憶體中了,只是在當前行程的頁表中沒有取用,MMU 只需要設置對應的 entry 就可以了,這個代價是相當小的

  2. majflt/s 指的 major faults,MMU 需要在當前可用物理記憶體中申請一塊空閑的物理頁面(如果沒有可用的空閑頁面,則需要將別的物理頁面切換到交換空間去以釋放得到空閑物理頁面),然後從外部加載資料到該物理頁面中,並設置好對應的 entry,這個代價是相當高的,和前者有幾個資料級的差異


-s:棧使用狀況,包括 StkSize 為執行緒保留的棧空間,以及 StkRef 實際使用的棧空間。使用ulimit -s發現CentOS 6.x上面預設棧空間是10240K,而 CentOS 7.x、Ubuntu系列預設棧空間大小為8196K

-u:CPU使用率情況,引數同前面類似


-w:執行緒背景關係切換的數目,還細分為cswch/s因為等待資源等因素導致的主動切換,以及nvcswch/s執行緒CPU時間導致的被動切換的統計

如果每次都先ps得到程式的pid後再操作pidstat會顯得很麻煩,所以這個殺手鐧的-C可以指定某個字串,然後Command中如果包含這個字串,那麼該程式的信息就會被打印統計出來,-l可以顯示完整的程式名和引數
➜ ~ pidstat -w -t -C “ailaw” -l 

這麼看來,如果查看單個尤其是多執行緒的任務時候,pidstat比常用的ps更好使!

1.4 其他

當需要單獨監測單個 CPU 情況的時候,除了 htop 還可以使用 mpstat,查看在 SMP 處理器上各個 Core 的工作量是否負載均衡,是否有某些熱點執行緒占用 Core。
➜ ~ mpstat -P ALL 1

如果想直接監測某個行程占用的資源,既可以使用top -u taozj的方式過濾掉其他用戶無關行程,也可以採用下麵的方式進行選擇,ps命令可以自定義需要打印的條目信息:

while :; do ps -eo user,pid,ni,pri,pcpu,psr,comm | grep ‘ailawd’; sleep 1; done

如想理清繼承關係,下麵一個常用的引數可以用於顯示行程樹結構,顯示效果比pstree詳細美觀的多

➜ ~ ps axjf

二、磁盤IO類

iotop 可以直觀的顯示各個行程、執行緒的磁盤讀取實時速率;lsof 不僅可以顯示普通檔案的打開信息(使用者),還可以操作 /dev/sda1 這類設備檔案的打開信息,那麼比如當分割槽無法 umount 的時候,就可以通過 lsof 找出磁盤該分割槽的使用狀態了,而且添加 +fg 引數還可以額外顯示檔案打開 flag 標記。


2.1 iostat

➜ ~ iostat -xz 1


其實無論使用 iostat -xz 1 還是使用 sar -d 1,對於磁盤重要的引數是:

  • avgqu-s:發送給設備 I/O 請求的等待佇列平均長度,對於單個磁盤如果值>1表明設備飽和,對於多個磁盤陣列的邏輯磁盤情況除外

  • await(r_await、w_await):平均每次設備 I/O 請求操作的等待時間(ms),包含請求排列在佇列中和被服務的時間之和;

  • svctm:發送給設備 I/O 請求的平均服務時間(ms),如果 svctm 與 await 很接近,表示幾乎沒有 I/O 等待,磁盤性能很好,否則磁盤佇列等待時間較長,磁盤響應較差;

  • %util:設備的使用率,表明每秒中用於 I/O 工作時間的占比,單個磁盤當 %util>60% 的時候性能就會下降(體現在 await 也會增加),當接近100%時候就設備飽和了,但對於有多個磁盤陣列的邏輯磁盤情況除外;


還有,雖然監測到的磁盤性能比較差,但是不一定會對應用程式的響應造成影響,內核通常使用 I/O asynchronously 技術,使用讀寫快取技術來改善性能,不過這又跟上面的物理記憶體的限制相制約了。


上面的這些引數,對網絡檔案系統也是受用的。

三、網絡類


網絡性能對於服務器的重要性不言而喻,工具 iptraf 可以直觀的現實網卡的收發速度信息,比較的簡潔方便通過 sar -n DEV 1 也可以得到類似的吞吐量信息,而網卡都標配了最大速率信息,比如百兆網卡千兆網卡,很容易查看設備的利用率。

通常,網卡的傳輸速率並不是網絡開發中最為關切的,而是針對特定的 UDP、TCP 連接的丟包率、重傳率,以及網絡延時等信息。

3.1 netstat

➜ ~ netstat -s

顯示自從系統啟動以來,各個協議的總體資料信息。雖然引數信息比較豐富有用,但是累計值,除非兩次運行做差才能得出當前系統的網絡狀態信息,亦或者使用 watch 眼睛直觀其數值變化趨勢。所以netstat通常用來檢測端口和連接信息的:


netstat –all(a) –numeric(n) –tcp(t) –udp(u) –timers(o) –listening(l) –program(p)


–timers可以取消域名反向查詢,加快顯示速度;比較常用的有

➜  ~ netstat -antp  #列出所有TCP的連接

➜  ~ netstat -nltp   #列出本地所有TCP偵聽套接字,不要加-a引數

3.2 sar

sar 這個工具太強大了,什麼 CPU、磁盤、頁面交換啥都管,這裡使用 -n 主要用來分析網絡活動,雖然網絡中它還給細分了 NFS、IP、ICMP、SOCK 等各種層次各種協議的資料信息,我們只關心 TCP 和 UDP。下麵的命令除了顯示常規情況下段、資料報的收發情況,還包括

TCP
➜ ~ sudo sar -n TCP,ETCP 1 

  • active/s:本地發起的 TCP 連接,比如通過 connect(),TCP 的狀態從CLOSED -> SYN-SENT

  • passive/s:由遠程發起的 TCP 連接,比如通過 accept(),TCP 的狀態從LISTEN -> SYN-RCVD

  • retrans/s(tcpRetransSegs):每秒鐘 TCP 重傳數目,通常在網絡質量差,或者服務器過載後丟包的情況下,根據 TCP 的確認重傳機制會發生重傳操作

  • isegerr/s(tcpInErrs):每秒鐘接收到出錯的資料包(比如 checksum 失敗)


UDP
➜ ~ sudo sar -n UDP 1 

  • noport/s(udpNoPorts):每秒鐘接收到的但是卻沒有應用程式在指定目的端口的資料報個數

  • idgmerr/s(udpInErrors):除了上面原因之外的本機接收到但卻無法派發的資料報個數

當然,這些資料一定程度上可以說明網絡可靠性,但也只有同具體的業務需求場景結合起來才具有意義。

3.3 tcpdump


tcpdump 不得不說是個好東西。大家都知道本地除錯的時候喜歡使用 wireshark,但是線上服務端出現問題怎麼弄呢?


附錄的參考文獻給出了思路:複原環境,使用 tcpdump 進行抓包,當問題復現(比如日誌顯示或者某個狀態顯現)的時候,就可以結束抓包了,而且 tcpdump 本身帶有 -C/-W 引數,可以限制抓取包儲存檔案的大小,當達到這個這個限制的時候儲存的包資料自動 rotate,所以抓包數量總體還是可控的。此後將資料包拿下線來,用 wireshark 想怎麼看就怎麼看,豈不樂哉!tcpdump 雖然沒有 GUI 界面,但是抓包的功能絲毫不弱,可以指定網卡、主機、端口、協議等各項過濾引數,抓下來的包完整又帶有時間戳,所以線上程式的資料包分析也可以這麼簡單。

下麵就是一個小的測試,可見 Chrome 啟動時候自動向 Webserver 發起建立了三條連接,由於這裡限制了 dst port 引數,所以服務端的應答包被過濾掉了,拿下來用 wireshark 打開,SYNC、ACK 建立連接的過程還是很明顯的!在使用 tcpdump 的時候,需要盡可能的配置抓取的過濾條件,一方面便於接下來的分析,二則 tcpdump 開啟後對網卡和系統的性能會有影響,進而會影響到在線業務的性能。

本文完!

來源:taozj

https://taozj.org/201701/linux-performance-basic.html

《Linux雲計算及運維架構師高薪實戰班》2018年07月16日即將開課中,120天衝擊Linux運維年薪30萬,改變速約~~~~

    *宣告:推送內容及圖片來源於網絡,部分內容會有所改動,版權歸原作者所有,如來源信息有誤或侵犯權益,請聯繫我們刪除或授權事宜。

    – END –


    更多Linux好文請點擊【閱讀原文】

    ↓↓↓

    赞(0)

    分享創造快樂