首頁 >web前端 >js教程 >為什麼需要效能監控？聊聊Node.js效能監控

為什麼需要效能監控？聊聊Node.js效能監控

青灯夜游轉載: 2022-08-11 20:14:272704瀏覽

為什麼需要效能監控？以下這篇就來帶大家了解一下Node.js效能監控，希望對大家有幫助！

為什麼需要效能監控

#Node作為Javascript在服務端的一個執行時間（Runtime），極大的豐富了Javascript的應用場景。

但是Node.js Runtime本身就是一個黑盒，我們無法感知運行時的狀態，對於線上問題也難以復現。

因此效能監控是Node.js應用程式「正常運作」的基石。不僅可以隨時監控執行時期的各項指標，還可以幫助排除異常場景問題。

組成部分

效能監控可以分為兩個部分：

效能指標的擷取與展示
- 進程層級的資料：CPU，Memory，Heap，GC等
- 系統層級的資料：磁碟佔用率，I/O負載，TCP/UDP連線狀態等
- #應用層的資料：QPS，慢HTTP，業務處理鏈路日誌等
#效能資料的抓取和分析
- Heapsnapshot：堆記憶體快照
- Cpuprofile：CPU快照
- Coredump：套用崩潰快照

為什麼需要效能監控？聊聊Node.js效能監控

##從上圖可以看到目前主流的三種Node.js效能監控方案的優缺點，以下是簡單介紹這三種方案的組成：
- Prometheus
  - prom-client
  grafana
- 只支援了效能指標的擷取與展示，排查問題還需要其他快照工具，才能組成閉迴路
  - AliNode alinode是一個相容官方nodejs的拓展運行時，提供了一些額外功能：
  ##v8的執行時期記憶體狀態監控
- libuv的執行階段狀態監控
  #線上故障診斷功能：堆疊快照、CPU Profile、GC Trace等
agenthub是常駐進程，用來收集效能指標並回報
- 整合了agentx
- 的便利工具
- 整體從監控，展示，快照，分析形成閉環，接入便捷簡單，但是拓展運行時還是有風險

Easy-Monitor

#xprofiler

負責進行即時的執行時間狀態取樣，以及輸出效能日誌（也就是效能數據的抓取）

為什麼需要效能監控？聊聊Node.js效能監控

xtransit

負責效能日誌的擷取與傳輸跟AliNode最大的差別在於使用了

Node.js Addon

效能指標

#CPU 為什麼需要效能監控？聊聊Node.js效能監控

透過

可以取得目前進程的CPU耗時數據，回傳值的單位是微秒
##user：進程執行時本身消耗的CPU時間
system：進程執行時系統消耗的CPU時間
Memory

為什麼需要效能監控？聊聊Node.js效能監控

###透過# ##process.memoryUsage()###可以取得目前進程的記憶體分配數據，回傳值的單位是位元組#########rss：常駐內存，node程序分配的總記憶體大小## ####heapTotal：v8申請的堆記憶體大小######heapUsed：v8已使用的堆記憶體大小######external：v8管理的C 所佔用的記憶體大小###### arrayBuffers：分配給ArrayBuffer的記憶體大小################

從上圖可以看出，rss包含程式碼段(Code Segment)、堆疊記憶體(Stack)、堆記憶體(Heap )

Code Segment：儲存程式碼片段
Stack：儲存局部變數和管理函數呼叫
Heap：儲存物件、閉包、或其他一切

Heap

透過v8.getHeapStatistics()和v8.getHeapSpaceStatistics()可以取得v8堆內存和堆空間的分析數據，下圖展示了v8的堆內存組成分佈：

為什麼需要效能監控？聊聊Node.js效能監控

堆內存空間先劃分為空間（space），空間又劃分為頁（page），記憶體依照1MB對齊進行分頁。

New Space：新生代空間，用來存放一些生命週期比較短的物件數據，平分為兩個空間（空間類型為semi space）： from space，to space
- 升遷條件：在New space中經過兩次GC依舊存活

Old Space：老生代空間，用來存放

New Space

晉升的物件為什麼需要效能監控？聊聊Node.js效能監控

Code Space：存放v8 JIT編譯後的可執行程式碼Map Space：存放Object指向的隱藏類別的指標目標，隱藏類別指標是v8根據執行時間記錄下的物件佈局結構，用於快速存取物件成員

Large Object Space：用來存放大於1MB而無法分配到頁的物件

##v8的垃圾回收演算法分為兩類：
Major GC：使用了
演算法，用於老生代的物件回收
Minor GC ：使用了
- 演算法，用於新生代的物件回收
- Scavenge
前提：
New space分為from與to
兩個物件空間
觸發時機：當
New space空間滿了步驟：
在

中，進行寬度優先遍歷

發現存活（可達）物件

已經存活過一次（經歷過一次Scavange），晉升到

Old space

為什麼需要效能監控？聊聊Node.js效能監控

其他的複製到

to space

中

當複製結束時，

to space

from space
就被清空了
- 交換
- from space
- to space
- Scavenge
- 適用於回收頻繁，記憶體不大的對象，典型的空間換時間的策略，缺點是浪費了多一倍的空間
- Mark- Sweep-Compact
- 三個步驟：標記、清除、整理
- 觸發時機：當
空間滿了
步驟：
- Marking（三色標記法）
- 白色：代表可回收物件
灰色：代表不可回收對象，且其所產生的引用還沒掃描完
###將V8根對象直接引用的物件放進一個###marking queue###（顯式堆疊）中，並將這些物件標記為灰色######從這些物件開始做深度優先遍歷，每存取一個對象，將該物件從###marking queue### ###pop###出來，並標記為黑色######然後將該物件引用下的所有白色物件標記為灰色，###push###到###marking queue###上，如此往復######直到堆疊上所有物件都pop掉為止，老生代的物件只剩下黑色（不可回收）和白色（可以回收）兩種了######PS：當一個物件太大，無法push到空間有限的堆疊時，v8會把這個物件保留灰色跳過，將整個堆疊標記為溢位狀態（overflowed），等堆疊清空後，再次進行遍歷標記，這樣導致需要額外掃描一遍堆###############Sweep#########清除白色物件######會造成記憶體空間不連續###############Compact###
- 由於Sweep會造成記憶體空間不連續，不利於新物件進入GC
- 把黑色（存活）物件移到Old space的一端，這樣清除出來的空間就是連續完整的
- 雖然可以解決記憶體碎片問題，但是會增加停頓時間（執行速度慢）
- 在空間不足以對新生代晉升過來的物件進行分配時才使用mark-compact

Stop-The-World

在最開始v8進行垃圾回收時，需要停止程式的運行，掃描完整個堆，回收完內存，才會重新執行程式。這種行為就叫全停頓（Stop-The-World）

雖然新生代活動對象較小，回收頻繁，全停頓，影響不大，但是老生代存活對像多且大，標記、清理、整理等造成的停頓就會比較嚴重。

優化策略

增量回收（Incremental Marking）：在Marking階段，當堆達到一定大小時，開始增量GC，每次分配了一定量的記憶體後，就暫停執行程序，做幾毫秒到幾十毫秒的marking，然後再恢復程式的運作。

這個理念其實有點像React框架中的Fiber架構，只有在瀏覽器的空閒時間才會去遍歷Fiber Tree執行對應的任務，否則延遲執行，盡可能少地影響主線程的任務，避免應用卡頓，提升應用效能。

並發清除（Concurrent Sweeping）：讓其他執行緒同時來做sweeping，而不用擔心和執行程式的主執行緒衝突
並行清除（Parallel Sweeping）：讓多個Sweeping 執行緒同時運作，提升sweeping 的吞吐量，縮短整個GC 的週期

#空間調整

由於v8對於新老生代的空間預設限制了大小

New space 預設限制：64位元系統為32M，32位元系統為16M
Old space# 預設限制： 64位元系統為1400M，32位元系統為700M

因此node提供了兩個參數用於調整新老生代的空間上限

#--max-semi-space-size：設定New Space空間的最大值
##--max-old-space-size：設定Old Space空間的最大值

查看GC日誌

##node

查看GC日誌

##node也提供了三種檢視GC日誌的方式：
--trace_gc：一行日誌簡單描述每次GC時的時間、型別、堆大小變更和產生原因
--trace_gc_verbose：展示每次GC後每個V8堆空間的詳細狀況

--trace_gc_nvp：每次GC的詳細鍵值對訊息，包含GC類型，暫停時間，記憶體變化等

由於GC日誌比較原始，還需要二次處理，可以使用AliNode團隊開發的v8-gc-log-parser

快照工具

Heapsnapshot

對於執行程式的堆記憶體進行快照取樣，可以用來分析記憶體的消耗以及變化

產生方式

.heapsnapshot
檔案有以下幾種方式：

heapdump

為什麼需要效能監控？聊聊Node.js效能監控

heap- profile

為什麼需要效能監控？聊聊Node.js效能監控

- #使用nodejs內建的v8模組提供的api
v8.getHeapSnapshot()
v8.writeHeapSnapshot(fileName)

v8-profiler-next

1為什麼需要效能監控？聊聊Node.js效能監控

分析方法

產生的 1為什麼需要效能監控？聊聊Node.js效能監控 .heapsnapshot

文件，可以在Chrome devtools工具列的Memory，選擇上傳後，展示結果如下圖：############

預設的視圖是Summary視圖，在這裡我們要關注最右邊兩欄：Shallow Size 和Retained Size

Shallow Size：表示該物件本身在v8堆記憶體分配的大小
#Retained Size：表示該物件所有引用物件的Shallow Size之和

當發現Retained Size特別大時，該物件內部可能存在記憶體洩漏，可以進一步展開去定位問題

還有Comparison視圖是用來比較分析兩個不同時段的堆快照，透過Delta列可以篩選出記憶體變化最大的物件

1為什麼需要效能監控？聊聊Node.js效能監控

Cpuprofile

對於執行程式的CPU進行快照取樣，可以用來分析CPU的耗時及佔比

##產生方式

產生

.cpuprofile檔案有以下幾種方式：

（node官方提供的工具，不過已經無法支援node v10以上的版本，並不再維護）
（國人維護版本，支援到最新node v18，持續維護中）

為什麼需要效能監控？聊聊Node.js效能監控

分析方法

產生的

.cpuprofile

文件，可以在Chrome devtools工具列的Javascript Profiler（不在預設tab，需要在工具列右側的更多中開啟顯示），選擇上傳文件後，展示結果如下圖：

為什麼需要效能監控？聊聊Node.js效能監控預設的視圖是

Heavy

視圖，在這裡我們看到有兩欄：Self Time和Total Time

：代表此函數本身（不包含其他呼叫）的執行耗時
：代表此函數（包含其他呼叫函數）的總執行耗時

Total Time

和Self Time偏差較大時，此函數可能存在耗時比較多的CPU密集型運算，也可以展開進一步定位排查

#Codedump

當應用程式意外崩潰終止時，系統會自動記錄下進程crash掉那一刻的記憶體分配信息，Program Counter以及堆疊指標等關鍵資訊來產生core檔

##產生方式

產生.core

檔案的三種方法：

ulimit -c unlimited

node --abort-on-uncaught-exception
#gcore

取得.core

檔案後，可以透過mdb、gdb、lldb等工具實現解析診斷實際進程crash的原因

llnode `which node` -c /path/to/core/dump

## 案例分析

為什麼需要效能監控？聊聊Node.js效能監控

##觀察 1為什麼需要效能監控？聊聊Node.js效能監控

從監控可以觀察到堆內存在持續上升，因此需要堆快照進行排查

分析

為什麼需要效能監控？聊聊Node.js效能監控

根據

heapsnapshot可以分析排查到有一個newThing的物件一直保持著比較大的記憶體排查

從程式碼可以看到雖然

unused

方法沒有調用，但是

newThing# ##物件是引用自###theThing###，導致其一直存在於###replaceThing###這個函數的執行上下文中，沒有被釋放，這就是典型的由於閉包產生的記憶體洩漏案例# ########小結#########常見的記憶體洩漏有以下幾種情況：###

全域變數
閉包
計時器
事件監聽
快取

因此在上述這幾種情況時，一定要謹慎考慮物件在記憶體中是否會被自動回收，不會被自動回收的話，需要手動進行回收，例如手動把物件設定為null、移除定時器、解綁事件監聽等

總結

至此，本文已經對整個Node.js的效能監控系統進行了詳細的介紹。

首先，介紹了效能監控解決的問題，組成部分以及主流方案的優缺點對比。

然後，針對兩大部分效能指標和快照工具進行了具體的介紹，

效能指標主要關注CPU、記憶體、堆空間、GC幾個指標，同時介紹了v8的GC策略和GC最佳化方案，
快照工具主要有堆快照、CPU快照以及崩潰時的Coredump

最後，從觀察、分析、檢查再現一個簡單的記憶體洩漏案例，並總結了常見記憶體洩漏的情況和解決方案。

希望這篇文章能幫助大家對整個Node.js的效能監控系統有所了解。

更多node相關知識，請造訪：nodejs 教學！

以上是為什麼需要效能監控？聊聊Node.js效能監控的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：juejin.cn。如有侵權，請聯絡admin@php.cn刪除

上一篇：Node.js如何進行版本管理？ 3款實用版管理工具分享下一篇：Node.js如何進行版本管理？ 3款實用版管理工具分享

看更多