本節說明 Orchestrator 上的系統度量監控。
Orchestrator 系統度量監控概觀
Orchestrator 隨附內建系統度量監控堆疊,其中包括度量收集器和時間序列資料庫。您可以使用監控堆疊輕鬆檢查 Orchestrator 的健全狀況條件和系統負載。
若要啟用監控堆疊,請在 Orchestrator 上執行下列命令:
sudo /opt/vc/scripts/vco_observability_manager.sh enable
若要檢查監控堆疊的狀態,請執行:
sudo /opt/vc/scripts/vco_observability_manager.sh status
若要停用監控堆疊,請執行:
sudo /opt/vc/scripts/vco_observability_manager.sh disable
度量收集器
Telegraf 會用作 Orchestrator 系統度量收集器,其中包括用於收集系統度量的外掛程式。依預設會啟用下列度量。
度量名稱 | 說明 |
---|---|
inputs.cpu | 有關 CPU 使用率的度量。 |
inputs.mem | 有關記憶體使用量的度量。 |
inputs.net | 有關網路介面的度量。 |
inputs.system | 有關系統負載和運作時間的度量。 |
inputs.processes | 按狀態分組的程序數目。 |
inputs.disk | 有關磁碟使用量的度量。 |
inputs.diskio | 有關按裝置統計磁碟 IO 的度量。 |
inputs.procstat | 特定程序的 CPU 和記憶體使用量。 |
inputs.nginx | Nginx 的基本狀態資訊 (ngx_http_stub_status_module)。 |
inputs.mysql | 來自 MySQL 伺服器的統計資料。 |
inputs.clickhouse | 來自一或多個 ClickHouse 伺服器的度量。 |
inputs.redis | 來自一或多個 redis 伺服器的度量。 |
inputs.filecount | 指定目錄中檔案的數目和大小總計。 |
inputs.ntpq | 標準 NTP 查詢度量 (需要 ntpq 可執行檔)。 |
Inputs.x509_cert | 來自 SSL 憑證的度量。 |
若要啟用更多度量或停用某些已啟用的度量,請在 Orchestrator 上編輯 Telegraf 組態檔,如下所示:
- sudo vi /etc/telegraf/telegraf.d/system_metrics_input.conf
- sudo systemctl restart telegraf
時間序列資料庫
Prometheus 用於儲存 Telegraf 所收集的系統度量。度量資料最久會在資料庫中保留三週。依預設,Prometheus 會接聽連接埠 9090。如果您有外部監控工具,請提供 Prometheus 資料庫作為來源,以便您可以在監控 UI 上檢視 Orchestrator 系統度量。