SD-WAN Gateway は、トラフィックのバーストを処理し、高い CPU のバーストが予想されます。Gateway では、100% でスピンしている CPU コアを監視する必要があります。ただし、DPDK コアはパフォーマンス上の理由からポーリング モードで実行され、高いスループットで CPU の使用率が 100% に近くなることが想定されます。
サービスに影響を与える前に、潜在的な問題を示す警告または重大な状態を提供するしきい値を持つ Gateway を監視できます。次の表に、しきい値と推奨アクションを示します。
しきい値の状態 | しきい値 | 推奨される修正アクション | |
---|---|---|---|
DP コア | Non DP コア | ||
警告 | 95% | 80% | しきい値を 5 分間一貫して超過した場合:
しきい値を 5 分間一貫して超過した場合:
|
重大 | 98% | 90% | しきい値を 5 分間一貫して超過した場合:
この問題が 1 時間発生した場合:
|
CPU 使用率を監視する Python スクリプトの例を次に示します。
注: Telegraf を使用して CPU 使用率を監視することもできます。詳細については、
Telegraf を使用した Gateway の監視を参照してください。
#! /usr/bin/env python """ Check for CPUs spinning at 100% """ import re import collections import time import sys import json import os import subprocess re_cpu = re.compile(r"^cpu\d+\s") CPUStat = collections.namedtuple('CPUStat', ['user', 'nice', 'sys', 'idle']) def get_stats(): stats = open("/proc/stat").readlines() ret = {} for s in stats: if not re_cpu.search(s): continue s = s.split() ret[s[0]] = CPUStat(*[ int(v) for v in s[1:5]]) return ret def verify_dpdk_support(): if os.path.isfile('/opt/vc/etc/dpdk.json'): with open("/opt/vc/etc/dpdk.json") as data: d=json.loads((data.read())) if "status" in d.keys(): return True if d['status'] is "Supported" else False else: return False def another_verify_dpdk_support(): if os.path.isfile('/opt/vc/bin/debug.py'): f=subprocess.check_output(["/opt/vc/bin/debug.py","--dpdk_ports_dump"]) x=[r.split() for r in f.split('\n')] if len(x) <= 1: return False else: return True else: return False dpdk_status=verify_dpdk_support() or another_verify_dpdk_support() if __name__ == "__main__": try: stat1 = get_stats() time.sleep(3) stat2 = get_stats() except: print "UKNOWN - failed to get CPU stat: %s" % str(sys.exc_info()[1]) sys.exit(3) busy_cpu_set = [ cpu for cpu in stat1 if (stat2[cpu].idle - stat1[cpu].idle)==0 ] if not busy_cpu_set: print "OK - no spinning CPUs" sys.exit(0) if dpdk_status == True: if "cpu1" in busy_cpu_set and len(busy_cpu_set) == 1: print "OK - no spinning CPUs" sys.exit(0) elif "cpu1" in busy_cpu_set: busy_cpu_set.remove('cpu1') print "CRITICAL - %s is at 100%%" % (",".join(busy_cpu_set)) sys.exit(2) else: print busy_cpu_set,1 print "CRITICAL - %s is at 100%%" % (",".join(busy_cpu_set)) sys.exit(2) else: print "CRITICAL - %s is at 100%%" % (",".join(busy_cpu_set)) sys.exit(2)