クラッシュ診断を使用したワークロードクラスタのトラブルシューティング

このトピックでは、クラッシュ診断 (Crashd) を使用して、スタンドアローン管理クラスタを使用する Tanzu Kubernetes Grid の Photon OS に基づいて不安定なワークロードクラスタや応答しないワークロードクラスタを診断する方法について説明します。

Crashd を使用して vSphere with Tanzu スーパーバイザーによって展開されたワークロードクラスタを診断する方法については、VMware ナレッジベースの「vSphere with Tanzu 上の Tanzu Kubernetes ゲストクラスタから診断ログバンドルを収集する方法」を参照してください。

概要：Crashd

Crashd は、クラスタをクラウドインフラストラクチャに展開する前に、tanzu cluster create プロセスが kind を使用してローカルに作成するブートストラップワークロードクラスタを調べます。

Crashd は、Kubernetes クラスタの問題を簡単にトラブルシューティングできるオープンソースプロジェクトです。

Crashd は、Python に似た言語である Starlark で記述されたスクリプトファイルを使用し、管理クラスタまたはワークロードクラスタと通信してインフラストラクチャとクラスタ情報を収集します。

Crashd は、次を含むサポートされているインフラストラクチャから診断情報を収集できます。

AWS
Azure
vSphere

Crashd は、スクリプトによって実行されるコマンドの出力を取得し、tar ファイルに出力を追加します。tar ファイルは、さらに分析するためにローカルに保存されます。

Tanzu Kubernetes Grid には、Crashd 用の署名付きバイナリと、Photon OS ワークロードクラスタ用の診断スクリプトファイルが含まれています。

Crashd バイナリのインストールまたはアップグレード

crashd をインストールまたはアップグレードするには、次の手順を実行します。

Tanzu Kubernetes Grid のダウンロードページに移動し、VMware Customer Connect の認証情報を使用してログインします。
ご利用のプラットフォーム用の Crashd をダウンロードします。
- Linux：crashd-linux-amd64-v0.3.7+vmware.5-4-g59b239d.tar.gz
- macOS：crashd-darwin-amd64-v0.3.7+vmware.5-4-g59b239d.tar.gz
tar コマンドを使用して、プラットフォームのバイナリを解凍します。
- Linux：
```
tar -xvf crashd-linux-amd64-v0.3.7-vmware.6.tar.gz
```
- macOS：
```
tar -xvf crashd-darwin-amd64-v0.3.7-vmware.6.tar.gz
```
前の手順では、次のファイルを含む crashd という名前のディレクトリを作成します。
```
crashd
crashd/args
crashd/diagnostics.crsh
crashd/crashd-PLATFORM-amd64-v0.3.7+vmware.6
```

バイナリを /usr/local/bin フォルダに移動します。

Linux：

mv ./crashd/crashd-linux-amd64-v0.3.7+vmware.6 /usr/local/bin/crashd

macOS：

mv ./crashd/crashd-darwin-amd64-v0.3.7+vmware.6 /usr/local/bin/crashd

Photon OS ワークロードクラスタで Crashd を実行する

Crashd を実行すると、args ファイルから引数の値を取得し、スクリプトファイル diagnostics.crsh に渡します。このスクリプトは、コマンドを実行して、Photon OS ワークロードクラスタの問題を診断するのに役立つ情報を抽出します。

前提条件

Crashd スクリプト diagnostics.crsh を実行する前に、ローカルマシンの実行パスに次のプログラムが必要です。

kubectl
scp
ssh

注
ブートストラップクラスタの問題を調査する場合は、kind（v0.7.0 以降）コマンドをローカルにインストールする必要があります。

さらに、Crashd を実行する前に、次の手順を実行する必要があります。

SSH プライベートキーとパブリックキーのペアで Crashd を構成します。
Tanzu Kubernetes Grid 仮想マシンが SSH パブリックキーを使用するように構成されていることを確認します。
コマンド tanzu mc kubeconfig get <management-cluster-name> を使用して、管理クラスタの kubeconfig ファイルを抽出します。
セットアップを簡単にするには、kubeconfig、public-key ファイル、diagnostics.crsh ファイル、および args ファイルが同じ場所にあることを確認します。
トラブルシューティング対象のワークロードクラスタを展開するために作成されたもの以外のローカル kind クラスタを削除します。
- docker ps を実行して、現在実行中の kind クラスタを特定します
- kind delete cluster --name CLUSTER-NAME を実行して、他の kind クラスタを削除します。

Crashd の構成

Crashd バンドルをダウンロードして展開した場所に移動します。

テキストエディタで、既存の引数ファイル args を次のコードで上書きします。このファイルには、CrashD スクリプトに渡すキー/値のペアが含まれています。

# ######################################################
# Crashd script argument file
#
# This file defines CLI argument values that are passed
# Crashd when running scripts for troubleshooting TKG
# clusters.
# ######################################################

# target: specifies cluster to target.
# Valid targets are: {bootstrap, mgmt, workload}
target=mgmt

# infra: the underlying infrastructure used by the TKG cluster.
# Valid values are: {vsphere, aws, azure}
infra=vsphere

# workdir: a local directory where collected files are staged.
workdir=./workdir

# ssh_user: the user ID used for SSH connections to cluster nodes.
ssh_user=capv

# ssh_pk_file: the path to the private key file created to SSH
# into cluster nodes.
ssh_pk_file=./capv.pem

# ######################################################
# Management Cluster
# The following arguments are used to collect information
# from a management cluster or named workload clusters.
# ######################################################

# mgmt_cluster_config: the kubeconfig file path for the management cluster.
mgmt_cluster_config=./tkg_cluster_config

# ######################################################
# Workload Cluster
# The following arguments are used to collect information
# from one or more workload clusters that are managed
# by the management cluster configured above.
# ######################################################

# workload_clusters: a comma separated list of workload cluster names
# [uncomment below]
#workload_clusters=tkg-cluster-wc-498

# workload_cluster_ns: the namespace where the workload cluster
# is hosted in the management plane.
# Note: it's actually the namespace in which the secrets/${workload_cluster_name}-kubeconfig
# is created in the management cluster.
# [uncomment below]
#workload_cluster_ns=default

SSH プライベートキーファイルへのローカルパスを記録します。SSH キーペアがない場合、または新しいキーペアを生成する場合は、「SSH キーペアの作成」の記載どおりに ssh-keygen を実行します。例：

ssh-keygen -t rsa -b 4096 -C "[email protected]"

プロンプトが表示されたら、ファイルの場所のローカルパスを入力します。SSH キーペアの作成の詳細を参照してください。
args ファイルで次の引数を設定します。
- target：この値を次のいずれかに設定します。
  - ローカルブートストラップスタンドアローン管理クラスタを診断する場合は bootstrap
  - 展開されたスタンドアローン管理クラスタを診断する場合は mgmt
  - 1 つ以上のワークロードクラスタを診断する場合は workload
- infra：クラスタの基盤となるインフラストラクチャ：aws、 azure、または vsphere。
- workdir：ファイルが収集される場所。
- ssh_user：クラスタマシンへのアクセスに使用される SSH ユーザー。vSphere で実行されているクラスタの場合、ユーザー名は capv です。
- ssh_pk_file：SSH プライベートキーファイルへのパス。
- mgmt_cluster_config 管理クラスタの kubeconfig ファイルのパスです。
ワークロードクラスタを診断するには、上記の引数に加えて、次についてコメントアウトして設定します。
- workload_clusters：診断情報の収集元となるワークロードクラスタ名のカンマ区切りリスト。
- workload_cluster_ns：管理クラスタで secrets/WORKLOAD-CLUSTER-NAME-kubeconfig が作成される名前空間。

Crashd の実行

以下の診断ファイル diagnostics.crsh のコードを含む Crashd スクリプトファイル diagnostics.crsh を作成します。
スクリプトファイル diagnostics.crsh および引数ファイル args が配置されている場所から crashd コマンドを実行します。
```
crashd run --args-file args diagnostics.crsh
```

必要に応じて、Crashd 出力を監視します。デフォルトでは、crashd コマンドは完了するまでサイレントで実行されます。ただし、--debug フラグを使用して、次のようなログメッセージを画面に表示できます。

crashd run --debug --args-file args diagnostics.crsh

DEBU[0003] creating working directory ./workdir/tkg-kind-12345
DEBU[0003] kube_capture(what=objects)
DEBU[0003] Searching in 20 groups
...
DEBU[0015] Archiving [./workdir/tkg-kind-12345] in bootstrap.tkg-kind-12345.diagnostics.tar.gz
DEBU[0015] Archived workdir/tkg-kind-12345/kind-logs/docker-info.txt
DEBU[0015] Archived workdir/tkg-kind-12345/kind-logs/tkg-kind-12345-control-plane/alternatives.log
DEBU[0015] Archived workdir/tkg-kind-12345/kind-logs/tkg-kind-12345-control-plane/containerd.log

診断ファイル `diagnostics.crsh`

CrashD バンドルのダウンロードで、crashd run コマンドに渡すスクリプトとして、既存の diagnostics.crsh ファイルを次のコードで上書きします。

def capture_node_diagnostics(nodes):
    capture(cmd="sudo df -i", resources=nodes)
    capture(cmd="sudo crictl info", resources=nodes)
    capture(cmd="df -h /var/lib/containerd", resources=nodes)
    capture(cmd="sudo systemctl status kubelet", resources=nodes)
    capture(cmd="sudo systemctl status containerd", resources=nodes)
    capture(cmd="sudo journalctl -xeu kubelet", resources=nodes)
    capture(cmd="sudo journalctl -xeu containerd", resources=nodes)
    capture(cmd="sudo cat /var/log/cloud-init-output.log", resources=nodes)
    capture(cmd="sudo cat /var/log/cloud-init.log", resources=nodes)
def capture_windows_node_diagnostics(nodes):
    capture(cmd="Get-CimInstance -ClassName Win32_LogicalDisk", file_name="disk_info.out", resources=nodes)
    capture(cmd="(Get-ItemProperty -Path c:\\windows\\system32\\hal.dll).VersionInfo.FileVersion",file_name="windows_version_info.out", resources=nodes)
    capture(cmd="cat C:\\k\\StartKubelet.ps1 ; cat C:\\var\\lib\\kubelet\\kubeadm-flags.env", resources=nodes)
    capture(cmd="Get-Service Kubelet | select * ", resources=nodes)
    capture(cmd="Get-Service Containerd | select * ", resources=nodes)
    capture(cmd="Get-Service ovs* | select * ", resources=nodes)
    capture(cmd="Get-Service antrea-agent | select * ", resources=nodes)
    capture(cmd="Get-Service kube-proxy | select * ", resources=nodes)
    capture(cmd="Get-Service Kubelet | select * ", resources=nodes)
    capture(cmd="Get-HNSNetwork", resources=nodes)
    capture(cmd="& 'c:\\Program Files\\containerd\\crictl.exe' -r 'npipe:////./pipe/containerd-containerd' info", resources=nodes)
    capture(cmd="Get-MpPreference | select ExclusionProcess", resources=nodes)
    capture(cmd="cat c:\\var\\log\\kubelet\\kubelet.exe.INFO", resources=nodes)
    capture(cmd="cat c:\\var\\log\\antrea\\antrea-agent.exe.INFO", resources=nodes)
    capture(cmd="cat c:\\var\\log\\kube-proxy\\kube-proxy.exe.INFO", resources=nodes)
    capture(cmd="cat 'c:\\Program Files\\Cloudbase Solutions\\Cloudbase-Init\\log\\cloudbase-init-unattend.log'", resources=nodes)
    capture(cmd="cat 'c:\\Program Files\\Cloudbase Solutions\\Cloudbase-Init\\log\\cloudbase-init.log'", resources=nodes)
    copy_from(path="C:\\Windows\\System32\\Winevt\\Logs\\System.evtx", resources=nodes)
    copy_from(path="C:\\Windows\\System32\\Winevt\\Logs\\Application.evtx", resources=nodes)
    copy_from(path="c:\\openvswitch\\var\\log\\openvswitch\\ovs-vswitchd.log", resources=nodes)
    copy_from(path="c:\\openvswitch\\var\\log\\openvswitch\\ovsdb-server.log", resources=nodes)
# fetches a suitable capi provider, for either capa or others (capv/capz),
# to be used for enumerating cluster machines
def fetch_provider(iaas, workload_cluster_name, ssh_cfg, kube_cfg, namespace, filter_labels):
    # workaround: vsphere and azure use same provider as they work similarly (see issue #162)
    if iaas == "vsphere" or iaas == "azure":
        provider = capv_provider(
            workload_cluster=workload_cluster_name,
            namespace=namespace,
            ssh_config=ssh_cfg,
            mgmt_kube_config=kube_cfg,
            labels=filter_labels
        )
    else:
        provider = capa_provider(
            workload_cluster=workload_cluster_name,
            namespace=namespace,
            ssh_config=ssh_cfg,
            mgmt_kube_config=kube_cfg,
            labels=filter_labels
        )
    return provider
# retrieves linux management provider for linux nodes
def fetch_mgmt_provider_linux(infra, ssh_cfg, kube_cfg, ns):
    return fetch_provider(infra, '', ssh_cfg, kube_cfg, ns, ["kubernetes.io/os=linux"])
# retrieves windows mgmt provider for windows nodes
def fetch_mgmt_provider_windows(infra, ssh_cfg, kube_cfg, ns):
    return fetch_provider(infra, '', ssh_cfg, kube_cfg, ns, ["kubernetes.io/os=windows"])
# retrieves linux workload provider for linux nodes
def fetch_workload_provider_linux(infra, wc_cluster, ssh_cfg, kube_cfg, ns):
    return fetch_provider(infra, wc_cluster, ssh_cfg, kube_cfg, ns, ["kubernetes.io/os=linux"])
# retrieves windows workload provider for windodws nodes
def fetch_workload_provider_windows(infra, wc_cluster, ssh_cfg, kube_cfg, ns):
    return fetch_provider(infra, wc_cluster, ssh_cfg, kube_cfg, ns, ["kubernetes.io/os=windows"])
def diagnose_mgmt_cluster(infra):
    # validation
    args.ssh_user
    args.ssh_pk_file
    args.mgmt_cluster_config
    if len(infra) == 0:
        print("Infra argument not provided")
        return
    wd = "{}/tkg-mgmt-cluster".format(args.workdir)
    conf = crashd_config(workdir=wd)
    ssh_conf = ssh_config(username=args.ssh_user, private_key_path=args.ssh_pk_file)
    kube_conf = kube_config(path=args.mgmt_cluster_config)
    # fetch linux mgmt node diagnostics
    mgmt_provider_linux = fetch_mgmt_provider_linux(infra, ssh_conf, kube_conf, '')
    lin_nodes = resources(provider=mgmt_provider_linux)
    capture_node_diagnostics(lin_nodes)
    # fetch win mgmt node diagnostics
    mgmt_provider_win = fetch_mgmt_provider_windows(infra, ssh_conf, kube_conf, '')
    win_nodes = resources(provider=mgmt_provider_win)
    if len(win_nodes) > 0:
        capture_windows_node_diagnostics(win_nodes)
    #add code to collect pod info from cluster
    set_defaults(kube_config(capi_provider = mgmt_provider_linux))
    pods_ns=[
        "capi-kubeadm-bootstrap-system",
        "capi-kubeadm-control-plane-system",
        "capi-system",
        "capi-webhook-system",
        "cert-manager",
        "tkg-system",
        "kube-system",
        "tkr-system",
        "capa-system",
        "capv-system",
        "capz-system",
    ]
    if infra == "vsphere":
        pods_ns.append("tkg-system-networking")
        pods_ns.append("avi-system")
    kube_capture(what="logs", namespaces=pods_ns)
    kube_capture(what="objects", kinds=["pods", "services"], namespaces=pods_ns)
    kube_capture(what="objects", kinds=["deployments", "replicasets"], groups=["apps"], namespaces=pods_ns)
    kube_capture(what="objects", kinds=["apps"], groups=["kappctrl.k14s.io"], namespaces=["tkg-system"])
    kube_capture(what="objects", kinds=["tanzukubernetesreleases"], groups=["run.tanzu.vmware.com"])
    kube_capture(what="objects", kinds=["configmaps"], namespaces=["tkr-system"])
    kube_capture(what="objects", categories=["cluster-api"])
    kube_capture(what="objects", groups=["ipam.cluster.x-k8s.io"])
    if infra == "vsphere":
        kube_capture(what="objects", kinds=["akodeploymentconfigs"])
    archive(output_file="tkg-mgmt.diagnostics.tar.gz", source_paths=[conf.workdir])
def diagnose_workload_cluster(infra, name):
    # validation
    args.infra
    args.ssh_user
    args.ssh_pk_file
    args.mgmt_cluster_config
    workload_ns = args.workload_cluster_ns
    if len(infra) == 0:
        print("Infra argument not provided")
        return
    wd = "{}/{}".format(args.workdir, name)
    conf = crashd_config(workdir=wd)
    ssh_conf = ssh_config(username=args.ssh_user, private_key_path=args.ssh_pk_file)
    kube_conf = kube_config(path=args.mgmt_cluster_config)
    # fetch linux workload node diagnostics
    wc_provider_linux = fetch_workload_provider_linux(infra, name, ssh_conf, kube_conf, workload_ns)
    lin_nodes = resources(provider=wc_provider_linux)
    capture_node_diagnostics(lin_nodes)
    # fetch win workload node diagnostics
    wc_provider_win = fetch_workload_provider_windows(infra, name, ssh_conf, kube_conf, workload_ns)
    win_nodes = resources(provider=wc_provider_win)
    if len(win_nodes) > 0:
        capture_windows_node_diagnostics(win_nodes)
    #add code to collect pod info from cluster
    set_defaults(kube_config(capi_provider = wc_provider_linux))
    pods_ns=["default", "kube-system", "tkg-system"]
    if infra == "vsphere":
        pods_ns.append("tkg-system-networking")
        pods_ns.append("avi-system")
    kube_capture(what="logs", namespaces=pods_ns)
    kube_capture(what="objects", kinds=["pods", "services"], namespaces=pods_ns)
    kube_capture(what="objects", kinds=["deployments", "replicasets"], groups=["apps"], namespaces=pods_ns)
    kube_capture(what="objects", kinds=["apps"], groups=["kappctrl.k14s.io"], namespaces=["tkg-system"])
    if infra == "vsphere":
        kube_capture(what="objects", kinds=["akodeploymentconfigs"])
    archive(output_file="{}.diagnostics.tar.gz".format(name), source_paths=[conf.workdir])
# extract diagnostic info from local kind boostrap cluster
def diagnose_bootstrap_cluster():
    p = prog_avail_local("kind")
    if p == "":
        print("Error: kind is not available")
        return
    clusters=get_tkg_bootstrap_clusters()
    if len(clusters) == 0:
        print("No tkg-kind bootstrap cluster found")
        return
    pod_ns=[
        "caip-in-cluster-system",
        "capi-kubeadm-bootstrap-system",
        "capi-kubeadm-control-plane-system",
        "capi-system",
        "capi-webhook-system",
        "capv-system",
        "capa-system",
        "capz-system",
        "cert-manager",
        "tkg-system",
        "tkg-system-networking",
        "avi-system",
    ]
    # for each tkg-kind cluster:
    #  - capture kind logs, export kubecfg, and api objects
    for kind_cluster in clusters:
        wd = "{}/{}".format(args.workdir, kind_cluster)
        run_local("kind export logs --name {} {}/kind-logs".format(kind_cluster, wd))
        kind_cfg = capture_local(
            cmd="kind get kubeconfig --name {0}".format(kind_cluster),
            workdir="./",
            file_name="{}.kubecfg".format(kind_cluster)
        )

        conf = crashd_config(workdir=wd)
        set_defaults(kube_config(path=kind_cfg))
        kube_capture(what="objects", kinds=["pods", "services"], namespaces=pod_ns)
        kube_capture(what="objects", kinds=["deployments", "replicasets"], groups=["apps"], namespaces=pod_ns)
        kube_capture(what="objects", categories=["cluster-api"])
        kube_capture(what="objects", kinds=["akodeploymentconfigs"])
        archive(output_file="bootstrap.{}.diagnostics.tar.gz".format(kind_cluster), source_paths=[conf.workdir])
# return tkg clusters in kind (tkg-kind-xxxx)
def get_tkg_bootstrap_clusters():
    clusters = run_local("kind get clusters").split('\n')
    result = []
    for cluster in clusters:
        if cluster.startswith("tkg-kind"):
            result.append(cluster)

    return result
def check_prereqs():
    # validate args
    args.workdir
    p = prog_avail_local("ssh")
    if p == "":
        print("Error: ssh is not available")
        return False

    p = prog_avail_local("scp")
    if p == "":
        print("Error: scp is not available")
        return False

    p = prog_avail_local("kubectl")
    if p == "":
        print("Error: kubectl is not available")
        return False

    return True

def diagnose(target, infra):
    # validation
    if not check_prereqs():
        print("Error: One or more prerequisites are missing")
        return
    # run diagnostics
    if target == "bootstrap":
        diagnose_bootstrap_cluster()
    elif target == "mgmt":
        diagnose_mgmt_cluster(infra)
    elif target == "workload":
        for name in args.workload_clusters.split(","):
            diagnose_workload_cluster(infra, name)
    else:
        print("Error: unknown target {}".format(target))
diagnose(args.target, args.infra)

クラッシュ診断を使用したワークロード クラスタのトラブルシューティング