SASE Orchestrator のエンタープライズデプロイおよび運用

このセクションでは、2 日間の運用シナリオでエンタープライズオンプレミスデプロイを監視、バックアップ、およびアップグレードするために使用できるオプションについて説明します。

概要

エンタープライズオンプレミスモデルには、独自のメリットと機能が備わっていますが、ソリューションを管理するサービスプロバイダまたはカスタマーにとっての検討事項があります。そのいくつかを以下に示します。

ソリューションの分離：VMware クラウド運用チームは、ホットフィックスとアップグレードを適用するためのアクセス権を持っていません。
変更管理の制限により、パッチ適用とアップグレードの頻度が制限されます。
適切でない、または不十分なソリューションの監視：この状況は、インフラストラクチャを管理できる人員が不足している場合に発生することがあり、機能上の問題、問題の解決の遅れ、および顧客の不満につながります。

このアプローチでは、管理、運用、パッチ適用を適切に行うために、人員と時間に大きな投資が必要になります。次の表は、システムをオンプレミスで管理する際に考慮する必要があるいくつかの要素の概要を示しています。

表 1. VMware ホスト型の責任とオンプレミスの責任
システム	説明	VMware ホスト型の責任	オンプレミスの責任
SD-WAN オーケストレーション	アプリケーション QoS とリンクステアリングポリシー	はい	はい
	アプリケーションおよび SD-WAN アプライアンスのセキュリティポリシー	はい	はい
	SD-WAN アプライアンスのプロビジョニングとトラブルシューティング	はい	はい
	SD-WAN のアラートとイベントの処理	はい	はい
	リンクのパフォーマンスとキャパシティの監視	はい	はい
ハイパーバイザー	監視/アラート	いいえ	はい
	コンピューティングとメモリのリソース	いいえ	はい
	仮想ネットワークとストレージ	いいえ	はい
	バックアップ	いいえ	はい
	レプリケーション	いいえ	はい
インフラストラクチャ	CPU、メモリ、コンピューティング	いいえ	はい
	スイッチとルーティング	いいえ	はい
	監視と管理システム	いいえ	はい
	キャパシティプランニング	いいえ	はい
	ソフトウェアのアップグレード/パッチ適用	いいえ	はい
	アプリケーションとインフラストラクチャの問題のトラブルシューティング	いいえ	はい
バックアップとインフラストラクチャ DR	バックアップインフラストラクチャ	いいえ	はい
	バックアップレジームの定期的なテスト	いいえ	はい
	DR インフラストラクチャ	いいえ	はい
	DR テスト	いいえ	はい

エンタープライズオンプレミスデプロイの 2 日間の運用シナリオについては、それぞれ以下の 2 つのセクション（1 日目の運用と 2 日目の運用）で説明します。

1 日目の運用

セキュリティアドバイザリへのサブスクライブ

VMware セキュリティアドバイザリでは、VMware 製品で報告されたセキュリティの脆弱性についての修正を文書化しています。オンプレミスコンポーネントでアクションが必要な場合にアラートを受け取るには、以下のリンクにサブスクライブしてください。

https://www.vmware.com/security/advisories.html

SASE Orchestrator での cloud-init の無効化

data-source には、meta-data と user-data の 2 つのセクションが含まれています。meta-data にはインスタンス ID が含まれており、インスタンスの有効期間中は変更されません。一方、user-data は（meta-data のインスタンス ID に対する）最初の起動時に適用される設定です。

最初の起動後は、cloud-init ファイルを無効にして SASE Orchestrator の起動シーケンスを高速化することをお勧めします。cloud-init を無効にするには、次の手順を実行します。

./opt/vc/bin/cloud_init_ctl -d

「apt purge cloud-init」コマンドを使用して cloud-init ファイルを「削除」することはお勧めしません（この手順では、VMware SD-WAN Controller で問題が発生することはありません）。cloud-init ファイルを削除すると、いくつかの重要な SASE Orchestrator ツールとスクリプト（アップグレードスクリプトやバックアップスクリプトなど）も消去されます。「purge」コマンドを使用した場合は、次のコマンドを使用してファイルをリストアできます。

/opt/vcrepo/pool/main/v/vco-tools フォルダに移動します。
フォルダから SASE Orchestrator ツールパッケージをインストールします：「sudo dpkg -i vco-tools_3.4.1-R341-20200423-GA-69c0f688bf.deb」。vco-tools パッケージ名は、リリースに応じて変更される場合があります。「ls vco-tools」コマンドを使用して、正しいファイル名を確認してください。

NTP タイムゾーン

SASE Orchestrator および Gateway のタイムゾーンは、「Etc/UTC」に設定する必要があります。

vcadmin@vco1-example:~$ cat /etc/timezone 
Etc/UTC 
vcadmin@vco1-example:~$

タイムゾーンが正しくない場合は、次のコマンドを実行して修正できます。

echo "Etc/UTC" | sudo tee /etc/timezone 
sudo dpkg-reconfigure --frontend noninteractive tzdata

NTP オフセット

NTP オフセットは 15 ミリ秒以下であることが期待されます。

vcadmin@vco1-example:~$ sudo ntpq -p 
     remote           refid      st t when poll reach   delay   offset  
jitter 
============================================================================== 
*ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033 
ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000 
vcadmin@vco1-example:~$

オフセットが正しくない場合は、次のコマンドを実行して修正できます。

sudo service ntp stop 
sudo ntpdate <server> 
sudo service ntp start

SASE Orchestrator のストレージ

SASE Orchestrator が最初にデプロイされると、「/」、「/store」、「/store2」、「/store3」の 4 つのパーティションが作成されます（バージョン 4.0 以降）。パーティションは、デフォルトのサイズで作成されます。設計に合わせてデフォルトのサイズを変更する場合のガイダンスについては、「SASE Orchestrator でのストレージの拡張」セクションの手順に従ってください。

追加のタスク

SASE Orchestrator を実装した後、次の手順でさらに設定する必要があります。

システムプロパティを設定します。
最初のオペレータプロファイルを設定します。
オペレータアカウントを設定します。
SD-WAN Gateway を作成します。
SASE Orchestrator を設定します。
カスタマーアカウント/パートナーアカウントを作成します。

上記のリストに記載されている設定は、このドキュメントには記載されていません。これらは、VMware ドキュメントのデプロイガイドに記載されています。詳細な手順については、『VMware SASE Orchestrator のデプロイおよび監視ガイド』の「SASE Orchestrator のインストール」のセクションを参照してください。

2 日目の運用

SASE Orchestrator のバックアップ

このセクションでは、SASE Orchestrator データベースを定期的にバックアップし、アクティブ Orchestrator とスタンバイ Orchestrator の両方のオペレータエラーまたは壊滅的な障害から回復するために利用可能なメカニズムについて説明します。

ディザスタリカバリ機能 (DR) が優先されるリカバリ方法であることに注意してください。アクティブ Orchestrator 上のすべての設定が即座に複製されるため、この方法では目標復旧ポイントがほぼゼロになります。ディザスタリカバリ機能の詳細については、次のセクションを参照してください。

組み込みスクリプトを使用したバックアップ

SASE Orchestrator には設定のバックアップメカニズムが組み込まれており、設定を定期的にバックアップして、アクティブ Orchestrator とスタンバイ Orchestrator の両方のオペレータエラーまたは壊滅的な障害から回復します。このメカニズムはスクリプト駆動型であり、/opt/vc/scripts/db_backup.sh にあります。

スクリプトは基本的に設定データとイベントのデータベースダンプを取得し、一方でデータベースダンププロセス中に大規模な監視テーブルの一部を除外します。スクリプトを実行すると、上記のスクリプトに入力されたローカルディレクトリのパスにバックアップファイルが作成されます。

バックアップは 2 つの .gzs ファイルで構成されます。1 つはデータベーススキーマ定義を含み、もう 1 つは、定義を含まず、実際のデータを含んでいます。管理者は、バックアップディレクトリの場所にバックアップのための十分なディスク容量があることを確認する必要があります。

ベストプラクティス

リモートの場所をマウントし、バックアップスクリプトを設定します。フローもバックアップする場合、リモートの場所には、「/store」と同じストレージが必要です。
バックアップスクリプトを使用する前に、SASE Orchestrator のレプリケーションページでディザスタリカバリ (DR) のレプリケーション状態を確認します。これらは同期中で、エラーがない必要があります。
さらに、MySQL クエリを実行し、レプリケーションラグを確認します。
- SHOW SLAVE STATUS \G
- 上記のクエリの seconds_behind_master フィールドを確認します。ゼロであることが理想的ですが、10 未満であれば十分です。
- 大規模な SASE Orchestrator の場合は、バックアップスクリプトの実行にスタンバイを使用することをお勧めします。どちらの SASE Orchestrator から生成してもバックアップに違いはありません。
注意事項
- このスクリプトでは、設定のバックアップのみが実行されます。フロー統計情報またはイベントは含まれません。
- 設定をリストアするには、サポート/エンジニアリングチームのサポートが必要です。

よくある質問

スクリプトの実行にはどのくらい時間がかかりますか。
バックアップの期間は、実際のカスタマー設定の規模によって異なります。監視テーブルはバックアップ操作から除外されるため、設定のバックアップ操作はすぐに完了することが予想されます。数千の SD-WAN Edge と多数の履歴イベントが含まれる大規模な SASE Orchestrator の場合は最大 1 時間かかることがありますが、小規模な SASE Orchestrator の場合は数分以内に完了します。
推奨されるバックアップスクリプトの実行頻度はどれくらいですか。
バックアップ操作の頻度は、サイズおよび最初のバックアップを完了するのにかかる時間に応じて決定できます。バックアップ操作は、SASE Orchestrator リソースへの影響を減らすために、ピーク時以外の時間帯に実行するようにスケジュール設定する必要があります。
ルートファイルシステムにバックアップ用の十分な空き容量がない場合はどうなりますか。
他のマウントされたボリュームを使用してバックアップを保存することをお勧めします。バックアップにルートファイルシステムを使用することはベストプラクティスではありません。
バックアップ操作が正常に完了したかどうかを確認するにはどうすればよいですか。
バックアップ操作の成功または失敗を判断するのには、スクリプト stdout および stderr を実行すれば十分です。スクリプトの起動が自動化されている場合、終了コードによってバックアップ操作の成功または失敗を判断できます。
設定はどのようにリカバリされますか。
現在 VMware では、設定データをリカバリする必要がある場合は VMware サポートにお問い合わせいただくようお願いしています。VMware サポートがカスタマー設定のリカバリをサポートします。設定がリストアされるまで、追加の設定変更は行わないようにしてください。
このスクリプトを実行した場合、具体的にはどんな影響がありますか。
設定のバックアップによるパフォーマンスへの影響はほとんどありませんが、MySQL プロセスのリソース使用率が増加します。バックアップは、ピーク時以外の時間帯に実行することをお勧めします。
バックアップ操作の実行中に、設定を変更することはできますか。
バックアップ操作の実行中でも安全に設定を変更できます。ただし、バックアップを最新の内容に保つため、バックアップの実行中は設定の操作を実行しないことをお勧めします。
設定を元の SASE Orchestrator でリストアすることはできますか。それとも新しい SASE Orchestrator が必要ですか。
はい。設定は同じ SASE Orchestrator でリストアすることができ、そうすることが理想です（使用可能であれば）。これにより、リストア操作が完了した後に、監視データが確実に使用されるようになります。元の SASE Orchestrator をリカバリできず、スタンバイ Orchestrator がダウンしている場合は、新しい SASE Orchestrator で設定をリストアします。この場合、監視データが失われます。
設定を新しい SASE Orchestrator にリストアする必要がある場合は、どのようなアクションを実行する必要がありますか。
手順は実際のデプロイによって異なるので、新しい SASE Orchestrator での推奨されるアクションのセットについては VMware サポートにお問い合わせください。
SD-WAN Edge を新しくリストアされた SASE Orchestrator に再登録する必要がありますか。
いいえ。バックアップの一部として必要な情報がすべて保持されるため、SD-WAN Edge を新しい SASE Orchestrator に登録する必要はありません。

SASE Orchestrator のディザスタリカバリ

SASE Orchestrator のディザスタリカバリ (DR) 機能を利用すると、システムやネットワークで障害が発生した場合でも、保存されたデータが失われず、 SASE Orchestrator サービスを再開できます。 SASE Orchestrator DR では、データ複製と手動でトリガされるフェイルオーバーメカニズムを備えたアクティブ/スタンバイの SASE Orchestrator ペアを設定する必要があります。

注： DR は必須です。ライセンスと価格については、VMware SD-WAN のセールスチームにお問い合わせください。

状態

オペレータから、または SD-WAN Edge と SD-WAN Gateway から見て、 SASE Orchestrator の DR 状態は次の 4 つのいずれかになります。

スタンドアローン（DR が設定されていません）
アクティブ（DR が設定済み、プライマリ SASE Orchestrator サーバとして動作）
スタンバイ（DR が設定済み、非アクティブなレプリカ SASE Orchestrator サーバとして動作）
ゾンビ（以前は DR が設定されていてアクティブであったが、現在はアクティブまたはスタンバイとして動作していない）

表 2. 表 2：オンプレミス版 SASE Orchestrator のインスタンスの最小要件
フェーズ	SASE Orchestrator の A ロール	SASE Orchestrator の B ロール
初期	スタンドアローン	スタンドアローン
ペアリング	アクティブ	スタンバイ
フェイルオーバー	ゾンビ	スタンドアローン

ベストプラクティス

SASE Orchestrator DR を地理的に離れたデータセンターに配置します。
スタンバイ Orchestrator をアクティブとして昇格する前に、DR のレプリケーション状態が [In Sync (同期中)] であることを確認します。以前のアクティブ Orchestrator では、インベントリと設定を管理できなくなります。
スタンバイが以前のアクティブ Orchestrator と通信できる場合、その Orchestrator にゾンビ状態に移るように指示します。[ゾンビ (Zombie)] 状態では、SASE Orchestrator からクライアント (SD-WAN Edge、SD-WAN Gateway、UI/API) に、自身がアクティブでなくなったこと、クライアントでは新たに昇格した SASE Orchestrator と通信する必要があることを通知します。
昇格されたスタンバイが以前のアクティブ Orchestrator と通信できない場合、オペレータは、可能であれば以前のアクティブを手動で降格する必要があります。
詳細な手順については、SASE Orchestrator の公式ドキュメントサイト (docs.vmware.com) の「SASE Orchestrator のディザスタリカバリの設定」を参照してください。

SASE Orchestrator のアップグレード手順

エンタープライズオンプレミスデプロイの場合は、次の手順に従って VMware サポートチームに連絡し、 SASE Orchestrator のアップグレードを準備します。

VMware サポートがアップグレードをサポートします。VMware サポートに問い合わせる前に、次の情報を収集します。
- SASE Orchestrator の現在のバージョンとターゲットのバージョンを入力します。例：現在のバージョン (3.4.2)、ターゲットのバージョン (3.4.3)。
  注：現在のバージョンについては、この情報は [ヘルプ (Help)] リンクをクリックして [バージョン情報 (About)] を選択すると、 SASE Orchestrator の右上隅に表示されます。
- 次の図のように、SASE Orchestrator のレプリケーションダッシュボードのスクリーンショットを提供します。
- ハイパーバイザーのタイプとバージョン (vSphere 6.7)
- SASE Orchestrator からのコマンド（コマンドは root として実行する必要があります（例：「sudo <command>」または「sudo -i」））。
  - LVM レイアウト
    - pvdisplay -v
    - vgdisplay -v
    - lvdisplay -v
    - df -h
    - cat /etc/fstab
  - メモリ情報
    - free -m
    - cat /proc/meminfo
    - ps -ef
    - top -b -n 2
  - CPU 情報
    - cat /proc/cpuinfo
  - /var/log のコピー
    - tar -czf /store/log-`date +%Y%M%S`.tar.gz --newer-mtime="36 hours ago" /var/log
  - スタンバイ Orchestrator から：
    - sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW SLAVE STATUS \G'
  - アクティブ Orchestrator から：
    - sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW MASTER STATUS \G'
SASE Orchestrator のアップグレードについては、上記の情報を用意し、VMware SD-WAN サポート (https://kb.vmware.com/s/article/53907) にお問い合わせください。
カスタマーがアップグレード後に迅速なロールバックソリューションを必要とする場合に備えて、次のセクションに ESXi スナップショットのガイドラインを示します。

ESXi スナップショット

SASE Orchestrator をアップグレードする前に ESXi スナップショット機能を使用すると、以前の SASE Orchestrator バージョンにすばやくロールバックできます。

ESXi スナップショットのベストプラクティス

詳細な手順を確認する前に、機能に関する次のベストプラクティスとガイドラインを確認します。

データベースの不整合を回避するため、スナップショットを実行またはリストアする前に、スタンバイとアクティブの両方の Orchestrator をパワーオフする必要があります。
データベースの不整合を回避するため、すべてのスナップショット関連のタスクはスタンバイおよびアクティブ Orchestrator で実行する必要があります。
アップグレードプロセスが成功した場合は、スナップショットを統合することが不可欠です。スナップショットファイルのサイズは、長期間保持されると増え続けます。これにより、スナップショットのストレージの場所が容量不足になり、システムのパフォーマンスに影響が及ぶ可能性があります。
誤ったアラームを回避するには、スナップショットを作成するときに SASE Orchestrator でアラートを無効にします。
1 つのスナップショットを 72 時間以上使用しないでください。
スナップショットをバックアップとして使用することは推奨されません。
機能の検証は、ESXi 6.7 および SASE Orchestrator バージョン 3.4.4 で実行されました。

VMware スナップショットのベストプラクティスについては、次のナレッジベースの記事を参照してください：https://kb.vmware.com/s/article/1025279

ESXi スナップショットの作成

ESXi スナップショットを作成するには、次の手順に従います。

アクティブ Orchestrator で、アラート、通知、およびシステムプロパティの監視を無効にします。所要時間は約 10 分です。
1. オペレータポータルで、[システムプロパティ (System Properties)] をクリックします。次のシステムプロパティを false に変更します。
  - vco.alert.enable
  - vco.notification.enable
  - vco.monitor.enable
スタンバイ Orchestrator で、アラート、通知、および監視のシステムプロパティを無効にします。
1. 次のシステムプロパティを false に変更します。
  - vco.alert.enable
  - vco.notification.enable
  - vco.monitor.enable
アクティブ Orchestrator をパワーオフします。
[ESXi/vCenter Server] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)] の順に移動します。
スタンバイ Orchestrator をパワーオフします。
[[ESXi/vCenter Server] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)]] の順に移動します
アクティブ Orchestrator のスナップショットを作成します。この手順を実行する前に、仮想マシンがパワーオフされていることを確認します。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの作成 (Take Snapshot)]] の順に移動します。
スタンバイ Orchestrator のスナップショットを作成します。この手順を実行する前に、仮想マシンがパワーオフされていることを確認します。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの作成 (Take Snapshot)]] の順に移動します。

ESXi スナップショットの統合

アップグレードが正常に完了した場合は、次の手順を実行します。統合プロセスの実行中は、CPU 使用率が約 5% 増加すると予想されます。所要時間は約 10 分です。

アクティブおよびスタンバイ Orchestrator でアップグレードが正常に完了したことを確認したら、まずアクティブ Orchestrator からスナップショットを統合します。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [スナップショット (Snapshots)] → [スナップショットマネージャ (Snapshot Manager)] → [すべてを削除 (Delete All)]] の順に移動します。
スタンバイ Orchestrator のスナップショットを統合します。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [スナップショット (Snapshots)] → [スナップショットマネージャ (Snapshot Manager)] → [すべてを削除 (Delete All)]] の順に移動します。
アクティブ Orchestrator とスタンバイ Orchestrator で、アラート、通知、監視の各システムプロパティを再度有効にします。
オペレータポータルで、 [システムプロパティ (System Properties)] をクリックします。次のシステムプロパティを true に変更します。
- vco.alert.enable
- vco.notification.enable
- vco.monitor.enable
すべてのスナップショットを削除するアクションが vSphere 6.x/7.x で動作しない場合は、スナップショットの統合を試みることができます。詳細については、vSphere 製品ドキュメントの「スナップショットの統合」セクションを参照してください。

ESXi スナップショットからのリストア

以前のバージョンの SASE Orchestrator へのロールバックを実行する場合は、次の手順を実行します。所要時間は約 10 分です。

アクティブ Orchestrator をパワーオフします。
[[ESXi/vCenter Server] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)]] の順に移動します。
スタンバイ Orchestrator をパワーオフします。
[[ESXi/vCenter Server] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)]] の順に移動します。
アクティブ Orchestrator のスナップショットをリストアします。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの管理 (Manage Snapshots)]] の順に移動します。
仮想マシンをリストアするスナップショットを選択し、[元に戻す (Revert to)] を選択します（下の図を参照）。
スタンバイ Orchestrator のスナップショットをリストアします。
[[ESXi] → [Orchestrator 仮想マシン (Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの管理 (Manage Snapshots)]] の順に移動します。
仮想マシンをリストアするスナップショットを選択し、[元に戻す (Revert to)] を選択します。
アクティブ Orchestrator とスタンバイ Orchestrator で、アラート、通知、監視の各システムプロパティを再度有効にします。オペレータポータルで、[システムプロパティ (System Properties)] をクリックします。次のシステムプロパティを true に変更します。
- vco.alert.enable
- vco.notification.enable
- vco.monitor.enable

コントローラのマイナーソフトウェアアップグレード（例：3.3.2 P3 から 3.4.4）

ソフトウェアアップグレードファイルには、Gateway とシステムの更新が含まれています。「apt-get update && apt-get –y upgrade」を実行しないでください。

VMware SD-WAN Controller のアップグレードを続行する前に、SASE Orchestrator が同じバージョンまたはそれ以上のバージョンにアップグレードされていることを確認します。

SD-WAN Controller をアップグレードするには、次の手順を実行します。

SD-WAN Controller の更新パッケージをダウンロードします。
イメージを SD-WAN Controller ストレージにアップロードします（たとえば、SCP コマンドを使用します）。イメージをシステム上の /var/lib/velocloud/software_update/vcg_update.tar にコピーします。
SD-WAN Controller コンソールに接続し、次のコマンドを実行します。
sudo /opt/vc/bin/vcg_software_update

例：

root@VCG:/var/lib/velocloud/software_update# wget -O 'vcg_update.tar' <image location> 
Resolving ftpsite.vmware.com (ftpsite.vmware.com)...  
Connecting to ftpsite.vmware.com (ftpsite.vmware.com)| <ip address>|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: unspecified [application/octet-stream] 
Saving to: 'vcg_update.tar' 
    [                                  <=>  ] 325,939,200 3.81MB/s   in 82s 
2020-05-23 21:59:27 (3.79 MB/s) - ‘vcg_update.tar’ saved [325939200] 
root@VCG:/var/lib/velocloud/software_update# sudo /opt/vc/bin/vcg_software_update 
=========== VCG upgrade: Sat May 23 22:08:15 UTC 2020 
Upgrading gateway version 3.4.0-106-R340-20200218-GA-c57f8316dd to 3.4.1-39-R341-20200428-GA-44354-44451-596496a88a 
Ign file: trusty InRelease 
Ign file: trusty Release.gpg 
Get: 1 file: trusty Release [2,668 B] 
Ign file: trusty/main Translation-en_US 
Ign file: trusty/main Translation-en 
(...) 
Writing extended state information... 
Reading package lists... 
Building dependency tree... 
Reading state information... 
Reading extended state information... 
Initializing package states... 
update-initramfs: Generating /boot/initrd.img-3.13.0-176-generic 
Reboot is required. Reboot? (y/n) [y]:

コントローラのメジャーソフトウェアアップグレード（例：3.3.2 または 3.4 から 4.0）

バージョン 4.0 には、次のような複数の変更が含まれています。

LVM ベースの新しいシステムディスクレイアウトにより、ボリューム管理の柔軟性を向上
新しいカーネルバージョン
新規およびアップグレードされた基本 OS パッケージ
Center for Internet Security ベンチマークに基づくセキュリティ強化の向上

これらの変更の結果、アップグレードスクリプトを使用する標準のアップグレード手順は機能しません。特定のアップグレード手順を実行する必要があります。これについては、以下の製品マニュアルに記載されています。この手順では、3.3.2 または 3.4 の Gateway 仮想マシンを新しい 4.0 Gateway 仮想マシンに置き換えます。『VMware SD-WAN Partner Gateway の 3.3.2 または 3.4 から 4.0 へのアップグレードと移行』ドキュメントを参照してください。

このアップグレード手順には、SASE Orchestrator システムプロパティの設定が必要です。これは SASE Orchestrator のオペレータアカウントのみが実行できます。システムプロパティの変更をリクエストするには、VMware サポートチームへのサポートチケットを作成してください。

監視

エンタープライズオンプレミスデプロイにおけるカスタマーの責任の 1 つは、ソリューションの監視です。監視により、起こりうる問題を事前に防ぐために必要な可視性を得ることができます。

SD-WAN Controller の監視
オペレータポータルで使用可能なコントローラの状態と使用量データを監視できます。
手順は次のとおりです。

オペレータポータルで、[Gateway (Gateways)] をクリックします。
[Gateway (Gateways)] ページに、使用可能なコントローラのリストが表示されます。
Gateway へのリンクをクリックします。選択したコントローラの詳細が表示されます。
[監視 (Monitor)] タブをクリックすると、選択したコントローラの使用量データが表示されます。

次の図に示すように、選択したコントローラの [監視 (Monitor)] タブには次の詳細が表示されます。

ページの上部で特定の期間を選択し、その期間のコントローラの詳細を表示できます。

このページには、選択した期間の次のパラメータの使用率の詳細が、最小値、最大値、平均値とともにグラフで表示されます。

表 3. 使用率の詳細
使用率	説明
CPU 使用率 (CPU Percentage)	CPU の使用率
メモリ使用率 (Memory Usage)	メモリの使用率
フロー数 (Flow Counts)	トラフィックフローの数
ハンドオフキューのドロップ数 (Handoff Queue Drops)	待機中のハンドオフによってドロップされたパケット数
トンネル数 (Tunnel Count )	トンネルセッションの数

SD-WAN Gateway Controller によって推奨される監視対象の値

次のリストに、監視する必要がある値とそのしきい値を示します。次のリストは出発点として提供されたものであり、完全ではありません。デプロイによっては、フロー、パケットロスなどの追加コンポーネントの評価が必要になる場合があります。

警告しきい値に達した場合は、現在のデバイスのスケール設定を確認し、必要に応じてリソースを追加することをお勧めします。重大なアラームがトリガされた場合は、VMware サポート担当者に連絡してソリューションを確認し、必要なアドバイスを受け取ることが重要です。

表 4. 推奨される監視対象の値
サービスチェック	サービスチェックの説明	警告しきい値	クリティカルしきい値
CPU 負荷	システムの負荷を確認します。	60	80
メモリ	メモリ使用量バッファ、キャッシュ、および使用されているメモリを確認します。	70	80
トンネル	接続された SD-WAN Edge からのトンネル数。	最大スケールの 60%	最大スケールの 80% 注：すべてのトンネルの突然の損失または異常に少ないトンネル数も懸念事項となります。
ハンドオフドロップ	コントローラを通過するトラフィックにはビジーという性質があるため、ときどきドロップすることが予想されます。	特定のキューで一貫してドロップする場合は、キャパシティに問題がある可能性があります。
ディスク容量	現在のディスク使用率	40% 空き	20% 空き
コントローラ NTP	時間オフセットを確認します。	5 秒のオフセット	10 秒のオフセット

SASE Orchestrator と監視スタックの統合

SASE Orchestrator には、外部メトリックコレクタと時系列データベースに接続できるシステムメトリックの監視スタックが組み込まれています。監視スタックを使用すると、SASE Orchestrator の健全性の状態とシステムの負荷を素早く確認できます。

開始する前に、時間ベースのデータベースとダッシュボード/アラートエージェントを設定します。この処理が完了したら、 SASE Orchestrator で Telegraf を有効にすることができます。

- 監視スタックを有効にするには、Orchestrator で次のコマンドを実行します。
  sudo /opt/vc/scripts/vco_observability_manager.sh enable
- 監視スタックの状態を確認するには、次のコマンドを実行します。
  sudo /opt/vc/scripts/vco_observability_manager.sh status
- 監視スタックを無効にするには、次のコマンドを実行します。
```
sudo /opt/vc/scripts/vco_observability_manager.sh disable
```

メトリックコレクタ

Telegraf は、さまざまなシステムメトリックを収集するための豊富なプラグインを含んでおり、 SASE Orchestrator システムメトリックコレクタとして使用されます。デフォルトでは、次のメトリックが有効になっています。

表 5. メトリックコレクタ
メトリック名	説明	サポートされるバージョン
inputs.cpu	CPU 使用率に関するメトリック。	3.4/4.0
inputs.mem	メモリ使用量に関するメトリック。	3.4/4.0
inputs.net	ネットワークインターフェイスに関するメトリック。	4.0
inputs.system	システムの負荷と連続稼動時間に関するメトリック。	4.0
inputs.processes	状態でグループ化されたプロセスの数	4.0
inputs.disk	ディスク使用量に関するメトリック。	4.0
inputs.diskio	デバイス別のディスク I/O に関するメトリック。	4.0
inputs.procstat	特定のプロセスの CPU およびメモリの使用量。	4.0
inputs.nginx	Nginx の基本状態情報 (ngx_http_stub_status_module)。	4.0
inputs.mysql	MySQL サーバの統計情報データ。	3.4/4.0
inputs.redis	1 台または複数の Redis サーバのメトリック。	3.4/4.0
inputs.statds	API およびシステムメトリック。	3.4/4.0（4.0 に追加のメトリックが含まれる）
inputs.filecount	指定されたディレクトリ内のファイルの数と合計サイズ。	4.0
inputs.ntpq	標準の NTP クエリメトリック。ntpq 実行ファイルが必要。	4.0
Inputs.x509_cert	SSL 証明書のメトリック。	4.0

さらにメトリックを有効にしたり、有効なメトリックを無効にしたりするには、SASE Orchestrator で次のコマンドを実行して、Telegraf 設定ファイルを編集できます。

sudo vi /etc/telegraf/telegraf.d/system_metrics_input.conf

sudo systemctl restart telegraf

時系列データベース
時系列データベースを使用して、Telegraf によって収集されるシステムメトリックを保存できます。時系列データベース (TSDB) は、時系列データ用に最適化されたデータベースです。

ダッシュボードとアラートエージェント
ダッシュボードとアラートエージェントを使用すると、TSDB に格納されているデータをクエリ、可視化、アラート、および確認できます。次の図は、ソリューションを監視するために作成できる Telegraph（TSDB およびダッシュボードエンジン）を使用したダッシュボードの例を示します。

時系列データベースの設定
時系列データベースを設定するには、次の手順を実行します。

iptables エントリを追加します。これにより、外部監視システムが Telegraf ポートにアクセスできるようになります。セキュリティ上の理由により、送信元 IP アドレスを指定する必要があります。
1. 例：外部監視システムの IP アドレスは、「191.168.0.200」です。「-A INPUT -p tcp -m tcp --source 191.168.0.200 --dport 9273 -m comment --comment "allow telegraf port" -j ACCEPT"」を /etc/iptables/rules.v4 に追加します。
2. iptables を再起動します。
  sudo service iptables-persistent restart (Orchestrator 3.4.x)
  sudo systemctl restart netfilter-persistent (Orchestrator 4.x)
3. iptables エントリが追加されていることを確認します。
Telegraf 設定に時系列データベースの詳細を追加します。出力設定ファイルを作成します。prometheus の例は次のとおりです。
/etc/telegraf/telegraf.d/prometheus_out.conf

SASE Orchestrator で監視することが推奨される値

次のリストに、監視する必要がある値とそのしきい値を示します。次のリストは完全ではなく、出発点として提供されたものです。デプロイによっては、データベーストランザクションや自動バックアップなどの追加のコンポーネントの評価が必要になる場合があります。

表 6. 監視する値とそのしきい値
サービスチェック	サービスチェックの説明	警告しきい値	クリティカルしきい値
CPU 負荷	システムの負荷を確認します。Telegraf の入力プラグイン：inputs.cpu。	60	70
メモリ	メモリ使用量バッファ、キャッシュ、および使用されているメモリを確認します。Telegraf の入力プラグイン：inputs.memory。	70	80
ディスク使用率	Orchestrator のパーティション別（「/」、「/store」、「/store2」、「/store3」）のディスク使用率（バージョン 4.0 以降）。Telegraf の入力プラグイン: inputs.disk（バージョン 4.0 以降）。	40% 空き	20% 空き
MySQL サーバ	MySQL 接続を確認します。Telegraf の入力プラグイン：inputs.mysql。		mysql.conf (/etc/mysql/my.cnf) で定義されている最大接続の 80% を超える
SASE Orchestrator の時刻	時間オフセットを確認します。Telegraf の入力プラグイン：inputs.ntpq（バージョン 4.0 以降）。	5 秒のオフセット	10 秒のオフセット
SASE Orchestrator の SSL 証明書	証明書の有効期限を確認します。Telegraf の入力プラグイン：inputs.x509_cert（バージョン 4.0 以降）。	60 日	30 日
SASE Orchestrator のインターネット（MPLS のみのトポロジには適用されません）	インターネットへのアクセスを確認します。	応答時間 > 5 秒	応答時間 > 10 秒
SASE Orchestrator の HTTP	localhost の HTTP が応答していることを確認します。		localhost が応答していない。
SASE Orchestrator の証明書の合計数	合計数を確認します。mysql クエリの例： SELECT count(id) FROM VELOCLOUD_EDGE_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()', 'SELECT count(id) FROM VELOCLOUD_GATEWAY_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()	CRL	証明書の合計数が 5000 を超える
DR レプリケーション状態	スタンバイ Orchestrator が最新であることを確認します。	アクティブ Orchestrator に対する DR SASE Orchestrator Orchestrator の遅れが 1000 秒以下であることを確認します。 Seconds_Behind_Master：mysql コマンドから：show slave STATUS\G;
DR レプリケーション SD-WAN Edge Gateway の差分	SD-WAN Edge と SD-WAN Gateway が DR SASE Orchestrator と通信できることを確認します。アクティブ Orchestrator とスタンバイ Orchestrator の値が異なる場合は、SD-WAN Edge と SD-WAN Gateway のタイムゾーンが異なる可能性があります。	アクティブ Orchestrator と通信している同じ数の SD-WAN Edge が、スタンバイ Orchestrator に到達できる必要があります。この値は、[レプリケーション (replication)] タブまたは API を使用して確認できます。

API のベストプラクティス

SASE Orchestrator では、VMware SD-WAN ソリューションで管理プレーンをパワーオンします。サービスプロバイダおよびエンタープライズに、さまざまな設定、監視、トラブルシューティングの機能を提供します。ユーザーがこの機能を使用するためにアクセスするメインの Web サービスは SASE Orchestrator ポータルと呼ばれます。

SASE Orchestrator ポータル
SASE Orchestrator ポータルを使用すると、ネットワーク管理者（またはネットワーク管理者の代わりとして実行されているスクリプトやアプリケーション）は、ネットワークとデバイスの設定を管理し、ネットワークとデバイスの現在または過去の状態をクエリできます。API クライアントは、JSON-RPC インターフェイスまたは REST ライクなインターフェイスを介してポータルと通信できます。どちらかのインターフェイスを使用して、このドキュメントで説明されているすべてのメソッドを呼び出すことができます。JSON-RPC クライアントまたは REST ライクなクライアントのどちらかにアクセスが排他的に制限されているポータル機能はありません。
どちらのインターフェイスも、HTTP POST 要求のみを受け入れます。どちらも、要求の本文（存在する場合）は JSON 形式で、RFC 2616 に従っていることを期待します。Content-Type 要求ヘッダーを使用する場合、クライアントは正式にアサートする可能性があります（例：Content-Type：application/json）。
VMware SD-WAN API の詳細については、以下を参照してください。
https://code.vmware.com/apis/1000/velocloud-sdwan-vco-api

API を使用するエンタープライズおよびサービスプロバイダのベストプラクティス
API を使用する場合のベストプラクティスは次のとおりです。
- 可能であれば、エンタープライズ固有の API 呼び出しよりも集約された API 呼び出しを優先します。たとえば、monitoring/getAggregateEdgeLinkMetrics の単一の呼び出しを使用して、すべての SD-WAN Edge のトランスポート統計情報を同時に取得できます。
- VMware はクライアントに対して、実行中の API 呼び出しの数を常に少なくしておく（2 ～ 4 個）ことを要求します。API 呼び出しを並列化する説得力のある理由があるとユーザーが感じている場合、VMware は、ユーザーが VMware サポートに問い合わせて代替ソリューションについて話し合うことを要求します。
- 通常、API で統計データをポーリングする場合、その頻度を 10 分間隔よりも短くすることはお勧めしません。新しい統計データは、5 分ごとに SASE Orchestrator に届きます。レポート/処理のジッターが原因で、5 分ごとにポーリングするクライアントは、統計情報が API 呼び出しの結果に反映されない「誤検知」のケースに遭遇する場合があります。ユーザーが要求間隔を 10 分以上にすると、最適な結果が得られる傾向があります。
- 同じ情報のクエリを 2 回実行することは避けてください。
- 次の API を実行するまでの間はスリープを使用します。
- 複雑なソフトウェア自動化の場合は、スクリプトを実行して、CPU/メモリへの影響を評価します。次に、必要に応じて調整します。

SASE Orchestrator の Syslog 設定

VMware SASE Orchestrator の Syslog 機能は、ポータル、アップロード、バックエンドの各 Orchestrator プロセスに対して個別に設定できます。

以下に、各プロセスについて簡単に説明します。

ポータル：ポータルプロセスは、NGINX からの内部 HTTP サーバのダウンストリームとして実行されます。ポータルサービスでは、SASE Orchestrator Web インターフェイスまたは HTTP/SDK クライアントからの受信 API 要求を、まず同期的に処理します。これらの要求により、認証されたユーザーには、SASE Orchestrator で提供されるさまざまなサービスの設定、監視、管理を行うことが許可されます。
次のログには、SASE Orchestrator でユーザーが実行したすべてのアクションが含まれているため、AAA アクティビティに非常に役立ちます。
ログファイル：/var/log/portal/velocloud.log（すべての情報、警告、およびエラーログを記録します）
アップロード：アップロードプロセスは、NGINX からの内部 HTTP サーバのダウンストリームとして実行されます。アップロードサービスでは、SD-WAN Edge および SD-WAN Gateway からの受信要求を同期的または非同期的に処理します。これらの要求は主に、アクティベーション、ハートビート、フロー統計情報、リンク統計情報、および SD-WAN Edge と SD-WAN Gateway によって送信されるルーティング情報で構成されます。
ログファイル：/var/log/upload/velocloud.log（すべての情報、警告、およびエラーログを記録します）
バックエンド：主にスケジュール設定されたジョブまたはキューに入れられたジョブを実行するジョブランナー。スケジュール設定されたジョブは、クリーンアップ、ロールアップ、または状態更新のアクティビティで構成されます。キューに入れられたジョブは、リンクとフロー統計情報の処理で構成されます。
ログファイル：/var/log/backend/velocloud.log（すべての情報、警告、およびエラーログを記録します）

Orchestrator の Syslog 設定

SASE Orchestrator のシステムプロパティ log.syslog に移動します。<サーバ>（例：log.syslog.portal）に移動します。SASE Orchestrator の [システムプロパティ (System Properties)] に移動し、検索バーで「log.syslog」と入力します。
1 台以上のサーバについて、「"enable":false」の値を「true」に変更します。ホストの IP アドレスとポートを、実装環境に合わせて変更します。

SASE Orchestrator のストレージ容量の増加

SASE Orchestrator のストレージ容量を増やすための詳細な手順については、SASE Orchestrator

のドキュメント (https://docs.vmware.com/) の「SASE Orchestrator のインストール」および「ディスクサイズの拡張 (VMware)」を参照してください。

ベストプラクティス：

スタンバイ Orchestrator に同じ LVM ディストリビューションが適用されていることを確実にします。
一度大きくしたボリュームのサイズを後で小さくすることはお勧めしません。代わりにシンプロビジョニングを使用します。
3.4 では、ディスクサイズを大きくすると、次の割合/値のディストリビューションを使用することができます。
- 「/」ボリューム：このボリュームは、オペレーティングシステムに使用されます。本番環境の Orchestrator は通常 140 GB に設定されており、使用率は 40% から 60% です。
- /store および /store2：本番環境の Orchestrator に適用される割合は、/store で 85%、/store2 で 15% に近くなります。

次の表に示すガイドラインは、4.x リリース以降で使用されます。


インスタンスサイズ	/store	/store2	/store3	/var/log
小規模 (5,000 SD-WAN Edge)	2 TB	500 GB	8 TB	15 GB
中規模 (10,000 SD-WAN Edge)	2 TB	500 GB	12 TB	20 GB
大規模 (15,000 SD-WAN Edge)	2 TB	500 GB	16 TB	25 GB

SASE Orchestrator での証明書の管理

SASE Orchestrator では、組み込みの証明書サーバを使用して、すべての SD-WAN Edge と SD-WAN Controller の全体的な PKI ライフサイクルを管理します。X.509 証明書は、ネットワーク内のデバイスに対して発行されます。

CA を設定するための詳細な手順については、VMware SD-WAN の公式オペレータドキュメント (https://docs.vmware.com/jp/VMware-SD-WAN/index.html) の「SASE Orchestrator のインストール」および「SSL 証明書のインストール」を参照してください。

CA によって発行された証明書は、次の認証にのみ使用されます。

SASE Orchestrator と SD-WAN Edge SD-WAN Controller 間の管理プレーン TLS 1.2 トンネル。
SD-WAN Edge 間および SD-WAN Edge と SD-WAN Controller 間の制御およびデータプレーン IKEv2/IPsec トンネル。

証明書失効リスト

PKI が有効になっているコントローラでは、失効した証明書は証明書失効リスト (CRL) に格納されます。このリストのサイズが長い場合（一般的には、Orchestrator の認証局の問題により）、コントローラのパフォーマンスに影響します。CRL の長さは 4,000 エントリ未満である必要があります。

vcadmin@vcg1-example:~$ openssl crl -in /etc/vc-public/vco-ca-crl.pem -text | grep 'Serial Number' | wc -l  
14 
vcadmin@vcg1-example:~

サポートへの問い合わせ

当社のカスタマーサポート組織は、VMware SD-WAN のカスタマーに 24 時間年中無休の世界クラスの技術支援および個別のガイダンスを提供します。

このセクションでは、VMware サポートチームへの問い合わせのガイドラインについて説明します。

診断バンドル
インシデントを調査している間に、SASE Orchestrator と SD-WAN Controller の診断バンドルを作成できます。作成されたファイルは、VMware サポートチームが問題に関するイベントをさらに分析するのに役立ちます。

サポートとのアクセス共有
場合によっては、SASE Orchestrator および SD-WAN Controller について VMware サポート担当者のサポートが必要になることがあります。
アクセス権を付与するには、次のような方法があります。
- サポートとのリモートセッション：カスタマーは SSH ジャンプサーバへのリモート操作を許可するか、またはサポート担当者の指示に従います。
- SASE Orchestrator でサポートチームのアカウントを作成する。これにより、サポートチームはカスタマーとのやり取りなしでログを収集できます。
- Bastion ホストを使用する：SSH の権限とキーを設定することにより、サポートエンジニアは、Bastion ホストを使用してオンプレミスの SASE Orchestrator と SD-WAN Controller にアクセスできるようになります。
問題のトリアージを支援するために VMware SD-WAN サポートに連絡する場合は、以下の表に記載されているデータを含めてください。
詳細については、次のリンクを参照してください：https://kb.vmware.com/s/article/53907


必須	推奨
パートナーのケース番号	問題の開始/停止
パートナーへの返信用メールアドレス/電話番号	影響を受けるフロー SRC/DST IP アドレス
SASE Orchestrator の URL	影響を受けるフロー SRC/DST ポート
SASE Orchestrator のカスタマー名	フローパス（E2E、E2GW、直接）
カスタマーへの影響（高/中/低）	SD-WAN Gateway 名
SD-WAN Edge 名	SASE Orchestrator の PCAP へのリンク
SASE Orchestrator の診断バンドルへのリンク
問題についての短い記述
分析および要求された支援