このセクションでは、2 日間の運用シナリオでエンタープライズ オンプレミス デプロイを監視、バックアップ、およびアップグレードするために使用できるオプションについて説明します。

概要

エンタープライズ オンプレミス モデルには、独自のメリットと機能が備わっていますが、ソリューションを管理するサービス プロバイダまたはカスタマーにとっての検討事項があります。そのいくつかを以下に示します。
  • ソリューションの分離:VMware クラウド運用チームは、ホットフィックスとアップグレードを適用するためのアクセス権を持っていません。
  • 変更管理の制限により、パッチ適用とアップグレードの頻度が制限されます。
  • 適切でない、または不十分なソリューションの監視:この状況は、インフラストラクチャを管理できる人員が不足している場合に発生することがあり、機能上の問題、問題の解決の遅れ、および顧客の不満につながります。

このアプローチでは、管理、運用、パッチ適用を適切に行うために、人員と時間に大きな投資が必要になります。次の表は、システムをオンプレミスで管理する際に考慮する必要があるいくつかの要素の概要を示しています。

表 1. VMware ホスト型の責任とオンプレミスの責任
システム 説明 VMware ホスト型の責任 オンプレミスの責任
SD-WAN オーケストレーション アプリケーション QoS とリンク ステアリング ポリシー はい はい
アプリケーションおよび SD-WAN アプライアンスのセキュリティ ポリシー はい はい
SD-WAN アプライアンスのプロビジョニングとトラブルシューティング はい はい
SD-WAN のアラートとイベントの処理 はい はい
リンクのパフォーマンスとキャパシティの監視 はい はい
ハイパーバイザー 監視/アラート いいえ はい
コンピューティングとメモリのリソース いいえ はい
仮想ネットワークとストレージ いいえ はい
バックアップ いいえ はい
レプリケーション いいえ はい
インフラストラクチャ CPU、メモリ、コンピューティング いいえ はい
スイッチとルーティング いいえ はい
監視と管理システム いいえ はい
キャパシティ プランニング いいえ はい
ソフトウェアのアップグレード/パッチ適用 いいえ はい
アプリケーションとインフラストラクチャの問題のトラブルシューティング いいえ はい
バックアップとインフラストラクチャ DR バックアップ インフラストラクチャ いいえ はい
バックアップ レジームの定期的なテスト いいえ はい
DR インフラストラクチャ いいえ はい
DR テスト いいえ はい

エンタープライズ オンプレミス デプロイの 2 日間の運用シナリオについては、それぞれ以下の 2 つのセクション(1 日目の運用と 2 日目の運用)で説明します。

1 日目の運用

セキュリティ アドバイザリへのサブスクライブ

VMware セキュリティ アドバイザリでは、VMware 製品で報告されたセキュリティの脆弱性についての修正を文書化しています。オンプレミス コンポーネントでアクションが必要な場合にアラートを受け取るには、以下のリンクにサブスクライブしてください。

https://www.vmware.com/security/advisories.html

SD-WAN Orchestrator での cloud-init のアクティベーション解除

data-source には、meta-data と user-data の 2 つのセクションが含まれています。meta-data にはインスタンス ID が含まれており、インスタンスの有効期間中は変更されません。一方、user-data は(meta-data のインスタンス ID に対する)最初の起動時に適用される設定です。

最初の起動後は、cloud-init ファイルをアクティベーション解除して SD-WAN Orchestrator の起動シーケンスを高速化することをお勧めします。cloud-init をアクティベーション解除するには、次の手順を実行します。

./opt/vc/bin/cloud_init_ctl -d

「apt purge cloud-init」コマンドを使用して cloud-init ファイルを「削除」することはお勧めしません(この手順では、VMware SD-WAN Controller で問題が発生することはありません)。cloud-init ファイルを削除すると、いくつかの重要な SD-WAN Orchestrator ツールとスクリプト(アップグレード スクリプトやバックアップ スクリプトなど)も消去されます。「purge」コマンドを使用した場合は、次のコマンドを使用してファイルをリストアできます。

  • /opt/vcrepo/pool/main/v/vco-tools フォルダに移動します。
  • フォルダから SD-WAN Orchestrator ツール パッケージをインストールします:「sudo dpkg -i vco-tools_3.4.1-R341-20200423-GA-69c0f688bf.deb」。vco-tools パッケージ名は、リリースに応じて変更される場合があります。「ls vco-tools」コマンドを使用して、正しいファイル名を確認してください。

NTP タイムゾーン

SD-WAN Orchestrator および Gateway のタイムゾーンは、「Etc/UTC」に設定する必要があります。

vcadmin@vco1-example:~$ cat /etc/timezone 
Etc/UTC 
vcadmin@vco1-example:~$
タイムゾーンが正しくない場合は、次のコマンドを実行して修正できます。
echo "Etc/UTC" | sudo tee /etc/timezone 
sudo dpkg-reconfigure --frontend noninteractive tzdata

NTP オフセット

NTP オフセットは 15 ミリ秒以下であることが期待されます。

vcadmin@vco1-example:~$ sudo ntpq -p 
     remote           refid      st t when poll reach   delay   offset  
jitter 
============================================================================== 
*ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033 
ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000 
vcadmin@vco1-example:~$  
オフセットが正しくない場合は、次のコマンドを実行して修正できます。
sudo service ntp stop 
sudo ntpdate <server> 
sudo service ntp start 

VMware SD-WAN Orchestrator のストレージ

SD-WAN Orchestrator が最初にデプロイされると、「/」、「/store」、「/store2」、「/store3」の 4 つのパーティションが作成されます(バージョン 4.0 以降)。パーティションは、デフォルトのサイズで作成されます。設計に合わせてデフォルトのサイズを変更する場合のガイダンスについては、「SD-WAN Orchestrator でのストレージの拡張」セクションの手順に従ってください。

追加のタスク

SD-WAN Orchestrator を実装した後、次の手順でさらに設定する必要があります。
  1. システム プロパティを設定します。
  2. 最初のオペレータ プロファイルを設定します。
  3. オペレータ アカウントを設定します。
  4. SD-WAN Gateway を作成します。
  5. SD-WAN Orchestrator を設定します。
  6. カスタマー アカウント/パートナー アカウントを作成します。

上記のリストに記載されている設定は、このドキュメントには記載されていません。これらは、VMware ドキュメントのデプロイ ガイドに記載されています。詳細な手順については、『VMware SD-WAN Orchestrator のデプロイおよび監視ガイド』の「SD-WAN Orchestrator のインストール」のセクションを参照してください。

2 日目の運用

SD-WAN Orchestrator のバックアップ

このセクションでは、SD-WAN Orchestrator データベースを定期的にバックアップし、アクティブ Orchestrator とスタンバイ Orchestrator の両方のオペレータ エラーまたは壊滅的な障害から回復するために利用可能なメカニズムについて説明します。

ディザスタ リカバリ機能 (DR) が優先されるリカバリ方法であることに注意してください。アクティブ Orchestrator 上のすべての設定が即座に複製されるため、この方法では目標復旧ポイントがほぼゼロになります。ディザスタ リカバリ機能の詳細については、次のセクションを参照してください。

組み込みスクリプトを使用したバックアップ

SD-WAN Orchestrator には設定のバックアップ メカニズムが組み込まれており、設定を定期的にバックアップして、アクティブ Orchestrator とスタンバイ Orchestrator の両方のオペレータ エラーまたは壊滅的な障害から回復します。このメカニズムはスクリプト駆動型であり、/opt/vc/scripts/db_backup.sh にあります。

スクリプトは基本的に設定データとイベントのデータベース ダンプを取得し、一方でデータベース ダンプ プロセス中に大規模な監視テーブルの一部を除外します。スクリプトを実行すると、上記のスクリプトに入力されたローカル ディレクトリのパスにバックアップ ファイルが作成されます。

バックアップは 2 つの .gzs ファイルで構成されます。1 つはデータベース スキーマ定義を含み、もう 1 つは、定義を含まず、実際のデータを含んでいます。管理者は、バックアップ ディレクトリの場所にバックアップのための十分なディスク容量があることを確認する必要があります。

ベスト プラクティス

  • リモートの場所をマウントし、バックアップ スクリプトを設定します。フローもバックアップする場合、リモートの場所には、「/store」と同じストレージが必要です。
  • バックアップ スクリプトを使用する前に、SD-WAN Orchestrator のレプリケーション ページでディザスタ リカバリ (DR) のレプリケーション ステータスを確認します。これらは同期中で、エラーがない必要があります。
  • さらに、MySQL クエリを実行し、レプリケーション ラグを確認します。
    • SHOW SLAVE STATUS \G
    • 上記のクエリの seconds_behind_master フィールドを確認します。ゼロであることが理想的ですが、10 未満であれば十分です。
    • 大規模な SD-WAN Orchestrator の場合は、バックアップ スクリプトの実行にスタンバイを使用することをお勧めします。どちらの SD-WAN Orchestrator から生成してもバックアップに違いはありません。
    注意事項
    • このスクリプトでは、設定のバックアップのみが実行されます。フロー統計情報またはイベントは含まれません。
    • 設定をリストアするには、サポート/エンジニアリング チームのサポートが必要です。
よくある質問
  1. スクリプトの実行にはどのくらい時間がかかりますか。

    バックアップの期間は、実際のカスタマー設定の規模によって異なります。監視テーブルはバックアップ操作から除外されるため、設定のバックアップ操作はすぐに完了することが予想されます。数千の SD-WAN Edge と多数の履歴イベントが含まれる大規模な SD-WAN Orchestrator の場合は最大 1 時間かかることがありますが、小規模な SD-WAN Orchestrator の場合は数分以内に完了します。

  2. 推奨されるバックアップ スクリプトの実行頻度はどれくらいですか。

    バックアップ操作の頻度は、サイズおよび最初のバックアップを完了するのにかかる時間に応じて決定できます。バックアップ操作は、SD-WAN Orchestrator リソースへの影響を減らすために、ピーク時以外の時間帯に実行するようにスケジュール設定する必要があります。

  3. ルート ファイルシステムにバックアップ用の十分な空き容量がない場合はどうなりますか。

    他のマウントされたボリュームを使用してバックアップを保存することをお勧めします。バックアップにルート ファイルシステムを使用することはベスト プラクティスではありません。

  4. バックアップ操作が正常に完了したかどうかを確認するにはどうすればよいですか。

    バックアップ操作の成功または失敗を判断するのには、スクリプト stdout および stderr を実行すれば十分です。スクリプトの起動が自動化されている場合、終了コードによってバックアップ操作の成功または失敗を判断できます。

  5. 設定はどのようにリカバリされますか。

    現在 VMware では、設定データをリカバリする必要がある場合は VMware サポートにお問い合わせいただくようお願いしています。VMware サポートがカスタマー設定のリカバリをサポートします。設定がリストアされるまで、追加の設定変更は行わないようにしてください。

  6. このスクリプトを実行した場合、具体的にはどんな影響がありますか。

    設定のバックアップによるパフォーマンスへの影響はほとんどありませんが、MySQL プロセスのリソース使用率が増加します。バックアップは、ピーク時以外の時間帯に実行することをお勧めします。

  7. バックアップ操作の実行中に、設定を変更することはできますか。

    バックアップ操作の実行中でも安全に設定を変更できます。ただし、バックアップを最新の内容に保つため、バックアップの実行中は設定の操作を実行しないことをお勧めします。

  8. 設定を元の SD-WAN Orchestrator でリストアすることはできますか。それとも新しい SD-WAN Orchestrator が必要ですか。

    はい。設定は同じ SD-WAN Orchestrator でリストアすることができ、そうすることが理想です(使用可能であれば)。これにより、リストア操作が完了した後に、監視データが確実に使用されるようになります。元の SD-WAN Orchestrator をリカバリできず、スタンバイ SD-WAN Orchestrator がダウンしている場合は、新しい SD-WAN Orchestrator で設定をリストアできます。この場合、監視データが失われます。

  9. 設定を新しい SD-WAN Orchestrator にリストアする必要がある場合は、どのようなアクションを実行する必要がありますか。

    手順は実際のデプロイによって異なるので、新しい SD-WAN Orchestrator での推奨されるアクションのセットについては VMware サポートにお問い合わせください。

  10. SD-WAN Edge を新しくリストアされた SD-WAN Orchestrator に再登録する必要がありますか。

    いいえ。バックアップの一部として必要な情報がすべて保持されるため、SD-WAN Edge を新しい SD-WAN Orchestrator に登録する必要はありません。

SD-WAN Orchestrator のディザスタ リカバリ

SD-WAN Orchestrator のディザスタ リカバリ (DR) 機能を利用すると、システムやネットワークで障害が発生した場合でも、保存されたデータが失われず、SD-WAN Orchestrator サービスを再開できます。 SD-WAN Orchestrator DR では、データ複製と手動でトリガされるフェイルオーバー メカニズムを備えたアクティブ/スタンバイの SD-WAN Orchestrator ペアを設定する必要があります。
注: DR は必須です。ライセンスと価格については、VMware SD-WAN のセールス チームにお問い合わせください。

状態

オペレータから、または SD-WAN EdgeSD-WAN Gateway から見て、 SD-WAN Orchestrator の DR 状態は次の 4 つのいずれかになります。
  • スタンドアローン(DR が設定されていません)
  • アクティブ(DR が設定済み、プライマリ SD-WAN Orchestrator サーバとして動作)
  • スタンバイ(DR が設定済み、非アクティブなレプリカ SD-WAN Orchestrator サーバとして動作)
  • ゾンビ(以前は DR が設定されていてアクティブであったが、現在はアクティブまたはスタンバイとして動作していない)
表 2. 表 2:オンプレミス版 SD-WAN Orchestrator のインスタンスの最小要件
フェーズ SD-WAN Orchestrator A ロール SD-WAN Orchestrator B ロール
初期 スタンドアローン スタンドアローン
ペアリング アクティブ スタンバイ
フェイルオーバー ゾンビ スタンドアローン

ベスト プラクティス
  • SD-WAN Orchestrator DR を地理的に離れたデータセンターに配置します。
  • スタンバイ SD-WAN Orchestrator をアクティブとして昇格する前に、DR のレプリケーション ステータスが同期中であることを確認します。以前のアクティブ SD-WAN Orchestrator は、インベントリと設定を管理できなくなります。

  • スタンバイが以前のアクティブ Orchestrator と通信できる場合、その Orchestrator にゾンビ状態に移るように指示します。ゾンビ状態では、SD-WAN Orchestrator はそのクライアント(SD-WAN EdgeSD-WAN Gateway、UI/API)に対して、自分がアクティブでなくなったこと、および新たに昇格された SD-WAN Orchestrator と通信する必要があることを通知します。
  • 昇格されたスタンバイが以前のアクティブ Orchestrator と通信できない場合、オペレータは、可能であれば以前のアクティブを手動で降格する必要があります。
  • 詳細な手順については、SD-WAN Orchestrator の公式ドキュメント サイト (docs.vmware.com) の「SD-WAN Orchestrator のディザスタ リカバリの設定」を参照してください。

SD-WAN Orchestrator のアップグレード手順

エンタープライズ オンプレミス デプロイの場合は、次の手順に従って VMware サポート チームに連絡し、 SD-WAN Orchestrator のアップグレードを準備します。
  1. VMware サポートがアップグレードをサポートします。VMware サポートに問い合わせる前に、次の情報を収集します。
    • SD-WAN Orchestrator の現在のバージョンとターゲットのバージョンを提供します。例:現在のバージョン (3.4.2)、ターゲットのバージョン (3.4.3)。
      注: 現在のバージョンについては、この情報は [ヘルプ (Help)] リンクをクリックして [バージョン情報 (About)] を選択すると、 SD-WAN Orchestrator の右上隅に表示されます。
    • 次の図のように、SD-WAN Orchestrator のレプリケーション ダッシュボードのスクリーンショットを提供します。

    • ハイパーバイザーのタイプとバージョン (vSphere 6.7)
    • SD-WAN Orchestrator からのコマンド(コマンドは root として実行する必要があります(例:「sudo <command>」または「sudo -i」))。
      • LVM レイアウト
        • pvdisplay -v
        • vgdisplay -v
        • lvdisplay -v
        • df -h
        • cat /etc/fstab
      • メモリ情報
        • free -m
        • cat /proc/meminfo
        • ps -ef
        • top -b -n 2
      • CPU 情報
        • cat /proc/cpuinfo
      • /var/log のコピー
        • tar -czf /store/log-`date +%Y%M%S`.tar.gz --newer-mtime="36 hours ago" /var/log
      • スタンバイ Orchestrator から:
        • sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW SLAVE STATUS \G'
      • アクティブ Orchestrator から:
        • sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW MASTER STATUS \G'
  2. SD-WAN Orchestrator のアップグレードについては、上記の情報を用意し、VMware SD-WAN Orchestrator サポート (https://kb.vmware.com/s/article/53907) にお問い合わせください。
  3. カスタマーがアップグレード後に迅速なロールバック ソリューションを必要とする場合に備えて、次のセクションに ESXi スナップショットのガイドラインを示します。

ESXi スナップショット

SD-WAN Orchestrator をアップグレードする前に ESXi スナップショット機能を使用すると、以前の SD-WAN Orchestrator バージョンにすばやくロールバックできます。

ESXi スナップショットのベスト プラクティス

詳細な手順を確認する前に、機能に関する次のベスト プラクティスとガイドラインを確認します。
  • データベースの不整合を回避するため、スナップショットを実行またはリストアする前に、スタンバイとアクティブの両方の SD-WAN Orchestrator をパワーオフする必要があります。
  • データベースの不整合を回避するため、すべてのスナップショット関連のタスクはスタンバイおよびアクティブ SD-WAN Orchestrator で実行する必要があります。
  • アップグレード プロセスが成功した場合は、スナップショットを統合することが不可欠です。スナップショット ファイルのサイズは、長期間保持されると増え続けます。これにより、スナップショットのストレージの場所が容量不足になり、システムのパフォーマンスに影響が及ぶ可能性があります。
  • 誤ったアラームを回避するには、スナップショットを作成するときに SD-WAN Orchestrator でアラートをアクティベーション解除します。
  • 1 つのスナップショットを 72 時間以上使用しないでください。
  • スナップショットをバックアップとして使用することは推奨されません。
  • 機能の検証は、ESXi 6.7 および SD-WAN Orchestrator バージョン 3.4.4 で実行されました。

VMware スナップショットのベスト プラクティスについては、次のナレッジベースの記事を参照してください:https://kb.vmware.com/s/article/1025279

ESXi スナップショットの作成

ESXi スナップショットを作成するには、次の手順に従います。
  1. アクティブ SD-WAN Orchestrator で、アラート、通知、および監視のシステム プロパティをアクティベーション解除します。所要時間は約 10 分です。
    1. オペレータ ポータルで、[システム プロパティ (System Properties)] をクリックします。次のシステム プロパティを false に変更します。
      • vco.alert.enable
      • vco.notification.enable
      • vco.monitor.enable

  2. スタンバイ SD-WAN Orchestrator で、アラート、通知、および監視のシステム プロパティをアクティベーション解除します。
    1. 次のシステム プロパティを false に変更します。
      • vco.alert.enable
      • vco.notification.enable
      • vco.monitor.enable
  3. アクティブ SD-WAN Orchestrator をパワーオフします。

    ESXi/vCenter Server → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)] の順に移動します。

  4. スタンバイ SD-WAN Orchestrator をパワーオフします。

    ESXi/vCenter Server → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)] の順に移動します。

  5. アクティブ SD-WAN Orchestrator のスナップショットを作成します。この手順を実行する前に、仮想マシンがパワーオフされていることを確認します。

    ESXi → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの作成 (Take Snapshot)] の順に移動します。

  6. スタンバイ SD-WAN Orchestrator のスナップショットを作成します。この手順を実行する前に、仮想マシンがパワーオフされていることを確認します。

    ESXi → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの作成 (Take Snapshot)] の順に移動します。

ESXi スナップショットの統合

アップグレードが正常に完了した場合は、次の手順を実行します。統合プロセスの実行中は、CPU 使用率が約 5% 増加すると予想されます。所要時間は約 10 分です。
  1. アクティブおよびスタンバイ Orchestrator でアップグレードが正常に完了したことを確認した後、最初にアクティブ SD-WAN Orchestrator からスナップショットを統合できます。

    ESXi → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [スナップショット (Snapshots)] → [スナップショット マネージャ (Snapshot Manager)] → [すべてを削除 (Delete All)] の順に移動します。

  2. スタンバイ SD-WAN Orchestrator のスナップショットを統合します。

    ESXi → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [スナップショット (Snapshots)] → [スナップショット マネージャ (Snapshot Manager)] → [すべてを削除 (Delete All)] の順に移動します。

  3. アクティブ SD-WAN Orchestrator とスタンバイ SD-WAN Orchestrator で、アラート、通知、監視の各システム プロパティを再度有効にします。
    オペレータ ポータルで、 [システム プロパティ (System Properties)] をクリックします。次のシステム プロパティを true に変更します。
    • vco.alert.enable
    • vco.notification.enable
    • vco.monitor.enable

  4. すべてのスナップショットを削除するアクションが vSphere 6.x/7.x で動作しない場合は、スナップショットの統合を試みることができます。詳細については、vSphere 製品ドキュメントの「スナップショットの統合」セクションを参照してください。

ESXi スナップショットからのリストア

以前のバージョンの SD-WAN Orchestrator へのロールバックを実行する場合は、次の手順を実行します。所要時間は約 10 分です。
  1. アクティブ SD-WAN Orchestrator をパワーオフします。

    ESXi/vCenter Server → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)] の順に移動します。

  2. スタンバイ SD-WAN Orchestrator をパワーオフします。

    ESXi/vCenter Server → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [パワーオフ (Power Off)] の順に移動します。

  3. アクティブ SD-WAN Orchestrator のスナップショットをリストアします。

    ESXi → [SD-WAN Orchestrator 仮想マシン (SD-WAN Orchestrator VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの管理 (Manage Snapshots)] の順に移動します。

    仮想マシンをリストアするスナップショットを選択し、[元に戻す (Revert to)] を選択します(下の図を参照)。

  4. スタンバイ SD-WAN Orchestrator のスナップショットをリストアします。

    ESXi → [VCO 仮想マシン (VCO VM)] → [アクション (Actions)] → [電源 (Power)] → [スナップショット (Snapshots)] → [スナップショットの管理 (Manage Snapshots)] の順に移動します。

    仮想マシンをリストアするスナップショットを選択し、[元に戻す (Revert to)] を選択します。

  5. アクティブ SD-WAN Orchestrator とスタンバイ SD-WAN Orchestrator で、アラート、通知、監視の各システム プロパティを再度有効にします。オペレータ ポータルで、[システム プロパティ (System Properties)] をクリックします。次のシステム プロパティを true に変更します。
    • vco.alert.enable
    • vco.notification.enable
    • vco.monitor.enable

コントローラのマイナー ソフトウェア アップグレード(例:3.3.2 P3 から 3.4.4)

ソフトウェア アップグレード ファイルには、Gateway とシステムの更新が含まれています。「apt-get update && apt-get –y upgrade」を実行しないでください。

VMware SD-WAN Controller のアップグレードを続行する前に、SD-WAN Orchestrator が同じバージョンまたはそれ以上のバージョンにアップグレードされていることを確認します。

SD-WAN Controller をアップグレードするには、次の手順を実行します。
  1. SD-WAN Controller の更新パッケージをダウンロードします。
  2. イメージを SD-WAN Controller ストレージにアップロードします(たとえば、SCP コマンドを使用します)。イメージをシステム上の /var/lib/velocloud/software_update/vcg_update.tar にコピーします。
  3. SD-WAN Controller コンソールに接続し、次のコマンドを実行します。

    sudo /opt/vc/bin/vcg_software_update

例:
root@VCG:/var/lib/velocloud/software_update# wget -O 'vcg_update.tar' <image location> 
Resolving ftpsite.vmware.com (ftpsite.vmware.com)...  
Connecting to ftpsite.vmware.com (ftpsite.vmware.com)| <ip address>|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: unspecified [application/octet-stream] 
Saving to: 'vcg_update.tar' 
    [                                  <=>  ] 325,939,200 3.81MB/s   in 82s 
2020-05-23 21:59:27 (3.79 MB/s) - ‘vcg_update.tar’ saved [325939200] 
root@VCG:/var/lib/velocloud/software_update# sudo /opt/vc/bin/vcg_software_update 
=========== VCG upgrade: Sat May 23 22:08:15 UTC 2020 
Upgrading gateway version 3.4.0-106-R340-20200218-GA-c57f8316dd to 3.4.1-39-R341-20200428-GA-44354-44451-596496a88a 
Ign file: trusty InRelease 
Ign file: trusty Release.gpg 
Get: 1 file: trusty Release [2,668 B] 
Ign file: trusty/main Translation-en_US 
Ign file: trusty/main Translation-en 
(...) 
Writing extended state information... 
Reading package lists... 
Building dependency tree... 
Reading state information... 
Reading extended state information... 
Initializing package states... 
update-initramfs: Generating /boot/initrd.img-3.13.0-176-generic 
Reboot is required. Reboot? (y/n) [y]: 

コントローラのメジャー ソフトウェア アップグレード(例:3.3.2 または 3.4 から 4.0)

バージョン 4.0 には、次のような複数の変更が含まれています。
  • LVM ベースの新しいシステム ディスク レイアウトにより、ボリューム管理の柔軟性を向上
  • 新しいカーネル バージョン
  • 新規およびアップグレードされた基本 OS パッケージ
  • Center for Internet Security ベンチマークに基づくセキュリティ強化の向上

これらの変更の結果、アップグレード スクリプトを使用する標準のアップグレード手順は機能しません。特定のアップグレード手順を実行する必要があります。これについては、以下の製品マニュアルに記載されています。この手順では、3.3.2 または 3.4 の Gateway 仮想マシンを新しい 4.0 Gateway 仮想マシンに置き換えます。『VMware SD-WAN Partner Gateway の 3.3.2 または 3.4 から 4.0 へのアップグレードと移行』ドキュメントを参照してください。

このアップグレード手順には、SD-WAN Orchestrator システム プロパティの設定が必要です。これは SD-WAN Orchestrator のオペレータ アカウントのみが実行できます。システム プロパティの変更をリクエストするには、VMware サポート チームへのサポート チケットを作成してください。

監視

エンタープライズ オンプレミス デプロイにおけるカスタマーの責任の 1 つは、ソリューションの監視です。監視により、起こりうる問題を事前に防ぐために必要な可視性を得ることができます。
  • SD-WAN Controller の監視

    オペレータ ポータルで使用可能なコントローラのステータスと使用量データを監視できます。

    手順は次のとおりです。

  1. オペレータ ポータルで、[Gateway (Gateways)] をクリックします。
  2. [Gateway (Gateways)] ページに、使用可能なコントローラのリストが表示されます。
  3. Gateway へのリンクをクリックします。選択したコントローラの詳細が表示されます。
  4. [監視 (Monitor)] タブをクリックすると、選択したコントローラの使用量データが表示されます。

次の図に示すように、選択したコントローラの [監視 (Monitor)] タブには次の詳細が表示されます。

ページの上部で特定の期間を選択し、その期間のコントローラの詳細を表示できます。

このページには、選択した期間の次のパラメータの使用率の詳細が、最小値、最大値、平均値とともにグラフで表示されます。

表 3. 使用率の詳細
使用率 説明
CPU 使用率 (CPU Percentage) CPU の使用率
メモリ使用率 (Memory Usage) メモリの使用率
フロー数 (Flow Counts) トラフィック フローの数
ハンドオフ キューのドロップ数 (Handoff Queue Drops) 待機中のハンドオフによってドロップされたパケット数
トンネル数 (Tunnel Count ) トンネル セッションの数
  • SD-WAN Gateway Controller によって推奨される監視対象の値

    次のリストに、監視する必要がある値とそのしきい値を示します。次のリストは出発点として提供されたものであり、完全ではありません。デプロイによっては、フロー、パケット ロスなどの追加コンポーネントの評価が必要になる場合があります。

    警告しきい値に達した場合は、現在のデバイスのスケール設定を確認し、必要に応じてリソースを追加することをお勧めします。重大なアラームがトリガされた場合は、VMware サポート担当者に連絡してソリューションを確認し、必要なアドバイスを受け取ることが重要です。

    表 4. 推奨される監視対象の値
    サービス チェック サービス チェックの説明 警告しきい値 クリティカルしきい値
    CPU 負荷 システムの負荷を確認します。 60 80
    メモリ メモリ使用量バッファ、キャッシュ、および使用されているメモリを確認します。 70 80
    トンネル 接続された SD-WAN Edge からのトンネル数。 最大スケールの 60% 最大スケールの 80%

    注:すべてのトンネルの突然の損失または異常に少ないトンネル数も懸念事項となります。

    ハンドオフ ドロップ コントローラを通過するトラフィックにはビジーという性質があるため、ときどきドロップすることが予想されます。 特定のキューで一貫してドロップする場合は、キャパシティに問題がある可能性があります。
    ディスク容量 現在のディスク使用率 40% 空き 20% 空き
    コントローラ NTP 時間オフセットを確認します。 5 秒のオフセット 10 秒のオフセット
  • SD-WAN Orchestrator と監視スタックの統合

SD-WAN Orchestrator には、外部メトリック コレクタと時系列データベースに接続できるシステム メトリックの監視スタックが組み込まれています。監視スタックを使用すると、SD-WAN Orchestrator の健全性の状態とシステムの負荷を素早く確認できます。

開始する前に、時間ベースのデータベースとダッシュボード/アラート エージェントを設定します。この処理が完了したら、SD-WAN Orchestrator で Telegraf を有効にできます。
    • 監視スタックを有効にするには、Orchestrator で次のコマンドを実行します。

      sudo /opt/vc/scripts/vco_observability_manager.sh enable

    • 監視スタックのステータスを確認するには、次のコマンドを実行します。

      sudo /opt/vc/scripts/vco_observability_manager.sh status

    • 監視スタックをアクティベーション解除するには、次のコマンドを実行します。
      sudo /opt/vc/scripts/vco_observability_manager.sh disable

  • メトリック コレクタ
    Telegraf は、さまざまなシステム メトリックを収集するための豊富なプラグインを含んでおり、 SD-WAN Orchestrator システム メトリック コレクタとして使用されます。デフォルトでは、次のメトリックが有効になっています。
    表 5. メトリック コレクタ
    メトリック名 説明 サポートされるバージョン
    inputs.cpu CPU 使用率に関するメトリック。 3.4/4.0
    inputs.mem メモリ使用量に関するメトリック。 3.4/4.0
    inputs.net ネットワーク インターフェイスに関するメトリック。 4.0
    inputs.system システムの負荷と連続稼動時間に関するメトリック。 4.0
    inputs.processes ステータスでグループ化されたプロセスの数。 4.0
    inputs.disk ディスク使用量に関するメトリック。 4.0
    inputs.diskio デバイス別のディスク I/O に関するメトリック。 4.0
    inputs.procstat 特定のプロセスの CPU およびメモリの使用量。 4.0
    inputs.nginx Nginx の基本ステータス情報 (ngx_http_stub_status_module)。 4.0
    inputs.mysql MySQL サーバの統計情報データ。 3.4/4.0
    inputs.redis 1 台または複数の Redis サーバのメトリック。 3.4/4.0
    inputs.statds API およびシステム メトリック。 3.4/4.0(4.0 に追加のメトリックが含まれる)
    inputs.filecount 指定されたディレクトリ内のファイルの数と合計サイズ。 4.0
    inputs.ntpq 標準の NTP クエリ メトリック。ntpq 実行ファイルが必要。 4.0
    Inputs.x509_cert SSL 証明書のメトリック。 4.0

    さらにメトリックをアクティベーションしたり、有効なメトリックをアクティベーション解除したりするには、SD-WAN Orchestrator で次のコマンドを実行して、Telegraf 設定ファイルを編集できます。

    sudo vi /etc/telegraf/telegraf.d/system_metrics_input.conf

    sudo systemctl restart telegraf

  • 時系列データベース

    時系列データベースを使用して、Telegraf によって収集されるシステム メトリックを保存できます。時系列データベース (TSDB) は、時系列データ用に最適化されたデータベースです。

  • ダッシュボードとアラート エージェント

    ダッシュボードとアラート エージェントを使用すると、TSDB に格納されているデータをクエリ、可視化、アラート、および確認できます。次の図は、ソリューションを監視するために作成できる Telegraph(TSDB およびダッシュボード エンジン)を使用したダッシュボードの例を示します。

  • 時系列データベースの設定

    時系列データベースを設定するには、次の手順を実行します。

  1. iptables エントリを追加します。これにより、外部監視システムが Telegraf ポートにアクセスできるようになります。セキュリティ上の理由により、送信元 IP アドレスを指定する必要があります。
    1. 例:外部監視システムの IP アドレスは、「191.168.0.200」です。「-A INPUT -p tcp -m tcp --source 191.168.0.200 --dport 9273 -m comment --comment "allow telegraf port" -j ACCEPT"」を /etc/iptables/rules.v4 に追加します。

    2. iptables を再起動します。

      sudo service iptables-persistent restart (SD-WAN Orchestrator 3.4.x)

      sudo systemctl restart netfilter-persistent (SD-WAN Orchestrator 4.x)

    3. iptables エントリが追加されていることを確認します。
  2. Telegraf 設定に時系列データベースの詳細を追加します。出力設定ファイルを作成します。prometheus の例は次のとおりです。

    /etc/telegraf/telegraf.d/prometheus_out.conf

  • SD-WAN Orchestrator によって推奨される監視対象の値

    次のリストに、監視する必要がある値とそのしきい値を示します。次のリストは完全ではなく、出発点として提供されたものです。デプロイによっては、データベース トランザクションや自動バックアップなどの追加のコンポーネントの評価が必要になる場合があります。

    警告しきい値に達した場合は、現在のデバイスのスケール設定を確認し、必要に応じてリソースを追加することをお勧めします。重大なアラームがトリガされた場合は、VMware サポート担当者に連絡してソリューションを確認し、必要なアドバイスを受け取ることが重要です。
    表 6. 監視する値とそのしきい値
    サービス チェック サービス チェックの説明 警告しきい値 クリティカルしきい値
    CPU 負荷 システムの負荷を確認します。Telegraf の入力プラグイン:inputs.cpu。 60 70
    メモリ メモリ使用量バッファ、キャッシュ、および使用されているメモリを確認します。Telegraf の入力プラグイン:inputs.memory。 70 80
    ディスク使用率 異なる SD-WAN Orchestrator パーティション(「/」、「/store」、「/store2」および「/store3」)のディスク使用率(バージョン 4.0 以降)。Telegraf の入力プラグイン:inputs.disk(バージョン 4.0 以降)。 40% 空き 20% 空き
    MySQL サーバ MySQL 接続を確認します。Telegraf の入力プラグイン:inputs.mysql。 mysql.conf (/etc/mysql/my.cnf) で定義されている最大接続の 80% を超える
    SD-WAN Orchestrator の時間 時間オフセットを確認します。Telegraf の入力プラグイン:inputs.ntpq(バージョン 4.0 以降)。 5 秒のオフセット 10 秒のオフセット
    SD-WAN Orchestrator の SSL 証明書 証明書の有効期限を確認します。Telegraf の入力プラグイン:inputs.x509_cert(バージョン 4.0 以降)。 60 日 30 日
    SD-WAN Orchestrator インターネット(MPLS のみのトポロジには適用されません) インターネットへのアクセスを確認します。 応答時間 > 5 秒 応答時間 > 10 秒
    SD-WAN Orchestrator の HTTP localhost の HTTP が応答していることを確認します。 localhost が応答していない。
    SD-WAN Orchestrator 証明書の合計数 合計数を確認します。mysql クエリの例:

    SELECT count(id) FROM VELOCLOUD_EDGE_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()', 'SELECT count(id) FROM VELOCLOUD_GATEWAY_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()

    CRL 証明書の合計数が 5000 を超える
    DR レプリケーション ステータス スタンバイ SD-WAN Orchestrator が最新であることを確認します。 アクティブ SD-WAN Orchestrator に対する DR SD-WAN Orchestrator の遅れが 1000 秒以下であることを確認します。

    Seconds_Behind_Master:mysql コマンドから:show slave STATUS\G;

    DR レプリケーション SD-WAN Edge Gateway の差分 SD-WAN EdgeSD-WAN Gateway が DR SD-WAN Orchestrator と通信できることを確認します。

    アクティブ SD-WAN Orchestrator とスタンバイ SD-WAN Orchestrator の値が異なる場合は、SD-WAN EdgeSD-WAN Gateway のタイムゾーンが異なる可能性があります。

    アクティブ SD-WAN Orchestrator と通信している同じ数の SD-WAN Edge が、スタンバイ SD-WAN Orchestrator に到達できる必要があります。この値は、[レプリケーション (replication)] タブまたは API を使用して確認できます。

API のベスト プラクティス

VMware SD-WAN Orchestrator は、VMware SD-WAN ソリューションで管理プレーンをパワーオンします。サービス プロバイダおよびエンタープライズに、さまざまな設定、監視、トラブルシューティングの機能を提供します。ユーザーがこの機能を使用するためにアクセスするメインの Web サービスは SD-WAN Orchestrator ポータルと呼ばれます。
  • SD-WAN Orchestrator ポータル

    SD-WAN Orchestrator ポータルを使用すると、ネットワーク管理者(またはネットワーク管理者の代わりとして実行されているスクリプトやアプリケーション)は、ネットワークとデバイスの設定を管理し、ネットワークとデバイスの現在または過去の状態をクエリできます。API クライアントは、JSON-RPC インターフェイスまたは REST ライクなインターフェイスを介してポータルと通信できます。どちらかのインターフェイスを使用して、このドキュメントで説明されているすべてのメソッドを呼び出すことができます。JSON-RPC クライアントまたは REST ライクなクライアントのどちらかにアクセスが排他的に制限されているポータル機能はありません。

    どちらのインターフェイスも、HTTP POST 要求のみを受け入れます。どちらも、要求の本文(存在する場合)は JSON 形式で、RFC 2616 に従っていることを期待します。Content-Type 要求ヘッダーを使用する場合、クライアントは正式にアサートする可能性があります(例:Content-Type:application/json)。

    VMware SD-WAN API の詳細については、以下を参照してください。

    https://code.vmware.com/apis/1000/velocloud-sdwan-vco-api

  • API を使用するエンタープライズおよびサービス プロバイダのベスト プラクティス
    API を使用する場合のベスト プラクティスは次のとおりです。
    • 可能であれば、エンタープライズ固有の API 呼び出しよりも集約された API 呼び出しを優先します。たとえば、monitoring/getAggregateEdgeLinkMetrics の単一の呼び出しを使用して、すべての SD-WAN Edge のトランスポート統計情報を同時に取得できます。
    • VMware はクライアントに対して、実行中の API 呼び出しの数を常に少なくしておく(2 ~ 4 個)ことを要求します。API 呼び出しを並列化する説得力のある理由があるとユーザーが感じている場合、VMware は、ユーザーが VMware サポートに問い合わせて代替ソリューションについて話し合うことを要求します。
    • 通常、API で統計データをポーリングする場合、その頻度を 10 分間隔よりも短くすることはお勧めしません。新しい統計データは、5 分ごとに、SD-WAN Orchestrator に届きます。レポート/処理のジッターが原因で、5 分ごとにポーリングするクライアントは、統計情報が API 呼び出しの結果に反映されない「誤検知」のケースに遭遇する場合があります。ユーザーが要求間隔を 10 分以上にすると、最適な結果が得られる傾向があります。
    • 同じ情報のクエリを 2 回実行することは避けてください。
    • 次の API を実行するまでの間はスリープを使用します。
    • 複雑なソフトウェア自動化の場合は、スクリプトを実行して、CPU/メモリへの影響を評価します。次に、必要に応じて調整します。

SD-WAN Orchestrator の Syslog 設定

VMware SD-WAN Orchestrator の Syslog 機能は、ポータル、アップロード、バックエンドの各 Orchestrator プロセスに対して個別に設定できます。

以下に、各プロセスについて簡単に説明します。
  • ポータル:ポータル プロセスは、NGINX からの内部 HTTP サーバのダウンストリームとして実行されます。ポータル サービスは、SD-WAN Orchestrator Web インターフェイスまたは HTTP/SDK クライアントからの受信 API 要求を、主に同期的に処理します。これらの要求により、認証されたユーザーは、SD-WAN Orchestrator によって提供されるさまざまなサービスの設定、監視、管理を行うことができます。

    次のログには、SD-WAN Orchestrator でユーザーが実行したすべてのアクションが含まれているため、AAA アクティビティに非常に役立ちます。

    ログ ファイル:/var/log/portal/velocloud.log(すべての情報、警告、およびエラー ログを記録します)

  • アップロード:アップロード プロセスは、NGINX からの内部 HTTP サーバのダウンストリームとして実行されます。アップロード サービスでは、SD-WAN Edge および SD-WAN Gateway からの受信要求を同期的または非同期的に処理します。これらの要求は主に、アクティベーション、ハートビート、フロー統計情報、リンク統計情報、および SD-WAN EdgeSD-WAN Gateway によって送信されるルーティング情報で構成されます。

    ログ ファイル:/var/log/upload/velocloud.log(すべての情報、警告、およびエラー ログを記録します)

  • バックエンド:主にスケジュール設定されたジョブまたはキューに入れられたジョブを実行するジョブ ランナー。スケジュール設定されたジョブは、クリーンアップ、ロールアップ、またはステータス更新のアクティビティで構成されます。キューに入れられたジョブは、リンクとフロー統計情報の処理で構成されます。

    ログ ファイル:/var/log/backend/velocloud.log(すべての情報、警告、およびエラー ログを記録します)

Orchestrator の Syslog 設定
  1. SD-WAN Orchestrator のシステム プロパティ log.syslog.<サーバ>(例:log.syslog.portal)に移動します。SD-WAN Orchestrator の [システム プロパティ (System Properties)] に移動し、検索バーで「log.syslog」と入力します。
  2. 1 台以上のサーバについて、「"enable":false」の値を「true」に変更します。ホストの IP アドレスとポートを、実装環境に合わせて変更します。

SD-WAN Orchestrator のストレージ容量の増加

SD-WAN Orchestrator のストレージ容量を増やすための詳細な手順については、SD-WAN Orchestrator

のドキュメント (https://docs.vmware.com/) の「SD-WAN Orchestrator のインストール」および「ディスク サイズの拡張 (VMware)」を参照してください。

  • ベスト プラクティス:
    • スタンバイ SD-WAN Orchestrator に同じ LVM ディストリビューションが適用されていることを確認します。
    • 一度大きくしたボリュームのサイズを後で小さくすることはお勧めしません。代わりにシン プロビジョニングを使用します。
    • 3.4 では、ディスク サイズを大きくすると、次の割合/値のディストリビューションを使用することができます。
      • 「/」ボリューム:このボリュームは、オペレーティング システムに使用されます。本番環境の SD-WAN Orchestrator は通常 140 GB に設定されており、使用率は 40% から 60% です。
      • /store および /store2:本番環境の SD-WAN Orchestrator に適用される割合は、/store で 85%、/store2 で 15% に近くなります。
    • 次の表に示すガイドラインは、4.x リリース以降で使用されます。
      インスタンス サイズ /store /store2 /store3 /var/log
      小規模 (5,000 SD-WAN Edge) 2 TB 500 GB 8 TB 15 GB
      中規模 (10,000 SD-WAN Edge) 2 TB 500 GB 12 TB 20 GB
      大規模 (15,000 SD-WAN Edge) 2 TB 500 GB 16 TB 25 GB

SD-WAN Orchestrator での証明書の管理

SD-WAN Orchestrator では、組み込みの証明書サーバを使用して、すべての SD-WAN Edge と SD-WAN Controller の全体的な PKI ライフサイクルを管理します。X.509 証明書は、ネットワーク内のデバイスに対して発行されます。

CA を設定するための詳細な手順については、SD-WAN Orchestrator の公式ドキュメント (https://docs.vmware.com/) の「SD-WAN Orchestrator のインストール」および「SSL 証明書のインストール」を参照してください。

CA によって発行された証明書は、次の認証にのみ使用されます。
  • SD-WAN OrchestratorSD-WAN Edge SD-WAN Controller 間の管理プレーン TLS 1.2 トンネル。
  • SD-WAN Edge 間および SD-WAN Edge と SD-WAN Controller 間の制御およびデータ プレーン IKEv2/IPsec トンネル。

証明書失効リスト

PKI が有効になっているコントローラでは、失効した証明書は証明書失効リスト (CRL) に格納されます。このリストのサイズが長い場合(一般的には、SD-WAN Orchestrator の認証局の問題により)、コントローラのパフォーマンスが影響を受けます。CRL の長さは 4,000 エントリ未満である必要があります。
vcadmin@vcg1-example:~$ openssl crl -in /etc/vc-public/vco-ca-crl.pem -text | grep 'Serial Number' | wc -l  
14 
vcadmin@vcg1-example:~

サポートへの問い合わせ

当社のカスタマー サポート組織は、VMware SD-WAN のカスタマーに 24 時間年中無休の世界クラスの技術支援および個別のガイダンスを提供します。

このセクションでは、VMware サポート チームへの問い合わせのガイドラインについて説明します。
  • 診断バンドル

    インシデントを調査している間に、SD-WAN Orchestrator と SD-WAN Controller の診断バンドルを作成できます。作成されたファイルは、VMware サポート チームが問題に関するイベントをさらに分析するのに役立ちます。

  • サポートとのアクセス共有

    場合によっては、SD-WAN Orchestrator および SD-WAN Controller に対して VMware サポート担当者からのサポートが必要になることがあります。

    アクセス権を付与するには、次のような方法があります。
    • サポートとのリモート セッション:カスタマーは SSH ジャンプ サーバへのリモート操作を許可するか、またはサポート担当者の指示に従います。
    • SD-WAN Orchestrator でサポート チームのアカウントを作成する。これにより、サポート チームはカスタマーとのやり取りなしでログを収集できます。
    • Bastion ホストを使用する:SSH の権限とキーを設定することにより、サポート エンジニアは、Bastion ホストを使用してオンプレミスの SD-WAN Orchestrator と SD-WAN Controller にアクセスできるようになります。

    問題のトリアージを支援するために VMware SD-WAN サポートに連絡する場合は、以下の表に記載されているデータを含めてください。

    詳細については、次のリンクを参照してください:https://kb.vmware.com/s/article/53907

必須 推奨
パートナーのケース番号 問題の開始/停止
パートナーへの返信用メール アドレス/電話番号 影響を受けるフロー SRC/DST IP アドレス
SD-WAN Orchestrator の URL 影響を受けるフロー SRC/DST ポート
SD-WAN Orchestrator のカスタマー名 フロー パス(E2E、E2GW、直接)
カスタマーへの影響(高/中/低) SD-WAN Gateway 名
SD-WAN Edge SD-WAN Orchestrator の PCAP へのリンク
SD-WAN Orchestrator の診断バンドルへのリンク
問題についての短い記述
分析および要求された支援