本节提供了有关在两天操作方案中监控、备份和升级企业内部部署的可用选项的信息。

概览

尽管企业内部部署模式具有一些独特的优势和功能,但管理解决方案的服务提供商或客户必须了解一些注意事项。其中的一些注意事项如下所示:
  • 解决方案隔离:VMware Cloud 运维团队没有访问权限以应用修补程序和升级。
  • 更改管理限制限制了修补和升级频率。
  • 解决方案监控不足或不充分:发生这种情况可能是由于缺少能够管理基础架构的人员,从而导致功能问题、问题解决速度慢和客户不满意。

这种方法始终要求在人员和时间上进行大量投入,才能正确进行管理、运行和修补。下表简要说明了在本地管理系统时必须考虑的一些因素。

表 1. VMware 托管责任与本地责任
系统 描述 VMware 托管责任 本地责任
SD-WAN 编排 应用程序 QoS 和链路转向策略
应用程序和 SD-WAN 设备的安全策略
SD-WAN 设备置备和故障排除
SD-WAN 警示和事件处理
链路性能和容量监控
Hypervisor 监控/警示
计算和内存资源调配
虚拟网络和存储
备份
复制
基础架构 CPU、内存、计算
交换和路由
监控与管理系统
容量规划
软件升级/修补
应用程序/基础架构问题故障排除
备份和基础架构 DR 备份基础架构
定期测试备份机制
DR 基础架构
DR 测试

以下两节分别介绍了企业内部部署的两天操作方案(第一天操作和第二天操作)。

第一天操作

订阅安全建议

VMware 安全建议介绍了在 VMware 产品中报告的安全漏洞的修复措施。如果需要在内部部署组件中执行操作,请订阅下面的链接以接收警示。

https://www.vmware.com/security/advisories.html

SASE Orchestrator 上停用 cloud-init

数据源包含两个部分:meta-data 和 user-data。meta-data 包含实例 ID,在实例生命周期内不应对其进行更改;而 user-data 是在首次引导时应用的配置(用于 meta-data 中的实例 ID)。

在首次引导后,建议停用 cloud-init 文件以加快 SASE Orchestrator 引导序列的速度。要停用 cloud-init,请运行:

./opt/vc/bin/cloud_init_ctl -d

建议不要使用“apt purge cloud-init”命令清除 cloud-init 文件(该过程不会在 VMware SD-WAN 控制器中产生问题)。清除 cloud-init 文件还会清除一些基本的 SASE Orchestrator 工具和脚本(例如,升级和备份脚本)。如果使用了 "清除" 命令,您可以使用以下命令还原文件:

  • 转到 /opt/vcrepo/pool/main/v/vco-tools 文件夹。
  • 从该文件夹中安装 SASE Orchestrator 工具包:“sudo dpkg -i vco-tools_3.4.1-R341-20200423-GA-69c0f688bf.deb”。vco-tools 包名称可能因版本而异。请使用“ls vco-tools”命令检查正确的文件名。

NTP 时区

SASE Orchestrator 和网关时区必须设置为“Etc/UTC”。

vcadmin@vco1-example:~$ cat /etc/timezone 
Etc/UTC 
vcadmin@vco1-example:~$
如果时区不正确,可以执行以下命令以进行更正:
echo "Etc/UTC" | sudo tee /etc/timezone 
sudo dpkg-reconfigure --frontend noninteractive tzdata

NTP 偏移量

期望值是 NTP 偏移量小于或等于 15 毫秒。

vcadmin@vco1-example:~$ sudo ntpq -p 
     remote           refid      st t when poll reach   delay   offset  
jitter 
============================================================================== 
*ntp1-us1.prod.v 74.120.81.219    3 u  474 1024  377   10.171   -1.183   1.033 
ntp1-eu1-old.pr .INIT.          16 u    - 1024    0    0.000    0.000   0.000 
vcadmin@vco1-example:~$  
如果偏移量不正确,可以执行以下命令以进行更正:
sudo service ntp stop 
sudo ntpdate <server> 
sudo service ntp start 

SASE Orchestrator 存储

在最初部署 SASE Orchestrator 时,将创建三个分区:/、/store、/store2、/store3(4.0 和更高版本)。分区是使用默认大小创建的。请按照标题为“在 SASE Orchestrator 中增加存储空间”的一节中的说明进行操作,以获得修改默认大小以与设计匹配的指导。

其他任务

在实施 SASE Orchestrator 后,需要通过以下步骤对其进行进一步的配置:
  1. 配置系统属性。
  2. 设置初始操作员配置文件。
  3. 设置操作员账户。
  4. 创建 SD-WAN 网关
  5. 设置 SASE Orchestrator
  6. 创建客户帐户/合作伙伴账户。

上面列表中的配置超出了本文的范围,可以在 VMware 文档的部署指南中找到该配置。可以在《VMware SASE Orchestrator 部署和监控指南》中标题为“安装 SASE Orchestrator”的一节中找到详细说明。

第二天操作

SASE Orchestrator 备份

本节提供了可用的机制以定期备份 SASE Orchestrator 数据库,从而从操作员错误或活动和备用 Orchestrator 灾难性故障中进行恢复。

请记住,灾难恢复 (DR) 功能是首选的恢复方法。它提供了几乎为零的恢复点目标,因为活动 Orchestrator 上的所有配置是立即复制的。有关灾难恢复功能的更多详细信息,请参阅下一节。

使用嵌入式脚本备份

SASE Orchestrator 提供了内置的配置备份机制以定期备份配置,从而从操作员错误或活动和备用 Orchestrator 灾难性故障中进行恢复。该机制是脚本驱动的,并位于 /opt/vc/scripts/db_backup.sh 中。

该脚本实质上创建配置数据和事件的数据库转储,同时在数据库转储过程中排除一些大型监控表。在执行该脚本后,将在作为上述脚本输入提供的本地目录路径中创建备份文件。

备份由两个 .gzs 文件组成,一个文件包含数据库架构定义,另一个文件包含没有定义的实际数据。管理员应确保备份目录位置具有足够的磁盘空间以存储备份。

最佳做法

  • 挂载一个远程位置,并为备份脚本配置该位置。如果还要备份流量,远程位置应与 /store 具有相同的存储空间。
  • 在使用备份脚本之前,请从 SASE Orchestrator 复制页面中检查灾难恢复 (DR) 复制状态。它们应保持同步,并且不存在任何错误。
  • 除此之外,执行 MySQL 查询并检查复制延迟。
    • SHOW SLAVE STATUS \G
    • 在上面的查询中,查看 seconds_behind_master 字段。理想情况下,它应该为零,但小于 10 也就足够了。
    • 对于大型 SASE Orchestrator,建议使用备用 Orchestrator 以执行备份脚本。从两个 SASE Orchestrator 中生成的备份没有任何差异。
    注意事项
    • 该脚本仅创建配置备份;不包括流量统计信息或事件。
    • 需要在支持/工程团队的帮助下还原配置。
常见问题
  1. 运行该脚本需要多长时间?

    备份持续时间取决于实际客户配置大小。由于从备份操作中排除了监控表,预计配置备份操作将很快完成。对于具有数千个 SD-WAN Edge 和大量历史事件的大型 SASE Orchestrator,可能需要长达一小时的时间,而较小的 SASE Orchestrator 应该可以在几分钟内完成。

  2. 建议多长时间运行一次备份脚本?

    可以根据初始备份大小和所需的完成时间确定备份操作频率。应计划在非高峰时间运行备份操作,以减少对 SASE Orchestrator 资源的影响。

  3. 如果根文件系统没有足够的空间以存储备份,该怎么办呢?

    建议使用其他挂载的卷以存储备份。请注意,使用根文件系统存储备份并不是最佳的做法。

  4. 用户如何验证备份操作是否成功完成?

    要确定备份操作是成功还是失败,使用脚本 stdout 和 stderr 应该就足够了。如果脚本调用是自动完成的,则退出代码可以确定备份操作是成功还是失败。

  5. 如何恢复配置?

    目前,VMware 要求客户与 VMware 支持人员一起恢复配置数据。VMware 支持人员将帮助恢复客户的配置。客户应避免进行任何其他配置更改,直到还原了配置。

  6. 执行该脚本的确切影响是什么?

    尽管备份配置对性能几乎没有影响,但会增加 MySQL 进程的资源使用率。建议在非高峰时间运行备份。

  7. 在运行备份操作期间是否允许进行任何配置更改?

    在运行备份操作时,可以安全地进行配置更改。不过,为了确保具有最新的备份,建议在运行备份时不要执行任何配置操作。

  8. 是否可以在原始 SASE Orchestrator 上还原配置,还是需要使用新的 SASE Orchestrator

    可以,最好在同一 SASE Orchestrator(如果可用)上还原配置。这会确保在还原操作完成后使用监控数据。如果无法恢复原始 SASE Orchestrator,并且备用 Orchestrator 已关闭,则可以在新的 SASE Orchestrator 上还原配置。在这种情况下,监控数据将会丢失。

  9. 如果需要将配置还原到新的 SASE Orchestrator,应执行哪些操作?

    鉴于具体步骤因实际部署而异,请与 VMware 技术支持团队联系以了解在新的 SASE Orchestrator 上执行的一组建议操作。

  10. SD-WAN Edge 是否必须在新还原的 SASE Orchestrator 上重新注册?

    否,不需要在新的 SASE Orchestrator 上注册 SD-WAN Edge,因为在备份过程中保留了所需的所有信息。

SASE Orchestrator 灾难恢复

SASE Orchestrator 灾难恢复 (DR) 功能防止在发生系统或网络故障时丢失存储的数据并恢复 SASE Orchestrator 服务。 SASE Orchestrator DR 涉及为数据复制设置活动/备用 SASE Orchestrator 对以及手动触发的故障切换机制。
注: DR 是强制性的。有关许可和定价,请与 VMware SD-WAN 销售团队联系以获得支持。

状态

从操作员以及 SD-WAN EdgeSD-WAN 网关 的视图中, SASE Orchestrator 具有以下四种 DR 状态之一:
  • 独立(未配置 DR)
  • 活动(已配置 DR,充当主 SASE Orchestrator 服务器)。
  • 备用(已配置 DR,充当非活动副本 SASE Orchestrator 服务器)。
  • 僵停(以前配置了 DR 并处于活动状态,但不再作为活动或备用服务器)
表 2. 表 2:内部部署 SASE Orchestrator 的实例最低要求
阶段 SASE Orchestrator A 角色 SASE Orchestrator B 角色
初始 独立 独立
配对 活动 备用
故障切换 僵停 独立

最佳做法
  • SASE Orchestrator DR 放在地理位置分开的数据中心。
  • 在将备用 Orchestrator 升级为活动 Orchestrator 之前,请确认 DR 复制状态为“同步中”。以前的活动 Orchestrator 将不再能够管理清单和配置。

  • 如果备用 Orchestrator 可以与之前的活动 Orchestrator 通信,它会指示该 Orchestrator 进入僵停状态。在僵停状态下,SASE Orchestrator 与其客户端(SD-WAN EdgeSD-WAN 网关、UI/API)进行通信,并通知客户端它不再处于活动状态,它们必须与新升级的 SASE Orchestrator 进行通信。
  • 如果升级的备用 Orchestrator 无法与以前的活动 Orchestrator 进行通信,操作员应尽可能手动降级以前的活动 Orchestrator。
  • 可以在官方 SASE Orchestrator 文档网站 (docs.vmware.com) 上的“配置 SASE Orchestrator 灾难恢复”中找到详细说明。

SASE Orchestrator 的升级过程

对于企业内部部署,请与 VMware 技术支持团队联系以做好 SASE Orchestrator 升级准备,如下所述:
  1. VMware 支持人员将帮助您进行升级。在与 VMware 支持人员联系之前,请收集以下信息。
    • 提供当前和目标 SASE Orchestrator 版本,例如:当前版本为 3.4.2,目标版本为 3.4.3。
      注: 对于当前版本,可以在 SASE Orchestrator 的右上角单击“帮助”(Help) 链接,然后选择“关于”(About) 以找到该信息。
    • 提供 SASE Orchestrator 复制仪表板的屏幕截图,如下所示。

    • Hypervisor 类型和版本(例如 vSphere 6.7)
    • 来自 SASE Orchestrator 的命令(必须以 root 身份运行命令,例如,“sudo <command>”或“sudo -i”):
      • LVM 布局
        • pvdisplay -v
        • vgdisplay -v
        • lvdisplay -v
        • df -h
        • cat /etc/fstab
      • 内存信息
        • free -m
        • cat /proc/meminfo
        • ps -ef
        • top -b -n 2
      • CPU 信息
        • cat /proc/cpuinfo
      • /var/log 副本
        • tar -czf /store/log-`date +%Y%M%S`.tar.gz --newer-mtime="36 hours ago" /var/log
      • 从备用 Orchestrator 中:
        • sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW SLAVE STATUS \G'
      • 从活动 Orchestrator 中:
        • sudo mysql --defaults-extra-file=/etc/mysql/velocloud.cnf velocloud -e 'SHOW MASTER STATUS \G'
  2. VMware SD-WAN 支持人员联系 (https://kb.vmware.com/s/article/53907) 以提供上述信息,从而帮助您进行 SASE Orchestrator 升级。
  3. 如果客户希望在升级后使用快速回滚解决方案,则下一节中提供的 ESXi 快照准则是非常有用的。

ESXi 快照

可以在 SASE Orchestrator 升级之前使用 ESXi 快照功能,以快速回滚到以前的 SASE Orchestrator 版本。

ESXi 快照最佳做法

在查看分步过程之前,请查看以下有关功能的最佳做法和准则:
  • 在拍摄快照或从快照中还原之前,必须关闭备用和活动 Orchestrator 电源以避免任何数据库不一致问题。
  • 必须在备用和活动 Orchestrator 中完成与快照相关的所有任务,以避免任何数据库不一致问题。
  • 如果升级过程成功,则需要合并快照。如果保留更长的一段时间,快照文件将继续增长。这可能会导致快照存储位置空间不足并影响系统性能。
  • 创建快照时,请在 SASE Orchestrator 中停用警示以免产生误报。
  • 不要将单个快照使用超过 72 小时。
  • 建议不要将快照作为备份。
  • 使用 ESXi 6.7 和 SASE Orchestrator 3.4.4 版本完成了功能验证。

可以在以下知识库文章中找到 VMware 快照最佳做法:https://kb.vmware.com/s/article/1025279

创建 ESXi 快照

请按照以下说明创建 ESXi 快照。
  1. 在活动 Orchestrator 上停用警示、通知和监控系统属性。大约持续 10 分钟的时间。
    1. 在操作员门户中,单击系统属性 (System Properties)。将以下系统属性更改为 false。
      • vco.alert.enable
      • vco.notification.enable
      • vco.monitor.enable

  2. 在备用 Orchestrator 上停用警示、通知和监控系统属性。
    1. 将以下系统属性更改为 false。
      • vco.alert.enable
      • vco.notification.enable
      • vco.monitor.enable
  3. 关闭活动 Orchestrator 的电源。

    转到“ESXi/vCenter”→“Orchestrator 虚拟机”(Orchestrator VM) →“操作”(Actions) →“电源”(Power) →“关闭电源”(Power Off)。

  4. 关闭备用 Orchestrator 电源。

    转到 ESXi/vCenter → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 关闭电源 (Power Off)

  5. 拍摄活动 Orchestrator 快照。在执行该步骤之前,确认已关闭虚拟机电源。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 快照 (Snapshots) → 拍摄快照 (Take Snapshot)

  6. 拍摄备用 Orchestrator 快照。在执行该步骤之前,确认已关闭虚拟机电源。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 快照 (Snapshots) → 拍摄快照 (Take Snapshot)

ESXi 快照合并

如果升级成功,请按照以下说明进行操作。在执行合并过程时,预计 CPU 使用率将增加大约 5%。大约持续 10 分钟的时间。
  1. 在确认成功在活动和备用 Orchestrator 上进行升级后,您可以从活动 Orchestrator 开始合并快照。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 快照 (Snapshots) → 快照管理器 (Snapshot Manager) → 全部删除 (Delete All)

  2. 在备用 Orchestrator 中合并快照。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 快照 (Snapshots) → 快照管理器 (Snapshot Manager) → 全部删除 (Delete All)

  3. 在活动 Orchestrator 和备用 Orchestrator 上重新启用警示、通知和监控系统属性。
    在操作员门户中,单击 系统属性 (System Properties)。将以下系统属性更改为 true。
    • vco.alert.enable
    • vco.notification.enable
    • vco.monitor.enable

  4. 如果无法在 vSphere 6.x/7.x 中删除所有快照,您可以尝试合并快照。有关更多信息,请参阅 vSphere 产品文档中的“合并快照”一节。

从 ESXi 快照中还原

如果要回滚到以前的 SASE Orchestrator 版本,请按照以下说明进行操作。大约持续 10 分钟的时间。
  1. 关闭活动 Orchestrator 的电源。

    转到 ESXi/vCenter → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 关闭电源 (Power Off)

  2. 关闭备用 Orchestrator 电源。

    转到 ESXi/vCenter → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 关闭电源 (Power Off)

  3. 还原活动 Orchestrator 快照。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 快照 (Snapshots) → 管理快照 (Manage Snapshots)

    选择要为虚拟机还原的快照,然后选择“恢复为”(请参阅下图)。

  4. 还原备用 Orchestrator 快照。

    转到 ESXi → Orchestrator 虚拟机 (Orchestrator VM) → 操作 (Actions) → 电源 (Power) → 快照 (Snapshots) → 管理快照 (Manage Snapshots)

    选择要为虚拟机还原的快照,然后选择“恢复为”。

  5. 在活动 Orchestrator 和备用 Orchestrator 上重新启用警示、通知和监控系统属性。在操作员门户中,单击系统属性 (System Properties)。将以下系统属性更改为 true。
    • vco.alert.enable
    • vco.notification.enable
    • vco.monitor.enable

控制器次要软件升级(例如,从 3.3.2 P3 升级到 3.4.4)

软件升级文件包含网关和系统更新。不要运行“apt-get update && apt-get –y upgrade”。

在执行 VMware SD-WAN 控制器升级之前,请确保 SASE Orchestrator 之前已升级到相同或更高的版本。

要升级 SD-WAN 控制器,请执行以下操作:
  1. 下载 SD-WAN 控制器更新包。
  2. 将映像上载到 SD-WAN 控制器存储中(例如,使用 SCP 命令)。将映像复制到系统上的以下位置:/var/lib/velocloud/software_update/vcg_update.tar。
  3. 连接到 SD-WAN 控制器控制台并运行:

    sudo /opt/vc/bin/vcg_software_update

示例:
root@VCG:/var/lib/velocloud/software_update# wget -O 'vcg_update.tar' <image location> 
Resolving ftpsite.vmware.com (ftpsite.vmware.com)...  
Connecting to ftpsite.vmware.com (ftpsite.vmware.com)| <ip address>|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: unspecified [application/octet-stream] 
Saving to: 'vcg_update.tar' 
    [                                  <=>  ] 325,939,200 3.81MB/s   in 82s 
2020-05-23 21:59:27 (3.79 MB/s) - ‘vcg_update.tar’ saved [325939200] 
root@VCG:/var/lib/velocloud/software_update# sudo /opt/vc/bin/vcg_software_update 
=========== VCG upgrade: Sat May 23 22:08:15 UTC 2020 
Upgrading gateway version 3.4.0-106-R340-20200218-GA-c57f8316dd to 3.4.1-39-R341-20200428-GA-44354-44451-596496a88a 
Ign file: trusty InRelease 
Ign file: trusty Release.gpg 
Get: 1 file: trusty Release [2,668 B] 
Ign file: trusty/main Translation-en_US 
Ign file: trusty/main Translation-en 
(...) 
Writing extended state information... 
Reading package lists... 
Building dependency tree... 
Reading state information... 
Reading extended state information... 
Initializing package states... 
update-initramfs: Generating /boot/initrd.img-3.13.0-176-generic 
Reboot is required. Reboot? (y/n) [y]: 

控制器主要软件升级(例如,从 3.3.2 或 3.4 升级到 4.0)

在 4.0 版本中,包含多处更改:
  • 基于 LVM 的全新系统磁盘布局;可以在卷管理方面提供更大的灵活性
  • 新的内核版本
  • 新的和升级的基本操作系统软件包
  • 提高了基于 Internet 安全中心基准的安全强化

由于这些更改,使用升级脚本的标准升级过程无法正常工作。需要使用特定的升级过程。它位于下面的产品手册中。该过程用于将 3.3.2 或 3.4 网关虚拟机替换为新的 4.0 网关虚拟机。请参阅以下文档:将 VMware SD-WAN 合作伙伴网关从 3.3.2 或 3.4 升级和迁移到 4.0

该升级过程要求配置 SASE Orchestrator 系统属性,仅 SASE Orchestrator 操作员帐户可以运行该过程。请创建一个支持请求单,并向 VMware 支持团队提供该请求单以请求更改系统属性。

监控

对于企业内部部署,客户的职责之一是监控解决方案。通过进行监控,客户可以提前发现可能出现的问题。
  • SD-WAN 控制器监控

    您可以监控操作员门户中提供的控制器的状态和使用情况数据。

    该过程如下所示:

  1. 在操作员门户中,单击网关 (Gateways)
  2. 网关 (Gateways) 页面显示可用的控制器列表。
  3. 单击一个网关的链接。将显示所选控制器的详细信息。
  4. 单击“监控”(Monitor) 选项卡以查看选定控制器的使用情况数据。

选定控制器的“监控”(Monitor) 选项卡显示以下详细信息,如下图中所示。

您可以选择特定的时间段,以便在页面顶部查看选定持续时间的控制器详细信息。

该页面使用以下参数显示选定时间段的使用情况详细信息的图形表示形式,以及最小值、最大值和平均值。

表 3. 使用情况详细信息
使用情况 描述
CPU 百分比 (CPU Percentage) CPU 使用量百分比
内存使用情况 (Memory Usage) 内存使用量百分比
流量计数 (Flow Counts) 流量计数
切换队列丢弃 (Handoff Queue Drops) 由于排队切换而丢弃的数据包数
隧道计数 (Tunnel Count) 隧道会话数
  • 建议监控的 SD-WAN 网关控制器值

    以下列表显示应监控的值及其阈值。以下列表只是一个起点,并未提供全面的信息。某些部署可能需要评估其他组件,例如流量、数据包丢失率,等等。

    每次达到警告阈值时,建议检查当前设备大小配置,并根据需要添加更多资源。在触发严重警报时,请务必与 VMware 支持代表联系以检查解决方案并提供进一步的建议。

    表 4. 建议监控的值
    服务检查 服务检查描述 警告阈值 严重阈值
    CPU 负载 (CPU Load) 检查系统负载。 60 80
    内存 (Memory) 检查内存利用率缓冲区、缓存和使用的内存。 70 80
    隧道 (Tunnels) 来自连接的 SD-WAN Edge 的隧道数。 最大大小的 60% 最大大小的 80%

    注意:如果所有隧道突然中断或隧道数量异常少,也应引起注意。

    切换丢弃 (Handoff Drops) 由于通过控制器的流量繁忙,预计偶尔会丢弃数据包。 如果在特定队列中持续丢弃数据包,则可能表明存在容量问题。
    磁盘空间 (Disk Space) 当前磁盘利用率 40% 可用 20% 可用
    控制器 NTP (Controller NTP) 检查时间偏移量 5 秒偏移量 10 秒偏移量
  • SASE Orchestrator 与监控堆栈的集成

SASE Orchestrator 附带了内置的系统衡量指标监控堆栈,它可以附加到外部衡量指标收集器和时间序列数据库。通过使用监控堆栈,您可以快速检查 SASE Orchestrator 的运行状况和系统负载。

在开始之前,请设置基于时间的数据库以及仪表板/警示代理。在完成该操作后,您可以在 SASE Orchestrator 中启用 Telegraf。
    • 要启用监控堆栈,请在 Orchestrator 上运行以下命令:

      sudo /opt/vc/scripts/vco_observability_manager.sh enable

    • 要检查监控堆栈的状态,请运行:

      sudo /opt/vc/scripts/vco_observability_manager.sh status

    • 要停用监控堆栈,请运行:
      sudo /opt/vc/scripts/vco_observability_manager.sh disable

  • 衡量指标收集器
    Telegraf 用作 SASE Orchestrator 系统衡量指标收集器,它具有大量插件以收集不同的系统衡量指标。默认情况下,将启用以下衡量指标。
    表 5. 衡量指标收集器
    衡量指标名称 描述 支持的版本
    inputs.cpu 有关 CPU 使用情况的衡量指标。 3.4/4.0
    inputs.mem 有关内存使用情况的衡量指标。 3.4/4.0
    inputs.net 有关网络接口的衡量指标。 4.0
    inputs.system 有关系统负载和正常运行时间的衡量指标。 4.0
    inputs.processes 按状态分组的进程数。 4.0
    inputs.disk 有关磁盘使用情况的衡量指标。 4.0
    inputs.diskio 有关设备的磁盘 IO 的衡量指标。 4.0
    inputs.procstat 特定进程的 CPU 和内存使用情况。 4.0
    inputs.nginx Nginx 的基本状态信息 (ngx_http_stub_status_module)。 4.0
    inputs.mysql 来自 MySQL 服务器的统计数据。 3.4/4.0
    inputs.redis 来自一个或多个 Redis 服务器的衡量指标。 3.4/4.0
    inputs.statds API 和系统衡量指标。 3.4/4.0(在 4.0 中包含其他衡量指标)
    inputs.filecount 指定目录中文件的数量和总大小。 4.0
    inputs.ntpq 标准 NTP 查询衡量指标,需要使用 ntpq 可执行文件。 4.0
    Inputs.x509_cert 来自 SSL 证书的衡量指标。 4.0

    要激活更多衡量指标或停用某些启用的衡量指标,您可以通过以下方式在 SASE Orchestrator 上编辑 Telegraf 配置文件:

    sudo vi /etc/telegraf/telegraf.d/system_metrics_input.conf

    sudo systemctl restart telegraf

  • 时间序列数据库

    时间序列数据库可用于存储 Telegraf 收集的系统衡量指标。时间序列数据库 (Time-Series Database, TSDB) 是针对时间序列数据优化的数据库。

  • 仪表板和警示代理

    通过使用仪表板和警示代理,您可以查询、可视化和浏览 TSDB 中存储的数据以及发出警示。该图像是使用 Telegraph(TSDB 和仪表板引擎)的仪表板示例,可以创建该仪表板以监控解决方案。

  • 时间序列数据库设置

    请按照以下说明设置时间序列数据库。

  1. 添加 iptables 条目以允许外部监控系统访问 Telegraf 端口。出于安全原因,应指定源 IP 地址。
    1. 示例:外部监控系统的 IP 地址为 191.168.0.200。在 /etc/iptables/rules.v4 中添加“-A INPUT -p tcp -m tcp --source 191.168.0.200 --dport 9273 -m comment --comment "allow telegraf port" -j ACCEPT”。

    2. 重新启动 iptables。

      sudo service iptables-persistent restart (Orchestrator 3.4.x)

      sudo systemctl restart netfilter-persistent (Orchestrator 4.x)

    3. 确保添加了 iptables 条目。
  2. 在 Telegraf 配置中添加时间序列数据库详细信息。创建输出配置文件。使用 Prometheus 的示例如下所示:

    /etc/telegraf/telegraf.d/prometheus_out.conf

  • SASE Orchestrator 建议监控的值

    以下列表显示应监控的值及其阈值。以下列表只是一个起点,因为它并未提供全面的信息。某些部署可能需要评估其他组件,例如数据库事务、自动备份等。

    每次达到警告阈值时,建议检查当前设备大小配置,并根据需要添加更多资源。在触发严重警报时,请务必与 VMware 支持代表联系以检查解决方案并提供进一步的建议。
    表 6. 监控值和阈值
    服务检查 服务检查描述 警告阈值 严重阈值
    CPU 负载 (CPU Load) 检查系统负载 - Telegraf 输入插件:inputs.cpu。 60 70
    内存 (Memory) 检查内存利用率缓冲区、缓存和使用的内存 - Telegraf 输入插件:inputs.memory。 70 80
    磁盘使用情况 (Disk Usage) 不同 Orchestrator 分区 /、/store、/store2 和 /store3(4.0 和更高版本)中的磁盘利用率 - Telegraf 输入插件:inputs.disk(4.0 和更高版本)。 40% 可用 20% 可用
    MySQL 服务器 (MySQL Server) 检查 MySQL 连接 - Telegraf 输入插件:inputs.mysql。 超过 mysql.conf (/etc/mysql/my.cnf) 中定义的最大连接数的 80%
    SASE Orchestrator 时间 检查时间偏移量 - Telegraf 输入插件:inputs.ntpq(4.0 和更高版本)。 5 秒偏移量 10 秒偏移量
    SASE Orchestrator SSL 证书 检查证书到期时间 - Telegraf 输入插件:inputs.x509_cert(4.0 和更高版本)。 60 天 30 天
    SASE Orchestrator Internet(不适用于仅限 MPLS 的拓扑) 检查 Internet 访问。 响应时间超过 5 秒 响应时间超过 10 秒
    SASE Orchestrator HTTP 确保 localhost 上的 HTTP 做出响应。 localhost 没有响应。
    SASE Orchestrator 证书总数 检查总数 - 示例 mysql 查询:

    SELECT count(id) FROM VELOCLOUD_EDGE_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()', 'SELECT count(id) FROM VELOCLOUD_GATEWAY_CERTIFICATE WHERE validFrom <= NOW() AND validTo >=NOW()

    CRL 在总证书数超过 5000 个时
    DR 复制状态 (DR Replication Status) 确认备用 Orchestrator 是最新的。 检查 DR SASE Orchestrator 落后活动 Orchestrator 的时间是否不超过 1000 秒。

    Seconds_Behind_Master:来自 mysql 命令:show slave STATUS\G;

    DR 复制 SD-WAN Edge 网关增量 确认 SD-WAN EdgeSD-WAN 网关 可以与 DR SASE Orchestrator 进行通信。

    活动和备用 Orchestrator 之间的值差异可能是由于 SD-WAN EdgeSD-WAN 网关 中的时区不同造成的。

    与活动 Orchestrator 通信的相同数量的 SD-WAN Edge 应该能够访问备用 Orchestrator。可以在“复制”(replication) 选项卡上或通过 API 检查该值。

API 最佳做法

SASE Orchestrator 为 VMware SD-WAN 解决方案中的管理平面提供支持。它为服务提供商和企业提供了广泛的配置、监控和故障排除功能。用户与之交互以执行该功能的主要 Web 服务称为 SASE Orchestrator 门户。
  • SASE Orchestrator 门户

    通过使用 SASE Orchestrator 门户,网络管理员(或代表他们执行的脚本和应用程序)可以管理网络和设备配置,以及查询当前或以前的网络和设备状态。API 客户端可以通过 JSON-RPC 接口或类似于 REST 的接口与门户进行交互。可以使用这两个接口调用本文中所述的所有方法。没有将访问完全限制为 JSON-RPC 客户端或类似于 REST 的客户端的门户功能。

    这两个接口仅接受 HTTP POST 请求。这两个接口还要求请求正文(如果存在)采用 JSON 格式(与 RFC 2616 一致),客户端也可能会使用 Content-Type 请求标头正式声明采用该格式,例如 Content-Type: application/json。

    有关 VMware SD-WAN API 的更多信息,请参阅:

    https://code.vmware.com/apis/1000/velocloud-sdwan-vco-api

  • 使用 API 的企业和服务提供商的最佳做法
    使用 API 时的一些最佳做法是:
    • 应尽可能优先使用聚合 API 调用,而不是企业特定的 API 调用。例如,可以使用对 monitoring/getAggregateEdgeLinkMetrics 的单个调用以同时检索所有 SD-WAN Edge 中的传输统计信息。
    • VMware 要求客户将任何给定时间执行的 API 调用次数限制为不超过几个(例如,少于 2-4 个)。如果用户觉得迫切需要并行处理 API 调用,则 VMware 要求他们与 VMware 支持人员联系以讨论替代解决方案。
    • 通常,我们建议您轮询 API 以查找统计数据的频率不要超过每 10 分钟一次。新的统计数据每 5 分钟到达 SASE Orchestrator 一次。由于在报告/处理过程中出现抖动,每 5 分钟轮询一次的客户可能会观察到“误报”情况,即,在 API 调用的结果中未反映统计信息。用户倾向于使用 10 分钟或更长时间的请求间隔以查找最佳结果。
    • 避免两次查询相同的信息。
    • 在 API 之间使用睡眠。
    • 对于复杂的软件自动化,请运行脚本并评估对 CPU/内存的影响。然后,根据需要进行调整。

SASE Orchestrator syslog 配置

可以为以下 Orchestrator 进程单独配置 VMware SASE Orchestrator syslog 功能:门户、上载和后端。

下面列出了每个进程的简短说明:
  • 门户:门户进程作为 NGINX 下游的内部 HTTP 服务器运行。门户服务主要以同步方式处理来自 SASE Orchestrator Web 接口或 HTTP/SDK 客户端的入站 API 请求。这些请求允许经过身份验证的用户配置、监控和管理 SASE Orchestrator 提供的各种服务。

    该日志对于 AAA 活动非常有用,因为它包含用户在 SASE Orchestrator 中执行的所有操作。

    日志文件:/var/log/portal/velocloud.log(记录所有信息、警告和错误日志)

  • 上载:上载进程作为 NGINX 下游的内部 HTTP 服务器运行。上载服务以同步或异步方式处理来自 SD-WAN EdgeSD-WAN 网关 的入站请求。这些请求主要包括 SD-WAN EdgeSD-WAN 网关 发送的激活、检测信号、流量统计信息、链路统计信息和路由信息。

    日志文件:/var/log/upload/velocloud.log(记录所有信息、警告和错误日志)

  • 后端:主要运行计划作业或排队作业的作业运行程序。计划作业包括清理、汇总或状态更新活动。排队作业包括处理链路和流量统计信息。

    日志文件:/var/log/backend/velocloud.log(记录所有信息、警告和错误日志)

Orchestrator Syslog 配置
  1. 导航到 SASE Orchestrator 中的系统属性 log.syslog.<server>(例如 log.syslog.portal)。转到“SASE Orchestrator”→“系统属性”(System Properties),然后在搜索栏中键入“log.syslog”。
  2. 将一个或多个服务器的 "enable":false 值更改为 true。根据您的实现,更改主机 IP 和端口。

增加 SASE Orchestrator 中的存储空间

有关在 SASE Orchestrator 中增加存储空间的详细说明,可以在 SASE Orchestrator

文档网站 (https://docs.vmware.com/) 上的“安装 SASE Orchestrator”和“扩展磁盘大小 (VMware)”中找到。

  • 最佳做法:
    • 确保将相同的 LVM 分配应用于备用 Orchestrator。
    • 建议不要在增加卷大小后减小它们的大小。请改用精简置备。
    • 在 3.4 中,在增加磁盘大小时,可以使用以下百分比/值分配:
      • “/”卷:该卷用于操作系统。生产 Orchestrator 通常设置为 140GB,并具有 40% 至 60% 的使用率。
      • /store 和 /store2:在生产 Orchestrator 中为 /store 应用的比例接近于 85%,为 /store2 应用的比例接近于 15%。
    • 应在 4.x 和更高版本中使用下表中的准则。
      实例大小 /store /store2 /store3 /var/log
      小型(5000 个 SD-WAN Edge 2 TB 500GB 8TB 15GB
      中型(10000 个 SD-WAN Edge 2 TB 500GB 12TB 20GB
      大型(15000 个 SD-WAN Edge 2 TB 500GB 16TB 25GB

SASE Orchestrator 中管理证书

SASE Orchestrator 使用内置的证书服务器来管理所有 SD-WAN Edge 和 SD-WAN 控制器的总体 PKI 生命周期。X.509 证书颁发给网络中的设备。

可以在官方 VMware SD-WAN 操作员文档网站 (https://docs.vmware.com/cn/VMware-SD-WAN/index.html) 上的“安装 SASE Orchestrator”和“安装 SSL 证书”中找到配置 CA 的详细说明。

CA 颁发的证书仅用于以下隧道的身份验证:
  • SASE OrchestratorSD-WAN Edge SD-WAN 控制器之间的管理平面 TLS 1.2 隧道。
  • SD-WAN Edge 之间以及 SD-WAN Edge 与 SD-WAN 控制器之间的控制和数据平面 IKEv2/IPsec 隧道。

证书吊销列表

在启用了 PKI 的控制器上,吊销的证书存储在证书吊销列表 (Certificate Revocation List, CRL) 中。如果该列表变得太长(通常是由于 Orchestrator 证书颁发机构问题),控制器的性能将会受到影响。CRL 长度应少于 4,000 个条目。
vcadmin@vcg1-example:~$ openssl crl -in /etc/vc-public/vco-ca-crl.pem -text | grep 'Serial Number' | wc -l  
14 
vcadmin@vcg1-example:~

支持交互

我们的客户支持组织为 VMware SD-WAN 客户提供世界一流的全天候 (24x7x365) 技术帮助和个性化指导。

本节提供了一些与 VMware 支持团队进行交互的准则。
  • 诊断包

    在调查事件时,可以创建 SASE Orchestrator 和 SD-WAN 控制器诊断包。生成的文件将帮助 VMware 支持团队进一步分析有关问题的事件。

  • 与支持人员共享访问

    有时,可能需要 VMware 支持代表提供帮助以解决 SASE Orchestrator 和 SD-WAN 控制器问题。

    授予访问权限的一些常见方法是:
    • 与支持人员建立远程会话:客户可以为 SSH 跳转服务器授予远程控制权,或者按照支持人员的说明进行操作。
    • SASE Orchestrator 中为支持团队创建一个帐户。这有助于支持团队在无需与客户交互的情况下收集日志。
    • 通过堡垒主机:可以配置 SSH 权限和密钥,以允许支持工程师使用堡垒主机访问内部部署 SASE Orchestrator 和 SD-WAN 控制器。

    在与 VMware SD-WAN 支持人员联系以帮助对问题分类时,请提供下表中描述的数据。

    可以在以下链接中找到更多信息:https://kb.vmware.com/s/article/53907

必需 建议
合作伙伴案例编号 问题开始/停止
合作伙伴返回电子邮件/电话 受影响的流量 SRC/DST IP
SASE Orchestrator URL 受影响的流量 SRC/DST 端口
SASE Orchestrator 中的客户名称 流量路径(E2E、E2GW、直接)
客户影响(高/中/低) SD-WAN 网关名称
SD-WAN Edge 名称 指向 SASE Orchestrator 中 PCAP 包的链接
指向 SASE Orchestrator 中诊断包的链接
简短的问题陈述
分析和请求的帮助