VMware vCenter Site Recovery Manager 5.5 发行说明

|

VMware vCenter Site Recovery Manager 5.5 | 2013 年 9 月 22 日 | 内部版本 1315893

上次更新时间:2015 年 3 月 31 日

请查看发行说明以了解新增内容及更新。

发行说明内容

本发行说明包含以下主题:

SRM 5.5 的新增功能

VMware vCenter Site Recovery Manager 5.5 增加了以下新功能和改进功能。

本地化

VMware vCenter Site Recovery Manager 5.5 提供以下语言的版本:

  • 英语
  • 法语
  • 德语
  • 日语
  • 韩语
  • 简体中文

兼容性

SRM 兼容性列表

有关互操作性和产品兼容性的信息(包括支持的客户机操作系统和客户机操作系统自定义支持),请参见《VMware vCenter Site Recovery Manager 5.5 兼容性列表》

兼容的存储阵列和存储复制适配器

有关受支持的兼容存储阵列和 SRA 的最新列表,请参见《Site Recovery Manager 存储合作伙伴兼容性指南》

VMware VSA 支持

SRM 5.5 可以使用 vSphere Replication 保护驻留在 vSphere Storage Appliance (VSA) 上的虚拟机。VSA 不要求存储复制适配器 (SRA) 与 SRM 5.5 配合使用。

安装和升级

有关帮助进行 Site Recovery Manager 5.x 主要特性和功能的技术演练的评估指南,请参见用于业务连续性的 VMware vCenter Site Recovery Manager 资源

有关安装和升级 SRM 的信息,请参见 Site Recovery Manager 安装和配置

有关支持的 SRM 升级路径,请参见 VMware 产品互操作性列表并选择解决方案升级路径VMware vCenter Site Recovery Manager

重要信息:升级 vSphere Replication 时,请不要选择虚拟设备管理界面 VAMI 中 [更新] > [设置] 下的选项来自动更新 vSphere Replication。如果选择自动更新,则 VAMI 会将 vSphere Replication 更新至最新版本,而该版本可能与 SRM 5.5 和 vCenter Server 5.5 不兼容。请将更新设置继续设置为 无自动更新

升级包含使用 RDM 的虚拟机的站点

如果保护使用裸磁盘映射 (RDM) 的虚拟机,创建数据库表时,在恢复站点上将 Site Recovery Manager 5.0.x 或 5.1.x 升级到 Site Recovery Manager 5.5 会失败。升级失败并显示错误消息:无法创建数据库表。无法执行升级:未初始化 (Failed to create database tables. Could not perform the upgrade: Not initialized)。如果使用 RDM 且 Site Recovery Manager 环境处于以下某种状态,则尝试升级时会发生此问题:

  1. 执行了测试恢复,但在尝试升级之前未完成测试清理。
  2. 执行了恢复,但在尝试升级之前未执行重新保护。

要避免此问题,请在测试恢复后执行清理或在恢复后执行重新保护,然后再尝试升级。

解决办法:如果遇到此问题,可通过手动修改数据库表进行解决。注意:此解决办法取决于尝试升级失败之前是否备份了恢复站点上的数据库。

  1. 从尝试升级失败之前执行的备份还原恢复站点上的数据库。
  2. 连接到恢复站点上的数据库并删除 pds_rdmrecoveryinfo 表中的所有条目。
  3. 重新升级恢复站点上的 Site Recovery Manager Server。
    重要信息再次尝试升级之前,请勿备份数据库。请保留在初次升级尝试失败之前执行的原始备份。
  4. 升级完成后,停止 Site Recovery Manager 服务。
  5. 将备份数据库的 pds_rdmrecoveryinfo 表中的行插入到升级后的数据库的 pds_rdmrecoveryinfo 表中。
  6. 通过从 sequence_table 中选择 ID 来获取 unique_key,其中 name = 'global_sequence'
  7. 对于在步骤 5 中插入的 n 行中的每一行,按如下方式更新各列的值:
          recovereddeviceinfo       unique_key + n
          peerdevicegroup           ''
          peerdevicegrouphasvalue   0
  8. 对于在步骤 5 中插入的 n 行中的每一行,按如下方式在 pds_recovereddeviceinfo 表中创建一个新行:
          db_id                unique_key + n
          mo_id                ''
          ref_count            1
          device               (value of pds_rdmrecoveryinfo.device  n)
          peerdevice           ''
          peerdevicehasvalue   0
  9. 启动 Site Recovery Manager 服务。

SRM 和 vSphere Replication 的操作限制

有关 SRM 5.5 和 vSphere Replication 5.5 的操作限制的信息,请参见 http://kb.vmware.com/kb/2034768

有关在共享恢复站点配置中使用 SRM 5.5 和 vSphere Replication 5.5 时的保护和恢复限制,请参见 http://kb.vmware.com/kb/2008061

SRM SDK

有关 SRM 基于 SOAP 的 API 的使用指南,请参见 VMware vCenter Site Recovery Manager API

开放源组件

可以从 VMware vCenter Site Recovery Manager 下载中获取适用于 Site Recovery Manager 5.5 中分发的开放源软件组件的版权声明和许可证。您还可以下载 vCenter Site Recovery Manager 最新通用版本的所有 GPL、LGPL 或者其他要求公开源代码或源代码修改的类似许可证的源文件。

局限声明和限制

  • vSphere 5.5 将 VMware 虚拟 SAN 作为一项实验功能包含在内。可以通过虚拟 SAN 执行测试,但不支持在生产环境中使用该功能。可以将 SRM 和 vSphere Replication 与 VMware 虚拟 SAN 配合使用,但不支持此操作。有关将虚拟 SAN 与 SRM 和 vSphere Replication 配合使用时的限制信息,请参见将 vSphere Replication 与虚拟 SAN 存储配合使用。有关如何启用虚拟 SAN 的信息,请参见“虚拟 SAN 公共测试版社区”。VMware 无法对虚拟 SAN 进行故障排除、提供解决办法或修复。如果您正在体验虚拟 SAN,VMware 欢迎您提供任何您愿意分享的反馈。请通过“虚拟 SAN 公共测试版社区”页面中所述的访问方法提交支持请求:
  • SRM 5.5 为 vCloud Director 环境提供了有限的支持。不支持使用 SRM 保护 vCloud 资源池内的虚拟机(部署到一个组织的虚拟机)。支持使用 SRM 保护 vCD 的管理结构。有关如何使用 SRM 保护 vCD Server 实例、vCenter Server 实例以及提供 vCloud Director 管理基础架构的数据库的信息,请参见《VMware vCloud Director Infrastructure Resiliency 案例研究》
  • SRM Server 不支持 Windows Server 2003 平台,但 SRM 安装程序允许您在 Windows Server 2003 上安装 SRM。
  • 由于移除支持 DB2 作为受 vCenter Server 5.5 支持的数据库,因此 SRM 5.5 不再支持 IBM DB2 作为 SRM 数据库。如果将 DB2 用作 SRM 数据库或用作外部 vSphere Replication 数据库,请联系 VMware 支持人员,了解有关如何将数据迁移至受支持的数据库的说明。
  • 在恢复之后,将禁用虚拟机上的 vSphere Flash Read Cache 并将预留设置为零。在配置为使用 vSphere Flash Read Cache 的虚拟机上执行恢复之前,请通过 vSphere Web Client 记录虚拟机的缓存预留信息。这样可以在恢复之后重新配置虚拟机上的 vSphere Flash Read Cache。
  • 在共享恢复站点 (N:1) 配置中使用 SRM 5.5 时存在限制。请参见在共享恢复站点配置中使用 SRM 5.5 时的已知问题
  • 您可以将基于阵列的保护与 SRM 5.5 配合使用,以保护 LUN(最多 50 个)。请参见在大型环境中将 SRM 与基于阵列的复制配合使用时的限制

已知问题

下列已知问题是通过严格测试而发现的,可帮助您了解在此版本中可能遇到的某些行为。

  • 新增 同时在多个 LUN 上运行恢复导致出错并超时。

    如果您拥有包含 50 到 255 个光纤通道 LUN 的大型 SRM 5.5.0 环境,并且同时在超过 50 个 LUN 上运行恢复,则可能会注意到与 LUN 相关的恢复超时、错误和失败问题,在某些情况下也会发现与虚拟机相关的此类问题。在某些情况下,可能必须运行恢复计划多次才能成功。不管是在单个恢复计划中还是在多个恢复计划中保护 LUN,都会出现此问题。

    解决办法:请参见知识库文章 2059498

  • 如果 Virtual SAN 将日志存储在 Site Recovery Manager 保护的数据存储上,则使用 vSphere Replication 和 Virtual SAN 的计划迁移可能会失败。

    如果您使用 Virtual SAN 存储,并且将 Virtual SAN 日志存储在 Site Recovery Manager 保护组包含的数据存储上,计划的迁移可能会失败并显示错误:无法卸载卷 datastore_name,因为文件系统正忙 (Cannot unmount volume datastore_name because file system is busy)

    解决办法:请参见知识库文章 2069171

  • 无法配置具有物理模式 RDM 磁盘的虚拟机,即使从复制中排除该磁盘也是如此。

    如果您在采用物理模式 RDM 磁盘的虚拟机上配置 vSphere Replication,可能看到以下错误消息:

    VRM 服务器一般错误。查看文档了解任何故障排除信息。详细的异常为: HMS 无法为虚拟机的磁盘设置磁盘 UUID: MoRef: 类型 = VirtualMachine,值 = ,serverGuid = null' (VRM Server generic error. Check the documentation for any troubleshooting information. The detailed exception is: HMS can not set disk UUID for disks of VM : MoRef: type = VirtualMachine, value = , serverGuid = null')。

    解决办法:无。无法在包含物理模式 RDM 磁盘的虚拟机上配置 vSphere Replication。

  • 虚拟设备管理界面 (VAMI) 不接受非 ASCII 密码

    使用密码为非 ASCII 字符的帐户尝试登录 VAMI 会失败。即使提供正确的身份验证信息,也会出现这种情况。在非 ASCII 密码与 VAMI 一起使用的所有情况下,都会出现该问题。要避免出现此问题,请使用 ASCII 密码或者使用 SSH 进行连接。

  • 重新保护失败,并出现错误消息:远程主机已断开连接,无法与之进行通信 (Unable to communicate with the remote host, since it is disconnected)

    出现此错误的原因可能是,受保护端的群集已配置为使用 Distributed Power Management (DPM),并且该操作所需的 ESX 主机之一已置于待机模式。如果 DPM 检测到主机已闲置并将其置于待机模式,则可能发生这种情况。SRM 必须与该主机进行通信,才能访问该主机所管理的已复制数据存储。SRM 不会管理受保护站点的 DPM 状况,但是,它会管理在恢复站点执行恢复、测试和清理期间的 DPM 状况。

    解决办法:如果该错误仍然存在,请暂时关闭 DPM 并确保已打开管理受保护端的已复制数据存储的 ESX 主机,然后再尝试运行重新保护。

  • 在启用了 Distributed Power Management (DPM) 的群集上卸载数据存储失败

    如果连接到 DPM 群集的主机进入待机模式,则计划的迁移和灾难恢复无法从主机中卸载数据存储。可能会显示以下错误消息:错误: 无法从主机 hostname 卸载数据存储 datastorename。远程主机已断开连接,无法进行通信 (Error: Cannot unmount datastore datastorename from host hostname. Unable to communicate with the remote host, since it is disconnected)。要解决此问题,请在完成计划的迁移或灾难恢复之前关闭受保护站点中的 DPM。可以选择在完成恢复任务后重新打开 DPM。

  • 保护虚拟机任务似乎停留在 100%。

    在执行保护虚拟机任务期间,VI Client 的“近期任务”窗格会显示虚拟机停留在 100%。SRM 会将该虚拟机标记为已配置,表示该虚拟机已受保护。由于 SRM 已成功保护该虚拟机,因此不需要采取任何措施。

  • 在尝试使用 vSphere Replication 来保护已受到重新保护的基于阵列的虚拟机时,SRM 将停止。

    如果您运行恢复,并尝试使用 vSphere Replication 来保护已受基于阵列的保护组保护的虚拟机,则 SRM Server 会停止。

    解决办法:重新启动 SRM Server,并在使用 vSphere Replication 进行保护之前先取消保护基于阵列的受保护虚拟机。或者,也可以继续进行基于阵列的保护,而不使用 vSphere Replication 进行保护。SRM 不支持同时使用这两种提供程序来执行保护。

  • 如果在维护模式下重新启动恢复站点 ESXi 主机后 10 分钟内尝试清理,则清理会失败。

    该清理操作将尝试交换占位符,并使用主机弹性缓存,该缓存的刷新时段为 10 分钟。如果您对已在这 10 分钟内重新启动的 ESXi 主机执行交换操作,则 SRM 不会更新 SRM 主机弹性缓存中的信息,并且该交换操作将失败。该清理操作也会失败。

    解决办法:请等待 10 分钟,然后再尝试清理。

  • 由于磁盘配置错误,虚拟机恢复失败

    可以将单个受保护虚拟机的不同的磁盘和配置文件置于多个数据存储中。恢复期间,SRM 必须有权访问裸磁盘映射和父磁盘文件。如果不具有此访问权限,则 SRM 无法在恢复期间确定磁盘类型。在这种情况下,SRM 可能会假定裸磁盘映射 (RDM) 磁盘是非 RDM 磁盘,从而导致重新配置失败。要避免出现此问题,请确保所有可访问已恢复虚拟机配置文件的主机也可以访问 RDM 映射文件及任何父磁盘(如果这类磁盘存在)。

  • 重新运行重新保护失败,并出现错误消息:保护组“{protectionGroupName}”已通过需要修复的占位保护虚拟机 (Protection Group '{protectionGroupName}' has protected VMs with placeholders which need to be repaired)。

    如果 ReloadFromPath 操作在第一次重新保护期间没有成功,则相应的受保护虚拟机将进入 repairNeeded 状态。当 SRM 对保护组运行重新保护时,SRM 既无法修复受保护的虚拟机,又无法还原占位虚拟机。如果由于相应的 ReloadFromPath 操作失败而使首次对虚拟机执行重新保护操作失败,则会出现该错误。

    解决办法:启用强制清理选项并重新运行重新保护。此选项将完成重新保护操作,并启用重新创建占位选项。单击重新创建占位以修复此受保护虚拟机并还原占位虚拟机。

  • 连接受保护站点失败后,恢复无法继续

    如果在取消激活操作期间或者在 RemoteOnlineSync 或 RemotePostReprotectCleanup 期间无法访问保护站点(在重新保护期间会同时出现这两种情况),则恢复计划可能无法继续。在这种情况下,系统会等待属于保护站点的虚拟机或组完成这些中断的任务。如果在执行重新保护操作期间出现该问题,则必须重新连接原始保护站点,然后取消并重新启动恢复计划。如果在恢复期间出现该问题,则取消并重新启动恢复计划即可。

  • vSphere Replication 设备无法支持有效的 ESX 主机

    在配置 vSphere Replication 的过程中,在受支持的 ESX 版本上选择数据存储时,会显示以下消息:VR 服务器 Server Name 不具有可用于访问目标数据存储的主机... (VR server Server Name has no hosts through which to access destination datastore...)。向 vCenter Server 中添加新主机时或注册 vSphere Replication 服务器期间,如果 vSphere Replication 设备与 vSphere Replication 服务器之间的通信暂时中断,则将发生此问题。通信问题通常是由连接暂时中断或服务器服务停止引起的。

    要解决此问题,请重新启动 vSphere Replication 管理服务器服务。

    1. 登录到 vSphere Replication 设备的虚拟设备管理界面 (VAMI),地址为 https://vr_applliance_address:5480。
    2. 单击服务状态下的 配置 > 重新启动

  • 恢复的 VMFS 卷无法挂载,并出现错误消息:无法恢复数据存储 (Failed to recover datastore)

    出现该错误的原因可能是 vCenter、ESXi 和 SRM Server 之间出现滞后时间。

    解决办法:重新运行恢复计划。

  • 在某些情况下,当保护站点 LUN 遇到全部路径异常 (APD) 或永久设备丢失 (PDL) 时,SRM 可能无法恢复裸磁盘映射 (RDM) LUN。

    在首次尝试计划的迁移时,如果 SRM 尝试关闭受保护的虚拟机,则可能会显示以下错误消息:

    错误 - 当前不允许该操作,因为虚拟机中存在未决问题: 'msg.hbacommon.askonpermanentdeviceloss: 为虚拟磁盘 VM1-1.vmdk 提供支持的存储永久丢失了设备。您可以在单击 [重试] 后从虚拟机热移除此虚拟设备并继续。单击“取消”终止此会话 (Error - The operation cannot be allowed at the current time because the virtual machine has a question pending: 'msg.hbacommon.askonpermanentdeviceloss:The storage backing virtual disk VM1-1.vmdk has permanent device loss. You might be able to hot remove this virtual device from the virtual machine and continue after clicking Retry. Click Cancel to terminate this session)。

    在某些情况下,如果受保护虚拟机具有 RDM 设备,则 SRM 不会恢复 RDM LUN。

    解决办法:

    1. 当 LUN 进入 APD/PDL 状态后,ESXi Server 会使用一个问题来标记所有相应虚拟机,而该问题可能会阻止虚拟机操作。
      1. 如果出现 PDL,请单击取消关闭虚拟机电源。
      2. 如果出现 APD,请单击 [重试]

      如果您运行计划的迁移,SRM 将无法关闭生产虚拟机的电源。
    2. 如果虚拟机具有 RDM 设备,则 SRM 可能无法跟踪 RDM 设备,并且不会对其进行恢复。重新扫描所有 HBA,并确保所有受影响的 LUN 的状态均已从 APD/PDL 状况中恢复。
    3. 检查 vCenter Server 清单并解决阻止虚拟机的 PDL 问题。
    4. 如果在 LUN 恢复联机前解决 PDL 问题,则受保护站点上的 SRM Server 会错误地检测到 RDM 设备已不再附加到此虚拟机,并会移除此 RDM 设备。下次运行恢复时,SRM 将不会恢复该 LUN。
    5. 重新扫描所有 HBA 以确保 vCenter Server 清单上的所有 LUN 均处于联机状态,并打开所有受影响虚拟机的电源。vCenter Server 会将丢失的 RDM 与受保护虚拟机相关联。
    6. 检查 SRM 界面上的 [阵列管理器] 选项卡。如果所有受保护的数据存储和 RDM 设备均未显示,请单击 [刷新] 以发现设备并重新计算数据存储组。
    7. 确保 [编辑组设置] 显示所有受保护的数据存储和 RDM 设备,并且虚拟机保护状态未显示任何错误。
    8. 启动一个计划的迁移来恢复所有受保护的 LUN,包括 RDM 设备。

  • 重新保护虚拟机时,在执行“将保护配置为反向”步骤时可能会出现以下错误: 错误 - 保护组“pg_name”的该操作仅部分完成,因为保护组中某个受保护虚拟机未成功完成操作。VR 未复制虚拟机“vm_name”(Error - The operation was only partially completed for the protection group 'pg_name' since a protected VM belonging to it was not successful in completing the operation. VM 'vm_name' is not replicated by VR)。

    如果在执行“将存储配置为反向”步骤期间第一次运行重新保护失败并出现操作已超时 (Operation Timed out) 错误,则在第二次运行重新保护时会出现上述错误。

    解决办法:手动为受影响的虚拟机配置反向复制,然后重新运行重新保护。有关反向复制的信息,请参见 vSphere Replication 管理在 vSphere Replication 中对虚拟机进行故障恢复

  • vCenter Server 连接临时中断可能会导致具有裸磁盘映射的虚拟机出现恢复问题

    如果在恢复过程中与 vCenter Server 的连接中断,则可能会出现以下状况之一:

    • vCenter Server 仍不可用,恢复失败。要解决此问题,请重新建立与 vCenter Server 的连接并重新运行恢复。
    • 在极少数情况下,vCenter Server 可以再次使用且恢复虚拟机。在这种情况下,如果虚拟机具有裸磁盘映射 (RDM),则可能无法正确映射 RDM。由于无法正确映射 RDM,因此可能无法打开虚拟机电源,或者出现与客户机操作系统或在该客户机操作系统上运行的应用程序相关的错误。
      • 如果这是测试恢复,请完成清理操作并再次运行测试。
      • 如果这是实际恢复,则必须手动将正确的 RDM 附加到已恢复的虚拟机。

    有关添加裸磁盘映射的详细信息,请参见关于编辑虚拟机设置的 vSphere 文档。

  • 取消恢复计划未完成

    运行恢复计划时,会尝试同步虚拟机。可以取消恢复计划,但在同步完成或过期之前,无法完成尝试取消所运行的恢复计划的操作。默认过期时间为 60 分钟。以下选项可用于完成取消恢复计划:

    • 暂停 vSphere Replication,同步也将失败。恢复进入错误状况后,使用 vSphere Client 在“vSphere Replication”选项卡中重新启动 vSphere Replication。重新启动复制后,如果需要,可以再次运行恢复计划。
    • 等待同步完成或超时。这可能需要相当长的时间,但最终会完成。同步完成或过期之后,会继续取消恢复计划。

  • 关闭受保护虚拟机时恢复计划出错:错误 - 操作已超时: 900 秒,在“关闭受保护站点中的虚拟机”步骤期间 (Error - Operation timed out: 900 seconds during Shutdown VMs at Protected Site step)

    如果在支持动态交换的阵列(如 Clariion)上使用 SRM 保护数据存储,则在受保护站点部分关闭后运行灾难恢复时或运行强制恢复计划时,重新运行该恢复计划以完成受保护站点操作可能会出现错误。在受保护站点恢复联机但 SRM 无法关闭受保护的虚拟机时,会出现上述错误。通常,当某些阵列将受保护 LUN 设置为只读,从而使 ESXi 无法完成已打开电源的受保护虚拟机的 I/O 时,会出现该错误。

    解决办法:重新引导受保护站点上受只读 LUN 影响的 ESXi 主机。

  • 计划的迁移失败,并出现"错误: 无法复制配置文件... "(Error: 无法复制配置文件... (Error: Unable to copy the configuration file...)

    如果在群集中有两个 ESXi 主机,并且其中一个主机与存储断开连接,则另一个主机通常可以恢复已复制的虚拟机。在某些情况下,另一个主机可能无法恢复虚拟机,恢复失败并出现以下错误:错误: 无法复制配置文件... (Error: Unable to copy the configuration file...)

    解决办法:重新运行恢复。

  • 如果某一快照是在暂停复制后创建的,则在恢复到该快照后复制将会停止。

    在为虚拟机配置复制并暂停复制时,请创建快照,然后恢复复制并恢复到快照,而不是进入暂停状态,UI 中的复制状态不会更改,而且进度也不会发生变化。

    解决办法:暂停后恢复复制。

  • 在 vSphere Replication 上的操作有时会失败,并显示读取已超时错误消息。

    在 vSphere Replication 上的操作有时会失败,并会显示根本原因错误消息:java.net.SocketTimeoutException: 读取已超时 (java.net.SocketTimeoutException: Read timed out)。如果 ESXi Server 主机运行较慢,或者在 vSphere Replication 正在配置、重新配置、停止或撤消复制时运行其他操作(如 Storage vMotion),则会出现此错误。撤消复制时将遇到以下错误消息:无法撤消复制虚拟机 virtual_machine。VRM 服务器一般错误。请查看文档了解任何故障排除信息。详细的异常为: “java.net.SocketTimeoutException: 读取已超时”(Unable to reverse replication for the virtual machine virtual_machine. VRM Server generic error. Please check the documentation for any troubleshooting information. The detailed exception is: 'java.net.SocketTimeoutException: Read timed out')

    解决办法:在 ESXi Server 上的其他操作完成后重新运行该操作。

  • vSphere Replication 操作失败,并显示“未进行身份验证 (Not Authenticated)”错误。

    如果在一个 SRM 站点上启动操作(例如,在虚拟机上配置 vSphere Replication),然后在另一个站点上重新启动 vCenter Server 和 vSphere Replication 设备,则 vSphere Replication 操作将会失败,并显示错误:VRM 服务器一般错误。请查看文档了解任何故障排除信息。详细的异常为: “com.vmware.vim.binding.vim.fault.NotAuthenticated”(VRM Server generic error. Please check the documentation for any troubleshooting information. The detailed exception is: 'com.vmware.vim.binding.vim.fault.NotAuthenticated')。出现此问题是因为在重新启动 vCenter Server 和 vSphere Replication 设备之前,vSphere Replication 服务器在缓存中保留了连接会话。

    解决办法:从 SRM 客户端或 vSphere Web Client 注销后重新登录可以清除 vSphere Replication 连接缓存。

  • 如果数据存储名称包含特定字符,则数据存储浏览器不会显示数据存储文件夹。

    选择 vSphere Replication 的目标数据存储文件夹时,如果数据存储名称包含特定字符(如左右圆括号或空格),则数据存储浏览器窗口不会显示数据存储的子文件夹。

    解决办法:要选择包含圆括号字符或空格的数据存储的子文件夹,请在数据存储浏览器中选择数据存储,然后单击打开按钮。此操作将打开数据存储并显示数据存储文件夹。

  • 将多个复制从一个 vSphere Replication 服务器移至另一个服务器会导致出错。

    vSphere Replication 重新配置或移动操作将失败,并显示错误 SocketTimeoutException: 读取已超时 (SocketTimeoutException: Read timed out),并且复制进入“错误”状态。当源 vSphere Replication 或目标 vSphere Replication 服务器和存储负载较重时,移动复制将超过几分钟并可能导致超时错误。

    解决办法:在新 vSphere Replication 服务器上重新配置复制。

  • 恢复过程出现内部错误。

    SRM 将在恢复过程中检索来自 vCenter 的各种信息。如果它不接收继续运行所需要的关键信息,则可能会出现内部错误 CannotFetchVcObjectProperty。 如果 vCenter 处于高度紧张状态或 ESXi 主机因高度紧张状态而不可用,则可能会出现该错误。当 SRM 尝试查找某一 ESXi 主机的信息,而该主机已断开连接或已从 vCenter 清单中移除时,也可能会出现该错误。

    解决办法:重新运行恢复计划。

  • 停止受保护虚拟机的数据存储复制会生成错误的错误消息

    可保护在多个数据存储上具有磁盘的虚拟机,随后禁用其中一个数据存储的复制。在这种情况下,保护组中虚拟机的状态将更改为无效: 虚拟机“VM”不再受保护。内部错误: 无法为磁盘“2001”创建定位符... (Invalid: Virtual machine 'VM' is no longer protected. Internal error: Cannot create locator for disk'2001'...)此信息错误。状态应更改为不再复制数据存储“[datastore name]”(Datastore '[datastore name]' is no longer replicated)

  • 在恢复过程中挂载数据存储时 SRM 可能遇到错误

    在测试恢复或实际故障切换过程中,SRM 会等待已恢复的数据存储恢复可用状态。数据存储变为可用后,SRM 尝试挂载任何未挂载的数据存储。在极少数情况下,这些数据存储会在 SRM 可对其进行挂载之前自动挂载。如果这种情况出现在测试故障切换过程中,则故障切换将不会完成。如果这种情况出现在实际恢复过程中,则恢复将完成,但出现错误。要解决此问题,请重试恢复。

  • 计划的迁移在 vSphere vMotion 过程中失败,并在“关闭受保护站点中的虚拟机”步骤中显示错误。

    在计划的迁移过程中,当“关闭受保护站点中的虚拟机”步骤启动时,如果受保护虚拟机的 vSphere vMotion 正在进行中,则该步骤可能会失败,并显示错误:错误 - 无法在当前状态 (已打开电源) 下执行尝试的操作 (Error - The attempted operation cannot be performed in the current state (powered on))。出现此错误是因为在虚拟机迁移过程中 hostd 的关机和关闭电源操作失败。

    解决办法:在完成虚拟机的 vSphere vMotion 之后,再次重新运行计划的迁移。

  • 运行恢复计划时在配置存储步骤中失败,并显示虚拟机错误。

    为同一虚拟机运行后续恢复计划时会在同一配置存储步骤失败,并显示错误消息:指定的密钥、名称或标识符已经存在 (The specified key, name, or identifier already exists)。如果您查看 vCenter Server 清单,将看到两台与故障虚拟机同名的虚拟机,其中一台在“Discovered Virtual Machines”文件夹内。此问题由 vCenter Server 和 ESXi Server 实例之间的已知通信问题导致。

    解决办法:从 vCenter Server 取消注册“Discovered Virtual Machines”文件夹中的重复虚拟机。对所有受影响的虚拟机完成此操作之后,重新运行恢复计划。

  • 在复制多个虚拟机期间,vSphere Replication 服务器可能进入不接受更多的 VRMS 连接但继续复制虚拟机的状态。

    解决办法:重新引导 vSphere Replication 服务器。

  • 在运行清理后马上执行测试恢复会导致错误。

    如果在上一次测试恢复后执行了清理,然后马上再执行测试恢复,此恢复会失败,并显示错误消息:文件已存在(File already exists)。这通常在通过自动化代码而非通过 SRM 界面运行测试恢复时发生。

    解决办法:等待几分钟,然后重试该操作。

  • 在链接模式下运行多个 vCenter Server 实例会导致显示重复的 SRM 角色

    如果在受保护站点和恢复站点上将 vCenter Server 实例配置为以链接模式运行,“分配权限”窗口将显示重复的 SRM 角色。

    解决办法:编辑每个 vCenter Server 实例中的 SRM 角色,为其提供唯一名称。

  • 恢复 vSphere Replication 保护组失败,并显示错误:指定的密钥、名称或标识符已经存在 (The specified key, name, or identifier already exists)

    如果在配置占位虚拟机和为该虚拟机配置 vSphere Replication 时选择了相同的数据存储,占位虚拟机文件和恢复的虚拟机文件可能位于相同路径中。这会导致恢复期间出错。

    解决办法:为占位虚拟机和 vSphere Replication 选择不同的数据存储。

  • 在 ESXi 主机进入和退出维护模式后,清理测试恢复失败。

    如果在恢复站点上的 ESXi 主机处于维护模式时执行测试恢复,测试恢复将失败,这是预期行为。如果将 ESXi 主机退出维护模式并执行清理,则清理将失败,并显示主机仍处于维护模式的错误消息。

    解决办法:在将主机退出维护模式之后,等待约 10 分钟,然后再运行清理。或者,在将主机退出维护模式之后,运行清理之前,重新启动 SRM Server。

  • 通过 SRM API 调用故障切换将执行灾难恢复。

    在 SRM 5.0.x 和 5.1.x 中,如果通过使用 SRM API 来调用故障切换,SRM 将执行计划迁移。这与 API 文档所描述的不一致。在 SRM 5.5中,SRM 将执行灾难恢复,以确保 API 文档和实施保持一致性。此行为是正确行为。

  • 无法在域控制器上安装 vSphere Client。

    在先前的版本中,可以将 vSphere Client 安装在用作 Active Directory 域控制器的主机上。在 vSphere 5.5中,如果 vSphere 安装程序检测到 Active Directory 服务,它将不允许安装 vSphere Client。

    解决办法:在安装 Active Directory 服务角色或将服务器升级为 Active Directory 域控制器之前安装 vSphere Client。

  • 受保护站点上的 SRM Server 在执行重新保护操作期间异常停止。

    如果在包括一个空的精简置备磁盘的虚拟机上执行恢复,并且已将 SRM 配置为不等待 VMware Tools 或打开此虚拟机的电源,在恢复后几秒内执行重新保护将导致受保护站点上的 SRM Server 异常停止。重新启动 SRM Server 后,将在日志中看到以下错误消息:

    Error - Failed to reverse replication for failed over devices.SRA command 'prepareReverseReplication' failed.Address of the storage array is not reachable.Storage array might be down or IP address entered might be incorrect.Ensure that the storage array is up and running and the IP address of the storage array is reachable through the command line interface.

    运行清理将导致相同的错误。在磁盘非空且安装有操作系统的虚拟机上不会发生此错误。此问题通常只发生在使用 SRM API 启动重新保护操作时。如果通过 SRM 界面启动重新保护操作,从恢复结束到重新保护启动所经过的时间足以避免发生此问题。

    解决办法:在执行恢复操作后等待几秒钟,然后再执行重新保护操作。

  • vSphere Replication 服务器注册过程可能需要很长时间,具体取决于 vCenter Server 清单中的主机数量。

    如果 vCenter Server 清单包含上百台主机,则注册 VR 服务器任务将需要 10 至 20 分钟才能完成,因为 vSphere Replication 需要更新每台主机的 SSL 指纹注册表。

    解决办法:等待注册任务完成。完成后,您可以使用 vSphere Replication 处理入站复制流量。另请参见 vSphere Replication 服务器注册需要几分钟时间

  • 升级 SRM 和 vSphere Replication 之后无法取消配置复制或运行重新保护。

    如果运行了测试恢复但未执行清理,并且随后将 vSphere Replication 升级到版本 5.5,则无法取消配置复制或执行重新保护,并将显示错误:VRM 服务器一般错误...“提交事务时出现错误”(VRM Server generic error ...'Error committing the transaction')。发生此错误是因为在升级期间,vSphere Replication 无法清理 vSphere Replication 数据库中测试映像的数据,从而导致无法进一步移除复制。

    解决办法:在将 SRM 和 vSphere Replication 升级到版本 5.5 之前,运行测试清理。如果已经将 SRM 和 vSphere Replication 升级到版本 5.5,则必须手动在恢复站点上删除 vSphere Replication 数据库中的测试数据。

    外部 SQL Server 或 Oracle Server 数据库:

    1. 在恢复站点上登录 vSphere Replication 数据库的主机。
    2. 对 vSphere Replication 数据库运行以下 SQL 语句:

      delete from DiskImageEntity where vmImage_dbId in (select dbId from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity));
      delete from ConfigFileImageEntity where vmImage_dbId in (select dbId from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity));
      delete from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity);
      delete from GroupImageEntity where dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity);

    嵌入式 PostgreSQL vSphere Replication 数据库:

    1. 在恢复站点上登录 vSphere Replication 设备。
    2. 键入以下命令:

      /opt/vmware/vpostgresql/1.0/bin/psql -U vrmsdb

    3. 运行以下 SQL 语句:

      delete from DiskImageEntity where vmImage_dbId in (select dbId from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity));
      delete from ConfigFileImageEntity where vmImage_dbId in (select dbId from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity));
      delete from VmImageEntity where groupImage_dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity);
      delete from GroupImageEntity where dbId not in (select COALESCE(committedImage_dbId, 0) from SecondaryGroupEntity);

    4. 键入 \q 或者按 CTRL+D 退出。
  • 使用 ESXi Server 5.0 时,在具有快照的已恢复虚拟机上运行重新保护将失败,并显示数据存储已锁定错误。

    如果恢复使用 vSphere Replication 保护的虚拟机,并且该虚拟机具有快照,则在恢复后运行重新保护将导致数据存储已锁定错误。该错误仅在以下情况下发生:在运行 ESXi Server 5.0,并且没有选择在恢复时保留多个时间点 (MPIT) 快照的高级设置。

    解决办法:从已恢复虚拟机中移除复制,然后重新配置 vSphere Replication。随后便可以执行重新保护。

在共享恢复站点配置中使用 SRM 5.5 时的已知问题

如果在共享恢复站点配置(也称为 N:1 配置)中使用 SRM 5.5,存在以下已知问题。有关在共享恢复站点配置中使用 SRM 和 vSphere Replication 时的保护和恢复限制,请参见 http://kb.vmware.com/kb/2008061

  • vSphere Replication 恢复将失败,并显示“同步监控已中止 (Sync monitoring aborted)”错误。

    在共享恢复站点配置中运行 vSphere Replication 恢复时,此恢复会失败,并显示错误:错误 - VRM 组 replication_group 的 VR 同步失败。同步监控已中止。请验证源主机和目标 VR 服务器之间的复制通信连接。连接问题解决后,将自动恢复同步 (Error - VR synchronization failed for VRM group replication_group. Sync monitoring aborted. Please verify replication traffic connectivity between source host and target VR server. Sync will automatically resume when connectivity issues are resolved)。如果恢复站点按如下方式加载,则可能发生此问题:

    • 有磁盘大于 2TB 的虚拟机
    • 有许多虚拟机要恢复

    解决办法:

    1. 以 root 身份登录 vSphere Replication 设备。
    2. 打开 /opt/vmware/hms/conf/hms-configuration.xml 文件。
    3. 将标记 <hms-sync-secondary-passive-state-toleration-period> 中的值更改为 900000 毫秒。
    4. 保存更改并重新启动 vSphere Replication 服务:

      service hms restart

  • 虚拟机虚拟网卡的 MAC 地址在恢复过程中通常会保留。

    在极少数情况下,测试或恢复可能无法恢复某一特定虚拟机,因为 vCenter 会在恢复站点上为该虚拟机的虚拟网卡意外地分配一个新的 MAC 地址。恢复步骤的结果列将出现以下错误消息:错误 - 可能由于脚本运行时错误或脚本参数无效,无法完成自定义 (错误代码: 255)。可能已部分应用 IP 设置 (Error - Cannot complete customization, possibly due to a scripting runtime error or invalid script parameters (Error code: 255). IP settings might have been partially applied)。SRM 日志包含一条消息:Error finding the specified NIC for MAC address = xx::xx:xx:xx:xx,其中 xx::xx:xx:xx:xx 是预期的 MAC 地址。

    解决办法:在 vSphere Client 虚拟机的 [属性] 中,手动将受影响虚拟机的 MAC 地址修改为“xx::xx:xx:xx:xx”,然后重新启动恢复计划。

  • 打开共享恢复站点上的虚拟机的电源时,SRM 报告超时错误。

    在大型 SRM 安装中,如果由一个 vCenter Server 管理共享恢复站点上的大量虚拟机(例如 1000 个或更多),则在打开共享恢复站点上的虚拟机的电源时,SRM 会报告超时错误。错误消息为“错误: 操作已超时: 900 秒” (Error:Operation timed out:900 seconds)

    解决办法:

    1. 转到恢复站点上的 SRM Server 主机的 C:\Program Files\VMware\VMware vCenter Site Recovery Manager\config 目录。
    2. 在文本编辑器中打开 vmware-dr.xml
    3. 将默认的 RemoteManager 超时值从 900 增加到一个较大的数字(例如 1200)。
      <RemoteManager>
          <DefaultTimeout>900</DefaultTimeout>
       </RemoteManager>
    4. 重新启动 SRM Server 服务。

  • 配置保护失败并显示占位虚拟机创建错误

    在大量虚拟机上同时配置保护时失败,并显示占位虚拟机创建超时错误或占位虚拟机创建命名错误:

    • 占位虚拟机创建错误: 操作已超时: 300 秒 (Placeholder VM creation error:Operation timed out:300 seconds)
    • 占位虚拟机创建错误: 名称“placeholder_name”已存在 (Placeholder VM creation error:The name 'placeholder_name' already exists)

    解决办法:请参见《SRM 5.5 管理》中的配置保护失败并显示占位虚拟机创建错误

  • 在共享恢复站点配置中,操作将会失败并显示以下错误:与远程服务器的连接已断开 (The connection to the remote server is down)

    如果 vSphere Replication 服务器负载较重,则在共享恢复站点配置中执行的测试恢复、恢复和重新保护操作将会失败。

    解决办法:请勿在 200 个以上的虚拟机上执行并发操作,每个受保护站点的最大数量为 20 个虚拟机。