vSphere Bitfusion 服务器和客户端配置为使用 PVRDMA 传输数据流量后,vSphere Bitfusion 客户端上网络适配器的 RDMA 端口可能会显示 PORT_DOWN 状态。您可以通过安装 RDMA 内核模块来解决此问题。

问题

  • 无法成功测试 vSphere Bitfusion 服务器与客户端之间的 PVRDMA 连接。
  • 运行 ibv_devinfo 命令时,vSphere Bitfusion 客户端的 RDMA 端口未正常运行。

原因

为操作系统安装 RDMA 软件包后,软件包可能不会安装所需的内核模块。

解决方案

  1. 加载 mlx4_ibib_umadrdma_cmrdma_ucmvmw_pvrdma 内核模块。
    此解决方案适用于 CentOS、Red Hat Linux 和 Ubuntu。
    1. 加载以下内核模块。
      sudo /sbin/modprobe mlx4_ib
      sudo /sbin/modprobe ib_umad
      sudo /sbin/modprobe rdma_cm
      sudo /sbin/modprobe rdma_ucm
    2. 重新加载 vmw_pvrdma 内核模块。
      必须在加载其他内核模块后再加载 vmw_pvrdma 内核模块。
      注: 在 Ubuntu 中,每次引导 vSphere Bitfusion 客户端的虚拟机后,都必须执行此步骤。
      sudo /sbin/modprobe -r vmw_pvrdma
      sudo /sbin/modprobe vmw_pvrdma
  2. 如果使用的是 Ubuntu,请运行 sudo update-initramfs -k all -u 命令。
  3. (可选) 要验证网络接口的 RDMA 端口是否正常运行,请运行 ibv_devinfo 命令。