업데이트 날짜: 2021년 4월 6일 VMware vSphere Bitfusion 3.0.1 | 2021년 4월 6일 | 빌드 4 몇 가지 문제가 수정되었습니다 . 해결된 문제: vSphere Bitfusion 3.0.1을 참조하십시오. VMware vSphere Bitfusion 3.0 | 2021년 3월 11일 | 빌드 11 |
릴리스 정보에 포함된 내용
릴리스 정보에는 다음과 같은 항목이 포함됩니다.vSphere Bitfusion 정보
VMware vSphere Bitfusion은 GPU(그래픽 처리 장치)와 같은 가속기를 공유하여, 리소스 사용이 많은 AI(인공 지능) 및 ML(기계 학습) 워크로드를 지원할 수 있는 공유된 네트워크 액세스 가능 리소스 풀을 제공합니다. vSphere Bitfusion은 AI 프레임워크, 클라우드 사이트, 네트워크 및 가상 시스템, 컨테이너, 노트북 등의 환경에서 작동합니다.
vSphere Bitfusion 3.0의 새로운 기능
- 후속 vSphere Bitfusion 서버에 대한 새로운 설치 환경
- 여러 네트워크가 있는 vSphere Bitfusion 서버에 대한 지원 향상
- vSphere Bitfusion 클라이언트에서
nvidia-smi
애플리케이션의 투명한 설치 - NVIDIA 드라이버 460
- NVIDIA CUDA 11.1
- TensorFlow 2.4 지원
- PyTorch 1.6 지원
- TensorRT 7.1.3 지원
- PaddlePaddle 2.0 지원
시스템 요구 사항
vSphere Bitfusion 클라이언트 및 서버에 대한 시스템 요구 사항 목록은 vSphere Bitfusion 설치 가이드를 참조하십시오.
호환성 및 상호 운용성
vSphere Bitfusion과 호환되는 버전, 모델 및 제품 목록은 VMware vSphere Bitfusion 호환성 및 상호 운용성 페이지를 참조하십시오.
오픈 소스 구성 요소
vSphere Bitfusion 3.0에 배포되는 오픈 소스 소프트웨어 구성 요소에 적용되는 저작권 정보 및 라이센스는 http://www.vmware.com에서 확인할 수 있습니다. 이 페이지에서는 최신 vSphere Bitfusion 릴리스에 소스 코드 또는 소스 코드 수정 사항을 사용하는 데 필요한 모든 GPL, LGPL 또는 기타 유사한 라이센스의 소스 파일을 다운로드할 수 있습니다.
해결된 문제
해결된 문제는 다음과 같이 분류됩니다.
vSphere Bitfusion 3.0.1- vSphere Bitfusion 플러그인을 사용하여 후속 서버를 설치할 경우 기본 네트워크는 표준 네트워크일 수만 있음
이 문제는 이 릴리스에서 해결되었습니다. 기본 네트워크는 VMXNET3 또는 PVRDMA 어댑터가 있는 분산 포트 그룹일 수 있습니다.
- CUDA 11.1 샘플 테스트로 인해 cuModuleGetGlobal_v2 모듈에서 오류가 발생할 수 있음
이 문제는 이 릴리스에서 해결되었습니다.
- vSphere Bitfusion 서버가 ping에 응답하지 않음
이 문제는 이 릴리스에서 해결되었습니다.
- 지원 번들에 추가 정보가 포함되어 있음
이 릴리스에서는 지원 번들에 추가 로그가 포함되어 있습니다.
- vSphere Bitfusion 서버가 ESXi 호스트에 배포된 경우 호스트 프로파일을 추출할 수 없음
이 문제는 이 릴리스에서 해결되었습니다.
- vSphere Bitfusion NTP 서버 구성을 검증할 수 없음
이 릴리스에는 NTP 서버가 올바르게 구성되었는지 검증하는 상태 점검이 포함되어 있습니다.
- NTP 구성 문제로 인해 vSphere Bitfusion 서버의 클럭이 동기화되지 않을 수 있음
vSphere Bitfusion 서버 장치의 기본 NTP 구성에는 이 문제를 해결하는 기능 개선이 포함되어 있습니다.
- 네트워크 인터페이스가 서로 다른 네트워크에 연결된 경우 vSphere Bitfusion는 데이터 및 관리 트래픽에 대해 별도의 네트워크 인터페이스를 사용할 수 없음
이 문제는 이 릴리스에서 해결되었습니다. 필요한 네트워크 인터페이스를 사용하기 위해 설정할 수 있는 두 개의 새 게스트 변수가 있습니다.
guestinfo.bitfusion.server.web-iface
및guestinfo.bitfusion.server.mgmt-iface
변수를 사용하여 네트워크 인터페이스에 데이터 트래픽과 관리 트래픽을 할당할 수 있습니다. - 고객 암호에 특수 문자를 입력하면 vSphere Bitfusion 서버 배포가 실패함
이 문제는 이 릴리스에서 해결되었습니다.
알려진 문제
알려진 문제는 다음과 같이 그룹화되어 있습니다.
GPU 문제- 가상 GPU가 지원되지 않음
이 릴리스는 NVIDIA 가상 GPU 소프트웨어 및 NVIDIA GRID 가상 GPU 기술을 지원하지 않습니다.
- 후속 vSphere Bitfusion 서버를 배포할 때 GPU 메모리를 지정할 수 없음
vSphere Bitfusion 플러그인을 사용하여 후속 서버를 설치할 때 GPU 선택 페이지에서 총 GPU 메모리를 지정해도 vSphere Bitfusion 서버에 배포된 가상 시스템에는 영향을 주지 않습니다.
- vSphere Bitfusion 서버 가상 시스템에 여러 GPU를 추가한 후 가상 시스템을 시작할 수 없음
vSphere Bitfusion 서버 가상 시스템에 여러 GPU를 추가할 경우 vCenter Server는 첫 번째 GPU를 여러 번 추가합니다. 그 결과 가상 시스템을 시작할 수 없습니다.
해결 방법: 추가 GPU에 대한 PCI 버스의 ID를 고유한 값으로 업데이트합니다.
- vSphere Client에서 인벤토리의 vSphere Bitfusion 가상 시스템을 마우스 오른쪽 버튼으로 클릭하고 설정 편집을 선택합니다.
- 각 PCI 디바이스 드롭다운 메뉴에서 GPU에 대한 고유 ID를 선택합니다.
- vSphere Bitfusion 서버에 사용되는 GPU의 총 메모리가 128GB를 초과하는 경우 GPU 패스스루를 사용할 수 없음
기본적으로 GPU 패스스루의 고급 가상 시스템 속성
pciPassthru.64bitMMIOSizeGB
는 256으로 설정됩니다. 단일 vSphere Bitfusion 서버에서 총 메모리가 128GB를 초과하는 GPU를 사용하는 경우, 이 구성으로 인해 패스스루 오류가 발생할 수 있습니다.해결 방법:
pciPassthru.64bitMMIOSizeGB
의 올바른 값을 계산합니다. vSphere Bitfusion 서버 가상 시스템에서 사용하는 PCI 디바이스(예: GPU 및 네트워크 카드)의 수를 세고, 이 숫자에 GPU 크기(GB)를 곱한 다음, 이 값을 다음으로 큰 2의 거듭제곱으로 반올림합니다. 예를 들어 16GB GPU 디바이스 2개에서 GPU 패스스루를 사용하려면, 값을 64(2 * 16 = 32, 32 * 2 = 64)로 반올림합니다. 16GB GPU가 1개인 경우 32를 값으로 사용합니다.- 가상 시스템 속성을 수정합니다.
- 가상 시스템으로 이동하여 선택한 후 전원을 끕니다.
- 가상 시스템을 선택한 상태로 작업 > 설정 편집 > VM 옵션 > 고급 > 구성 편집을 선택합니다.
pciPassthru.64bitMMIOSizeGB
를 검색하여 새 값을 설정합니다.- 가상 시스템의 전원을 켭니다.
- 단일 GPU가 vCenter Server에 여러 번 나타날 수 있음
NVIDIA T4 GPU는 vCenter Server에 여러 번 나타날 수 있습니다.
해결 방법: ESXi 호스트의 BIOS 설정에서 SR-IOV 지원을 사용하도록 설정합니다.
- vSphere Bitfusion 클러스터에서 삭제된 vSphere Bitfusion 클라이언트가 여전히 GPU를 요청할 수 있음
vSphere Bitfusion 플러그인을 사용하여 vSphere Bitfusion 클라이언트 버전 2.0.2 및 이전 버전을 삭제한 후, 클라이언트가 vSphere Bitfusion 서버에서 GPU를 계속 요청할 수 있습니다.
해결 방법: 다음 작업 중 하나를 수행합니다.
- vSphere Bitfusion 플러그인을 사용하여 클라이언트를 사용하도록 설정한 경우 vSphere Bitfusion 클라이언트의 가상 시스템 터미널에서 다음 명령을 실행합니다.
vmtoolsd --cmd 'info-set guestinfo.bitfusion.client.accesstoken'
rm ~/.bitfusion/client.yaml
- 인증 토큰을 생성하여 클라이언트를 사용하도록 설정한 경우 vSphere Bitfusion 플러그인을 사용하여 클라이언트의 토큰을 해지합니다.
- vSphere Bitfusion 플러그인을 사용하여 클라이언트를 사용하도록 설정한 경우 vSphere Bitfusion 클라이언트의 가상 시스템 터미널에서 다음 명령을 실행합니다.
- 실행 중인 vSphere Bitfusion 서버에 이미 할당된 GPU를 사용하는 경우 vSphere Bitfusion 서버 가상 시스템을 시작할 수 없음
Bitfusion 서버 가상 시스템에 GPU를 할당하는 경우, 실행 중인 vSphere Bitfusion 서버에 동일한 GPU가 이미 할당되어 있으면 새 서버 가상 시스템을 시작하지 못합니다. vSphere Bitfusion 서버 하나에 GPU 하나를 패스스루할 수 있습니다.
- vSphere Bitfusion 서버에서 시간을 변경하면 클러스터 장애가 발생할 수 있음
클러스터를 생성한 후 서버 시간이 변경되거나 시간이 동기화되지 않으면 클러스터 장애가 발생할 수 있습니다.
해결 방법: 클러스터의 모든 vSphere Bitfusion 서버는 동일한 시간으로 동기화되어야 합니다. 클러스터의 모든 서버 시간을 동기화하고 클러스터를 다시 시작하십시오.
- 시간이 다른 서버로 인해 클러스터 장애가 발생할 수 있음
DHCP를 사용하여 vSphere Bitfusion 서버의 IP 주소를 설정하고 DHCP 서버가 NTP 서버 정보를 제공하지 않거나 vSphere Bitfusion 서버의 IP 주소를 수동으로 입력하는 경우, 서버 간의 시간 차이로 인해 클러스터 장애가 발생할 수 있습니다. 모든 서버는 동일한 시간으로 동기화되어야 합니다.
해결 방법: 서버 구성에 NTP 서버의 IP 주소를 추가합니다.
- 가상 시스템을 복제하여 배포된 vSphere Bitfusion 서버를 클러스터에 가입시키지 못함
vSphere Bitfusion 서버의 가상 시스템을 복제하고 복제된 다른 서버 가상 시스템을 삭제한 후에는 새로 복제된 가상 시스템을 클러스터에 가입시키지 못할 수 있습니다.
- vSphere Bitfusion 서버가 오프라인 상태인 경우 새 vSphere Bitfusion 서버를 클러스터에 추가할 수 없음
클러스터에서 vSphere Bitfusion 서버 가상 시스템 하나가 오프라인 상태이면 다른 서버를 클러스터에 추가할 수 없습니다.
해결 방법: 다음 작업 중 하나를 수행합니다.
- vSphere Bitfusion 플러그인을 사용하여 클러스터에서 서버를 제거합니다.
- vSphere Client를 사용하여 게스트 운영 체제 환경 변수
guestinfo.bitfusion.server.cassandra-removenode
를 서버 가상 시스템에 설정합니다. - 실행 중인 vSphere Bitfusion 서버의 터미널에서
bitfusion removenode
명령을 실행합니다.
- vSphere Bitfusion 서버 가상 시스템 복제 또는 후속 vSphere Bitfusion 서버 설치 후 필수 필드가 없거나 불완전하여 새 가상 시스템을 시작할 수 없음
vCenter Server에서 서버 가상 시스템의 복제 작업을 수행하는 동안 필수 필드가 마법사에서 필수 필드로 표시되지 않습니다. vCenter Server에서 후속 vSphere Bitfusion 서버를 설치하는 동안 필드가 잘못 지정될 수 있습니다. 그 결과 가상 시스템을 시작하지 못할 수 있습니다.
해결 방법: 다음 작업 중 하나를 수행합니다.
- 복제 또는 설치 작업 중에 모든 필드가 올바르게 지정되었는지 확인합니다.
- 복제 또는 설치 작업이 완료되면 vCenter vApp 옵션 편집기를 사용하여 필드의 값을 변경합니다. 모든 속성 목록은 vSphere Bitfusion vApp 속성을 참조하십시오.
- vSphere Bitfusion 서버의 가상 시스템으로 이동합니다.
- 구성 탭에서 설정을 확장하고 vApp 옵션을 선택합니다.
- 목록에서 속성을 선택하고 값 설정 버튼을 클릭합니다.
- 소스 가상 시스템을 삭제한 후 복제된 가상 시스템을 시작할 수 없음
vSphere Bitfusion 가상 시스템의 복제 작업 후 복제된 가상 시스템의 전원을 켜기 전에 소스 가상 시스템이 삭제되면 복제된 가상 시스템을 시작할 수 없습니다.
해결 방법: 복제된 가상 시스템의 전원을 켭니다. 그런 다음 소스 가상 시스템을 삭제합니다.
- vSphere Bitfusion 플러그인이 vSphere Bitfusion 클라이언트의 복제된 가상 시스템에서 발생한 작업을 소스 가상 시스템에서 발생한 것으로 식별함
vSphere Bitfusion 클라이언트 가상 시스템의 복제 작업 후에 vSphere Bitfusion 플러그인은 소스 가상 시스템과 복제된 가상 시스템 모두에서 발생한 작업을 소스 가상 시스템에서만 발생한 것처럼 식별합니다.
해결 방법: 복제된 vSphere Bitfusion 클라이언트 가상 시스템의
/etc/hostname
에서 호스트 이름 항목을 변경합니다.
- 후속 vSphere Bitfusion 서버의 설치 절차가 실패할 수 있음
후속 vSphere Bitfusion 서버를 배포할 때 기본 vSphere Bitfusion 서버는 HTTPS API를 사용하여 후속 ESXi 호스트에 연결합니다. vSphere Bitfusion 서버의 관리 네트워크 인터페이스 및 ESXi 호스트의
vmx0
인터페이스에서 9000바이트의 MTU 크기를 사용 중이지만 네트워크가 두 인터페이스 간에 이 MTU 크기를 지원하지 않는 경우 HTTPS 연결이 중단되고 설치 절차가 실패할 수 있습니다.해결 방법:
- 두 인터페이스 간에 지원되는 최대 MTU 크기를 결정합니다.
- vSphere Bitfusion 서버의 터미널에 연결하려면
ssh customer@$server_ip
를 실행합니다. - 다음 셸 스크립트를 실행합니다.
target_host=(ESXi 호스트 IP 또는 DNS 이름)
size=1272while
ping
-s $size -M
do
-c1 $target_host >&
/dev/null
;
do
((size+=4));
doneecho
"Max MTU size: $((size-4+28))
- vSphere Bitfusion 서버의 터미널에 연결하려면
ESXi 호스트의vmx0
인터페이스에 대한 MTU 크기 값을 두 인터페이스 간에 지원되는 최대 MTU 크기로 변경합니다.
- 두 인터페이스 간에 지원되는 최대 MTU 크기를 결정합니다.
- 복제된 vSphere Bitfusion 서버의 네트워크 어댑터를 구성할 수 없음
vCenter Server에서 vSphere Bitfusion 서버 가상 시스템을 복제하는 동안에는 추가 네트워크 어댑터에 대한 구성을 변경할 수 없습니다.
해결 방법: 다음 작업 중 하나를 수행합니다.
- 원래 가상 시스템을 생성하는 경우 복제된 가상 시스템에 필요한 네트워크 인터페이스를 사용하도록 설정합니다.
- vCenter vApp 옵션 편집기를 사용하여 네트워크 설정의 값을 변경합니다. 모든 속성 목록은 vSphere Bitfusion vApp 속성을 참조하십시오.
- vSphere Bitfusion 서버의 가상 시스템으로 이동합니다.
- 구성 탭에서 설정을 확장하고 vApp 옵션을 선택합니다.
- 목록에서 속성을 선택하고 값 설정 버튼을 클릭합니다.
- 둘 이상의 네트워크 인터페이스를 네트워크에 연결할 수 없음
특정 네트워크에는 네트워크 인터페이스를 하나만 연결할 수 있습니다.
해결 방법: Bitfusion 서버를 여러 네트워크에 연결하려면 여러 네트워크 인터페이스를 사용합니다.
- 인터넷 프로토콜 버전 6이 지원되지 않음
이 릴리스에서는 IPv6가 지원되지 않습니다.
- vSphere Bitfusion 클러스터의 복원 작업이 실패함
백업에서 vSphere Bitfusion 클러스터를 복원한 후 데이터 손실이 발생할 수 있으며 vSphere Bitfusion 플러그인의 글로벌 설정을 변경하지 못할 수 있습니다.
해결 방법: 모든 vSphere Bitfusion 서버를 순차적으로 다시 시작하고 각 서버를 다시 시작한 후 60초 동안 기다립니다.
- 빠른 업로드 네트워크 없이 로컬 시스템에서 OVA 파일을 선택하면 실패할 수 있음
vSphere Bitfusion 플러그인을 사용하여 후속 서버를 설치할 때 빠른 업로드 네트워크 없이 로컬 시스템에서 OVA 파일을 선택하면 실패할 수 있습니다. 일반적으로 대부분의 브라우저에는 5분의 시간 초과 제한이 있으며 vSphere Bitfusion OVA 파일 크기는 약 740MB입니다.
해결 방법: URL에서 OVA 파일을 선택합니다.
- 지정된 기간에 대한 vSphere Bitfusion 모니터링 데이터를 다운로드할 수 없음
vSphere Bitfusion 플러그인의 탭에서 CSV 다운로드 버튼을 클릭하면 지정된 기간이 무시되고 다운로드된 파일에는 2일 간의 데이터가 포함됩니다.
- 첫 번째 GPU 요청을 수행한 후 vSphere Bitfusion 클라이언트의 ID가 변경됨
2.0.2 이하 버전의 클라이언트 가상 시스템을 사용하도록 설정한 경우 클라이언트 ID가 vSphere Bitfusion 플러그인에 표시됩니다. 클라이언트가 처음으로 GPU를 요청하면 이 ID가 변경됩니다.