サポートされているディープ ラーニング (DL) ワークロードとその組み込みコンポーネントを使用して、ディープ ラーニング仮想マシンをプロビジョニングできます。DL ワークロードは NVIDIA NGC カタログからダウンロードされ、NVIDIA および VMware by Broadcom によって GPU 用に最適化され、検証されています。
ディープ ラーニング仮想マシン イメージの概要については、「VMware Private AI Foundation with NVIDIA のディープ ラーニング仮想マシン イメージについて」を参照してください。
CUDA サンプル
CUDA サンプルを実行しているディープ ラーニング仮想マシンを使用して、ベクトル加法、重力 N 体シミュレーショ、またはその他のサンプルを仮想マシンで調べることができます。「CUDA サンプル」ページを参照してください。
ディープ ラーニング仮想マシンが起動すると、CUDA サンプル ワークロードが実行され、vGPU ゲスト ドライバがテストされます。テスト出力は /var/log/dl.log ファイルで確認できます。
コンポーネント | 説明 |
---|---|
コンテナ イメージ | nvcr.io/nvidia/k8s/cuda-sample:ngc_image_tag例: nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda11.7.1-ubi8 ディープ ラーニング仮想マシンでサポートされている CUDA サンプル コンテナ イメージの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | CUDA サンプル ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
|
PyTorch
PyTorch ライブラリを備えたディープ ラーニング仮想マシンを使用して、仮想マシン上で対話型 AI、NLP、およびその他のタイプの AI モデルを探索できます。「PyTorch」ページを参照してください。
ディープ ラーニング仮想マシンが起動すると、PyTorch パッケージがインストールおよび構成された JupyterLab インスタンスが起動します。
コンポーネント | 説明 |
---|---|
コンテナ イメージ | nvcr.io/nvidia/pytorch:ngc_image_tag例: nvcr.io/nvidia/pytorch:23.10-py3 ディープ ラーニング仮想マシンでサポートされている PyTorch コンテナ イメージの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | PyTorch ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
|
TensorFlow
TensorFlow ライブラリを備えたディープ ラーニング仮想マシンを使用して、仮想マシン上で対話型 AI、NLP、およびその他のタイプの AI モデルを探索できます。「TensorFlow」ページを参照してください。
ディープ ラーニング仮想マシンが起動すると、TensorFlow パッケージがインストールおよび構成された JupyterLab インスタンスが起動します。
コンポーネント | 説明 |
---|---|
コンテナ イメージ | nvcr.io/nvidia/tensorflow:ngc_image_tag 例: nvcr.io/nvidia/tensorflow:23.10-tf2-py3 ディープ ラーニング仮想マシンでサポートされている TensorFlow コンテナ イメージの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | TensorFlow ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
|
DCGM Exporter
ディープ ラーニング仮想マシンを Data Center GPU Manager (DCGM) Exporter とともに使用すると、NVIDIA DCGM、Prometheus、Grafana を使用して、DL ワークロードで使用される GPU の健全性を監視し、メトリックを取得できます。
「DCGM Exporter」ページを参照してください。
ディープ ラーニング仮想マシンでは、AI 操作を実行する DL ワークロードとともに DCGM Exporter コンテナを実行します。ディープ ラーニング仮想マシンが起動すると、DCGM Exporter は、vGPU メトリックを収集し、データを別のアプリケーションにエクスポートして、さらに監視および視覚化できるようになります。監視対象の DL ワークロードは、cloud-init プロセスの一部として、または仮想マシンの起動後にコマンド ラインから実行できます。
コンポーネント | 説明 |
---|---|
コンテナ イメージ | nvcr.io/nvidia/k8s/dcgm-exporter:ngc_image_tag 例: nvcr.io/nvidia/k8s/dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 ディープ ラーニング仮想マシンでサポートされている DCGM Exporter コンテナ イメージの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | DCGM Exporter ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
次に、ディープ ラーニング仮想マシンで DL ワークロードを実行し、Prometheus (http://visualization_vm_ip:9090) と Grafana (http://visualization_vm_ip:3000) を使用して別の仮想マシンでデータを視覚化します。 |
ディープ ラーニング仮想マシンで DL ワークロードを実行する
vGPU メトリックを収集する DL ワークロードを実行し、データを別のアプリケーションにエクスポートして、さらに監視および視覚化します。
- SSH 経由で vmware としてディープ ラーニング仮想マシンにログインします。
- 次のコマンドを実行して、vmware ユーザー アカウントを docker グループに追加します。
sudo usermod -aG docker ${USER}
- DL ワークロードのコンテナを実行し、NVIDIA NGC カタログまたはローカル コンテナ レジストリからプルします。
たとえば、NVIDIA NGC から tensorflow:23.10-tf2-py3 イメージを実行するには、次のコマンドを実行します。
docker run -d -p 8888:8888 nvcr.io/nvidia/tensorflow:23.10-tf2-py3 /usr/local/bin/jupyter lab --allow-root --ip=* --port=8888 --no-browser --NotebookApp.token='' --NotebookApp.allow_origin='*' --notebook-dir=/workspace
- AI 開発のために DL ワークロードの使用を開始します。
Prometheus および Grafana のインストール
Prometheus と Grafana を実行する仮想マシンで、DCGM Exporter 仮想マシンからの vGPU メトリックを視覚化および監視できます。
- Docker Community Engine がインストールされた可視化仮想マシンを作成します。
- SSH 経由で仮想マシンに接続し、Prometheus 用の YAML ファイルを作成します。
$ cat > prometheus.yml << EOF global: scrape_interval: 15s external_labels: monitor: 'codelab-monitor' scrape_configs: - job_name: 'dcgm' scrape_interval: 5s metrics_path: /metrics static_configs: - targets: [dl_vm_with_dcgm_exporter_ip:9400'] EOF
- データ パスを作成します。
$ mkdir grafana_data prometheus_data && chmod 777 grafana_data prometheus_data
- Prometheus と Grafana をインストールするための Docker Compose ファイルを作成します。
$ cat > compose.yaml << EOF services: prometheus: image: prom/prometheus:v2.47.2 container_name: "prometheus0" restart: always ports: - "9090:9090" volumes: - "./prometheus.yml:/etc/prometheus/prometheus.yml" - "./prometheus_data:/prometheus" grafana: image: grafana/grafana:10.2.0-ubuntu container_name: "grafana0" ports: - "3000:3000" restart: always volumes: - "./grafana_data:/var/lib/grafana" EOF
- Prometheus および Grafana コンテナを起動します。
$ sudo docker compose up -d
Prometheus での vGPU メトリックの表示
Prometheus には、http://visualization-vm-ip:9090 でアクセスできます。Prometheus ユーザー インターフェイスで次の vGPU 情報を表示できます。
情報 | ユーザー インターフェイス セクション |
---|---|
ディープ ラーニング仮想マシンからの Raw vGPU メトリック | ディープ ラーニング仮想マシンからの Raw vGPU メトリックを表示するには、エンドポイント エントリをクリックします。 |
グラフ式 |
|
Prometheus の使用方法の詳細については、Prometheus のドキュメントを参照してください。
Grafana でのメトリックの視覚化
Prometheus を Grafana のデータ ソースとして設定し、ダッシュボードでディープ ラーニング仮想マシンからの vGPU メトリックを視覚化します。
- デフォルトのユーザー名 admin およびパスワード
admin
を使用して、http://visualization-vm-ip:3000 の Grafana にアクセスします。 - 最初のデータ ソースとして Prometheus を追加し、ポート 9090 で visualization-vm-ip に接続します。
- vGPU メトリックを使用してダッシュボードを作成します。
Prometheus データ ソースを使用してダッシュボードを構成する方法の詳細については、Grafana のドキュメントを参照してください。
Triton Inference Server
Triton Inference Server を備えたディープ ラーニング仮想マシンを使用して、モデル リポジトリをロードし、推論リクエストを受信できます。
「Triton Inference Server」ページを参照してください。
コンポーネント | 説明 |
---|---|
コンテナ イメージ | nvcr.io/nvidia/tritonserver:ngc_image_tag 例: nvcr.io/nvidia/tritonserver:23.10-py3 ディープ ラーニング仮想マシンでサポートされている Triton Inference Server コンテナ イメージの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | Triton Inference Server ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
Triton Inference Server のモデル リポジトリは /home/vmware/model_repository にあります。最初はモデル リポジトリは空で、Triton Inference Server インスタンスの最初のログにはモデルがロードされていないことが示されます。 |
モデル リポジトリの作成
モデル推論のためにモデルをロードするには、次の手順を実行します。
- モデルのモデル リポジトリを作成します。
- Triton Inference Server がロードできるように、モデル リポジトリを
/home/vmware/model_repository
にコピーします。sudo cp -r path_to_your_created_model_repository/* /home/vmware/model_repository/
モデル推論リクエストの送信
- ディープ ラーニング仮想マシン コンソールで次のコマンドを実行して、Triton Inference Server が正常でモデルの準備ができていることを確認します。
curl -v localhost:8000/v2/simple_sequence
- ディープ ラーニング仮想マシンで次のコマンドを実行して、モデルにリクエストを送信します。
curl -v localhost:8000/v2/models/simple_sequence
Triton Inference Server の使用の詳細については、NVIDIA Triton Inference Server モデル リポジトリのドキュメントを参照してください。
NVIDIA RAG
ディープ ラーニング仮想マシンを使用して、Llama2 モデルの Retrieval Augmented Generation (RAG) ソリューションを構築できます。
『Retrieval Augmented Generation による AI チャットボット』ドキュメントを参照してください。
コンポーネント | 説明 |
---|---|
コンテナ イメージとモデル | rag-app-text-chatbot.yamlNVIDIA サンプル RAG パイプライン内。 ディープ ラーニング仮想マシンでサポートされている NVIDIA RAG コンテナ アプリケーションの詳細については、「VMware ディープ ラーニング仮想マシン リリース ノート」を参照してください。 |
必要な入力 | NVIDIA RAG ワークロードを展開するには、ディープ ラーニング仮想マシンの OVF プロパティを次の方法で設定する必要があります。
ディープ ラーニング仮想マシンの OVF プロパティを参照してください。 |
出力 |
|