クラウド管理者が VMware Aria AutomationPrivate AI Automation Services を設定している場合は、Automation Service Broker カタログを使用して AI ワークロードを申請できます。

Private AI Automation Services では、それぞれの権限を持つユーザーがアクセスして申請できる Automation Service Broker の 2 つのカタログ アイテムがサポートされます。

  • AI Workstation - NVIDIA から目的の vCPU、vGPU、メモリ、AI/ML ソフトウェアを使用して構成できる GPU 対応の仮想マシン。
  • AI Kubernetes クラスタ - NVIDIA GPU オペレータを使用して構成できる GPU 対応の Tanzu Kubernetes クラスタ。
重要: Private AI Automation ServicesVMware Aria Automation 8.16.2 で使用できます。

開始する前に

  • プロジェクトに Private AI Automation Services が構成されており、AI カタログ アイテムを申請する権限があることを確認します。

ここでのすべての値は、使用事例で使用されるサンプルです。アカウントの値は環境によって異なります。

VI ワークロード ドメインへのディープ ラーニング仮想マシンの展開

データ サイエンティストは、セルフサービス Automation Service Broker カタログから単一の GPU Software-Defined 開発環境を展開できます。マシン パラメータを使用して GPU 対応の仮想マシンをカスタマイズし、開発要件のモデル化、トレーニングと推論の要件を満たす AI/ML ソフトウェア構成の指定、ポータル アクセス キーを介した NVIDIA NGC レジストリからの AI/ML パッケージの指定を行うことができます。

手順

  1. Automation Service Broker[使用] タブをクリックします。
  2. [カタログ] をクリックします。
    使用可能なカタログ アイテムは、選択したプロジェクトに基づいて異なります。プロジェクトを選択しなかった場合は、使用可能なすべてのカタログ アイテムがカタログに表示されます。
  3. [AI Workstation] カードを見つけて、[申請] をクリックします。
  4. プロジェクトを選択します。
  5. 展開の名前と説明を入力します。
  6. AI ワークステーションのパラメータを構成します。
    設定 サンプル値
    仮想マシン クラス A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ
    データ ディスク サイズ 8 GB
    ユーザー パスワード 延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
    SSH パブリック キー このフィールド値の指定は任意です。
  7. ワークステーションにインストールするソフトウェア バンドルを選択します。
    設定 説明
    PyTorch PyTorch NGC Container は GPU アクセラレーション用に最適化されており、GPU パフォーマンスを有効および最適化する検証済みのライブラリ セットが含まれています。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
    TensorFlow TensorFlow NGC Container は GPU アクセラレーション用に最適化されており、GPU のパフォーマンスを有効および最適化する検証済みの一連のライブラリが含まれています。このコンテナには、パフォーマンスと互換性を最大化するために TensorFlow ソース コードに変更を加える場合もあります。このコンテナには、ETL (DALI、RAPIDS)、トレーニング (cuDNN、NCCL)、および推論 (TensorRT) ワークロードを高速化するためのソフトウェアも含まれています。
    CUDA Samples これは、GPU で CUDA ワークロードを実行するコンテナのコレクションです。コレクションには、コンテナ化された CUDA サンプル(例:vectorAdd(ベクトルの追加を示す)、nbody(または重力 n-body シミュレーション)、その他の例が含まれます。これらのコンテナは、システム内の GPU のソフトウェア構成を検証したり、単にいくつかのサンプル ワークロードを実行したりするために使用できます。
    DCGM Exporter NVIDIA Data Center GPU Manager (DCGM) は、クラスタ環境で NVIDIA データセンター GPU を管理および監視するための一連のツールです。通常、監視スタックはコレクタ、メトリックを格納する時系列データベース、および可視化レイヤーで構成されます。DCGM-Exporter は、Prometheus のエクスポータで、健全性を監視し、GPU からメトリックを取得します。
    Triton 推論サーバ Triton 推論サーバは、CPU と GPU の両方に最適化されたクラウドおよび Edge 推論ソリューションを提供します。Triton は HTTP/REST および GRPC プロトコルをサポートしています。これにより、リモート クライアントは、サーバによって管理されているモデルの推論を要求できます。Edge のデプロイでは、Triton の完全な機能をアプリケーションに直接含めることができる C API を使用して、Triton を共有ライブラリとして使用できます。
    生成 AI ワークフロー - RAG このリファレンス ソリューションは、既存の基本的な LLM をビジネスユースケースに合わせて拡張することで、生成 AI でビジネス価値を見つける方法を示します。これは、企業のビジネス データを含むエンタープライズナレッジベースから事実を取得する、取得拡張生成 (RAG) を使用して行われます。強力な RAG ベースの AI チャットボットのリファレンス ソリューションについては、NVIDIA の Generative AI Examples Github for Developers で入手可能なコードを含む、この簡単な説明に記載されています。ドメイン固有のビジネス データを使用して LLM を拡張し、俊敏で新しい開発に応答性の高い AI アプリケーションを作成する方法に特に注意してください。
  8. ソフトウェア バンドルに定義されている cloud-init に加えて、インストールするカスタム cloud-init を入力します。
    VMware Aria Automation では、ソフトウェア バンドルの cloud-init とカスタム cloud-init をマージします。
  9. NVIDIANGC ポータルのアクセス キーを指定します。
  10. [送信] をクリックします。

AI 対応の Tanzu Kubernetes クラスタの展開

DevOps エンジニアは、ワーカー ノードが AI/ML ワークロードを実行できる GPU 対応の Tanzu Kubernetes クラスタを申請できます。

TKG クラスタには NVIDIA GPU オペレータが含まれています。これは、TKG クラスタ ノードで NVIDIA GPU ハードウェアに適した NVIDIA ドライバを設定する Kubernetes Operator です。展開されたクラスタはすぐに AI/ML ワークロードに使用できます。追加の GPU 関連の設定は必要ありません。

手順

  1. [AI Kubernetes クラスタ] カードを見つけて、[申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. コントロール ペイン ノードの数を選択します。
    設定 サンプル値
    ノード数 1
    仮想マシン クラス cpu-only-medium - 8 CPU、16 GB のメモリ

    選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。

  5. ワーカー ノードの数を選択します。
    設定 説明
    ノード数 3
    仮想マシン クラス a100-medium - 4 vGPU (64 GB)、16 CPU、32 GB のメモリ
  6. [送信] をクリックします。

結果

展開には、スーパーバイザー名前空間、3 台のワーカー ノードを持つ TKG クラスタ、TKG クラスタ内の複数のリソース、GPU オペレータ アプリケーションを展開する carvel アプリケーションが含まれています。

Private AI 展開の監視

[展開] 画面を使用して、展開および関連付けられたリソースの管理、展開の変更、失敗した展開のトラブルシューティング、リソースの変更、および使用されていない展開の削除を実行します。

展開を管理するには、[使用] > [展開] > [展開] の順に選択します。

詳細については、Automation Service Broker 展開の管理方法を参照してください。