TKG クラスタへ RAG ワークロードを展開する

DevOps エンジニアである場合は、スーパーバイザーの TKG クラスタで、VMware Data Services Manager によって管理される pgvector PostgreSQL データベースを使用する NVIDIA の RAG サンプルマルチターンアプリケーションに基づいて RAG ワークロードを展開できます。

前提条件

VMware Private AI Foundation with NVIDIA が VI ワークロードドメインで使用可能であることを確認します。プライベート AI ワークロード展開のための VMware Cloud Foundation の準備を参照してください。
VMware Private AI Foundation with NVIDIA でベクターデータベースを展開する。
注：組織のガイドラインに応じて、 VMware Aria Automation のセルフサービスカタログ内の単一のプロビジョニング要求で、新しいベクターデータベースを備えた RAG TKG クラスタを展開できます。

手順

GPU アクセラレーション TKG クラスタをプロビジョニングします。

次のワークフローのいずれかを使用できます。


プロビジョニングワークフロー	手順
VMware Aria Automation でカタログアイテムを使用する	VMware Aria Automation でセルフサービスカタログアイテムを使用してベクターデータベースを備えた RAG クラスタを展開する。
kubectl コマンドを使用する	kubectl コマンドを使用して、GPU アクセラレーション TKG クラスタをプロビジョニングします。接続された環境については、「接続された VMware Private AI Foundation with NVIDIA 環境で kubectl コマンドを使用して GPU アクセラレーション TKG クラスタをプロビジョニングする」を参照してください。切断された環境については、「切断された VMware Private AI Foundation with NVIDIA 環境で kubectl コマンドを使用して GPU アクセラレーション TKG クラスタをプロビジョニングする」を参照してください。

kubectl コマンドを使用している場合は、NVIDIA NIM を展開します。
1. NVIDIA NIM を使用して Helm チャートを取得します。
  「マルチターン RAG」を参照してください。
2. NVIDIA NIM LLM、NVIDIA NeMo Retriever Embedding、および NVIDIA NeMo Retriever Ranking Microservice を展開します。
  「マルチターン RAG」を参照してください。

サンプルのマルチターンチャットボットの Helm チャートを取得します。

helm fetch https://helm.ngc.nvidia.com/nvidia/aiworkflows/charts/rag-app-multiturn-chatbot-24.08.tgz --username='$oauthtoken' --password=<YOUR API KEY>

pgvector PostgreSQL データベースにチャットボットを構成するためのカスタム値を使用して YAML を作成します。
接続文字列が postgres://pgvector_db_admin:encoded_pgvector_db_admin_password@pgvector_db_ip_address:5432/pgvector_db_name の pgvector データベースの場合は、次の app_values.yaml ファイルを準備します。
サンプルチャットアプリケーションの外部 IP アドレスを提供するには、YAML ファイルで frontend.service.type を loadBalancer に設定します。
```
query:
  env:
    APP_VECTORSTORE_URL: "pgvector_db_ip_address:5432"
    APP_VECTORSTORE_NAME: "pgvector"
    POSTGRES_PASSWORD: "encoded_pgvector_db_admin_password"
    POSTGRES_USER: "pgvector_db_admin"
    POSTGRES_DB: "pgvector_db_name"
    APP_EMBEDDINGS_MODELNAME: "nvidia/nv-embedqa-e5-v5"
frontend:
  service:
    type: LoadBalancer
```

カスタム値ファイルを使用して、名前空間にマルチターンチャットボットを展開します。

kubectl create namespace multiturn-rag
kubectl label --overwrite ns multiturn-rag pod-security.kubernetes.io/enforce=privileged
 
export NGC_CLI_API_KEY="<NGC-API-key>"
 
helm install multiturn-rag rag-app-multiturn-chatbot-24.08.tgz -n multiturn-rag --set imagePullSecret.password=$NGC_CLI_API_KEY -f ./app_values.yaml

チャットボットアプリケーションにアクセスするには、次のコマンドを実行してアプリケーションの外部 IP アドレスを取得します。
```
kubectl -n multiturn-rag get service
```
Web ブラウザで、http://application_external_ip:3001/converse にあるサンプルチャットアプリケーションを開きます。