Painel de contenção de cluster

O painel Contenção de Cluster é o painel principal para o desempenho do cluster vSphere. Ele foi projetado para VMware administradores ou arquitetos. Ele pode ser usado para monitoramento e solução de problemas. Depois de determinar que há um problema de desempenho, use o painel Utilização do cluster para ver se a contenção é causada por alta utilização.

Considerações de projeto

Esse painel é usado como parte do seu Procedimento Operacional Padrão (SOP). Ele foi projetado para uso diário, portanto, as visualizações são definidas para mostrar dados das últimas 24 horas. O painel fornece métricas de desempenho para máquinas virtuais no centro de dados selecionado.

A utilização do cluster não é mostrada no painel Contenção de Cluster. Você deve separar os dois conceitos: utilização e contenção. Desempenho e capacidade são conceitos diferentes gerenciados por duas equipes separadas. A CPU e a memória também são mostradas separadamente. Você pode ter um problema com um, sem qualquer problema no outro. A CPU é mais comum, pois a memória tende a ter uma taxa de superalocação mais baixa.

Para visualizar as considerações de design comuns entre todos os painéis de gerenciamento de desempenho, consulte o Painéis de desempenho.

Como usar o painel

Desempenho médio do cluster (%).
- Esse é o KPI principal para toda a sua IaaS. Ele plota o desempenho do seu IaaS a cada 5 minutos, fornecendo a visualização de tendências do desempenho geral.
- A métrica em si é simplesmente a média da métrica Cluster KPI/Desempenho (%). Essa métrica de desempenho, por sua vez, calcula a média da métrica Desempenho da VM/Número de KPIs violados de todas as VMs em execução no cluster. Portanto, um valor de 100% indica que cada VM em execução no cluster é bem atendida.
- Como esse KPI leva em consideração todas as VMs em execução no seu ambiente, o número deve ser constante. A analogia na vida real é o índice do mercado de ações. Embora as ações individuais possam ser voláteis, no geral o índice deve ser relativamente estável em uma base de 5 minutos por 5 minutos.
- O movimento relativo da métrica é tão importante quanto o valor absoluto da métrica. Seu número absoluto pode não ser tão alto quanto você deseja, mas se não houver reclamações por um longo tempo, não haverá justificativa comercial urgente para melhorá-lo.
Desempenho de clusters.
- Ele lista todos os clusters, classificados pelo cluster de menor desempenho na última semana. Você pode alterar esse período de tempo.
- O pior desempenho mostra o número mais baixo no período. Como o VMware Aria Operations coleta dados a cada 5 minutos, há 12 x 24 x 7 = 2016 pontos de dados em uma semana. Esta coluna mostra o pior ponto entre esses pontos de dados de 2016.
- Um único número entre os pontos de dados de 2016 pode ser um valor discrepante que às vezes precisa ser complementado com outro número. Uma escolha lógica é a média desses números. Para que o desempenho médio seja baixo, muitos critérios precisam ser baixos. Aguardar a média causa um atraso nas suas operações e aumenta as reclamações. Para o monitoramento de desempenho, o 95º percentil é um resumo melhor do que a média.
- Seu cluster deve funcionar a 100% e executar suas funções conforme o planejado.
Selecione um cluster na tabela.
- Todos os gráficos de integridade mostram o KPI do cluster selecionado.
- Para o desempenho, é importante mostrar a profundidade e a amplitude dos problemas de desempenho. Um problema que afeta uma ou duas VMs requer uma solução de problemas diferente de um problema que afeta todas as VMs no cluster.
- A profundidade é mostrada relatando o pior entre qualquer contador de VM. Portanto, o valor mais alto de VM CPU Ready, VM Memory contenção e VM Disk Latency entre todas as VMs em execução é mostrado. Se o pior número for bom, você não precisará examinar o restante das VMs.
- Um grande cluster com milhares de VMs pode fazer com que uma única VM tenha um desempenho ruim, enquanto 99,9% da população de VMs está bem. O contador de profundidade pode não relatar que a maioria das VMs está bem. Só relata o pior. É aqui que entram os contadores de largura.
- Os contadores de amplitude relatam a porcentagem da população de VMs que está com problemas de desempenho. O limite é definido como rigoroso, pois o objetivo é fornecer aviso prévio e ativar operações proativas.

Pontos a serem observados

É possível que as VMs no cluster sofram de baixo desempenho, enquanto a utilização do cluster é baixa. Um dos principais motivos é que a utilização do cluster analisa a camada do provedor (ESXi), enquanto o desempenho analisa o consumidor individual (VM). A tabela a seguir mostra vários motivos possíveis. A imagem exibe os possíveis motivos para o baixo desempenho de uma VM. Ele tem duas colunas que exibem o nome do evento e a resposta relacionada a ele.

Do ponto de vista do gerenciamento de desempenho, o cluster vSphere é o menor bloco de construção lógico dos recursos. Embora o pool de recursos e a afinidade do Host da VM possam fornecer uma fatia menor, eles são operacionalmente complexos e não podem fornecer a qualidade prometida do serviço de IaaS. O pool de recursos não pode fornecer uma classe de serviço diferenciada. Por exemplo, seu SLA afirma que o ouro é duas vezes mais rápido que o prata porque é cobrado 200% a mais. O pool de recursos pode conceder ao gold duas vezes mais compartilhamentos. Não é possível determinar se esses compartilhamentos extras se traduzem em metade da prontidão da CPU.

Certas configurações, como o nível de automação DRS e a presença de muitos pools de recursos, podem afetar o desempenho. Considere adicionar um widget de propriedade para mostrar a propriedade relevante de um cluster selecionado e um widget de relacionamento para mostrar pools de recursos.

Para um ambiente grande com muitos clusters, adicione um agrupamento para tornar a lista mais gerenciável. Agrupe-o por classe de serviço para que você possa se concentrar mais nos clusters críticos.