Desempenho é garantir que as cargas de trabalho obtenham os recursos necessários. Os Indicadores Chave de Desempenho (KPI) podem ser usados para identificar problemas de desempenho relacionados a cargas de trabalho. Use esses KPIs para definir SLAs associados às camadas de serviço. Esses painéis usam KPIs para exibir o desempenho das cargas de trabalho na camada do consumidor e o desempenho agregado das cargas de trabalho na camada do provedor.

O SLA é o contrato comercial formal que você tem com seus clientes. Normalmente, o SLA é entre o provedor de IaaS (a equipe de infraestrutura) e o cliente de IaaS (a equipe de aplicativos ou a unidade de negócios). O SLA formal precisa de transformação operacional; por exemplo, ele requer mais do que alterações técnicas e talvez você precise analisar o contrato, o preço (não o custo), o processo e as pessoas. O KPI abrange métricas de SLA e métricas adicionais que fornecem aviso prévio. Se você não tiver um SLA, comece com KPI interno. Você deve entender e traçar o perfil do desempenho real do seu IaaS. Use as configurações padrão em VMware Aria Operations se você não tiver seu próprio limite, pois esses limites foram selecionados para oferecer suporte a operações proativas.

Os gráficos a seguir descrevem a relação acima.
Representação gráfica do relacionamento entre o Reativo, o KPI Interno e o SLA Formal.

Os três processos de gerenciamento de desempenho

No gerenciamento de desempenho, existem três processos distintos.
  • Planejamento. Defina suas metas de desempenho. Ao arquitetar um vSAN, você deve saber quantos milissegundos de latência de disco deseja. 10 milissegundos medidos no nível da VM (não no nível vSAN) é um bom começo.
  • Monitoramento. Compare o plano com o real. A realidade corresponde ao que sua arquitetura deveria entregar? Caso contrário, você deve corrigi-lo.
  • Solução de problemas. Quando a realidade não está de acordo com o planejado, você deve corrigi-la de forma proativa e não esperar por problemas e reclamações.
Para entender o que não é íntegro para o gerenciamento de desempenho, considere as áreas a seguir na ordem especificada.
  1. Contenção: Este é o principal indicador.
  2. Configuração: verifique as incompatibilidades de versão.
  3. Disponibilidade: verifique se há erros de software. vMotion stun time, lock up. Isso requer Log Insight.
  4. Utilização: verifique isso no final. Se os três primeiros parâmetros forem bons, você poderá ignorar isso.

As três camadas do gerenciamento de desempenho

Há três domínios principais de aplicativos corporativos. Cada um desses domínios tem seu próprio conjunto de equipes. Cada equipe tem um conjunto de responsabilidades exclusivas e requer o conjunto de habilidades associado. Os três domínios incluem Negócios, Aplicativos e IaaS. Consulte o gráfico abaixo para entender as três camadas e as perguntas comuns feitas em cada camada. Representação gráfica das camadas de gerenciamento de desempenho de negócios, aplicativos e IaaS e suas métricas de amostra.

O Gerenciamento de Desempenho é, em grande parte, um exercício de eliminação. A metodologia divide cada camada e determina se essa camada está causando o problema de desempenho. Portanto, é imperativo ter uma única métrica para indicar se uma determinada camada está funcionando ou não. Essa métrica primária é apropriadamente chamada de Indicador Chave de Desempenho (KPI).

A camada superior depende da camada abaixo dela e, portanto, a camada de infraestrutura é normalmente a fonte de contenção. Como resultado, concentre-se primeiro na camada inferior, pois ela serve como base para a camada acima dela. A parte boa é que essa camada é normalmente uma camada horizontal, fornecendo um conjunto de serviços de infraestrutura genéricos, independentemente de quais aplicativos de negócios estão sendo executados nela.

As duas métricas do gerenciamento de desempenho

O contador primário de desempenho é a contenção. A maioria olha para a utilização, porque temem que algo errado possa acontecer se a utilização for alta. Esse algo é contenção. A contenção se manifesta em diferentes formas, como fila, latência, descartada, cancelada e alternância de contexto.

No entanto, não confunda os indicadores de utilização ultra-alta como um problema de desempenho. Se o host ESXi passar por balão, compactação e troca, isso não significa que sua VM tenha um problema de desempenho. Você mede o desempenho do host pelo quão bem ele atende suas VMs. Embora o desempenho esteja relacionado à utilização do host ESXi, a métrica de desempenho não é baseada na utilização, mas em métricas de contenção.

Representação gráfica das métricas que afetam o gerenciamento de desempenho.
É possível que as VMs no cluster sejam afetadas pelo baixo desempenho, enquanto a utilização do cluster é baixa. Um dos principais motivos é que a utilização do cluster analisa a camada do provedor (ESXi), enquanto o desempenho analisa um consumidor individual (VM). A tabela a seguir mostra vários motivos possíveis.
Configuração de Infraestrutura Configuração da VM e do SO convidado
ESXi Configurações
  • O gerenciamento de energia do host e do BIOS faz com que a frequência caia.
  • HT ativado. Parece o dobro da capacidade, mas na verdade é uma taxa de transferência de 1,25 X.
  • ESXi - Compatibilidade de HW. Driver e firmware são duas áreas que podem afetar o desempenho.
  • Incompatibilidade de profundidades de fila ao longo das várias pilhas de armazenamento. Deve calibrar todo o caminho até a matriz física.
  • vMotion muito lento ou alto tempo de atordoamento.
VM: limite, compartilhamento e reserva
  • Certifique-se de que nenhum limite esteja definido. CPU pronta inclui limite.
  • Certifique-se de que os compartilhamentos sejam consistentes (de acordo com o que as VMs desejam ou com o que você concorda).
  • Evite reservas, se possível. Isso afeta os recursos líquidos disponíveis para as outras VMs.
Rede
  • Incompatibilidade de MTU.
  • Lúpulo. Especialmente ferradura, ou passando por vários ESXi.
Tamanho: efeito NUMA. VM abrangendo nós NUMA.
Configurações do cluster
  • Configuração inconsistente entre hosts em um cluster. O modo EVC pode desempenhar um papel se os hosts forem de gerações diferentes.
  • Pool de recursos
    • Certifique-se de que os compartilhamentos correspondam ao número de VMs.
    • Certifique-se de que nenhuma VM seja irmã do RP.
  • VM- Host Affinity.
  • DRS Configuração.
Instantâneo. IO é processa 2x.

Drivers de VM.

vSAN
  • O host em que o armazenamento estava tendo problemas de desempenho.
Windows ou Linux processam pingue-pongue, processo fugitivo e fila no nível do SO.

Do ponto de vista do gerenciamento de desempenho, o cluster vSphere é o menor bloco de construção lógico dos recursos. Embora o pool de recursos e a afinidade do Host da VM possam fornecer uma fatia menor, eles são operacionalmente complexos e não podem fornecer a qualidade prometida do serviço de IaaS. O pool de recursos não pode fornecer uma classe de serviço diferenciada. Por exemplo, seu SLA afirma que o ouro é duas vezes mais rápido que o prata porque é cobrado 200% a mais. O pool de recursos pode conceder ao gold duas vezes mais compartilhamentos. Não é possível determinar se esses compartilhamentos extras se traduzem em metade da prontidão da CPU.

Desempenho da VM

Como a VM é o objeto mais importante em vSphere, ela merece uma explicação extra. O gráfico abaixo lista os contadores que você deve observar.
Representação gráfica dos contadores que afetam o desempenho da VM.

Os contadores de KPI podem ficar técnicos para alguns usuários, portanto, VMware Aria Operations inclui uma linha de partida para que eles comecem. Você pode ajustar o limite depois de criar o perfil do seu ambiente. Essa criação de perfil é um bom exercício, pois a maioria dos clientes não tem uma linha de base. A criação de perfil requer uma edição avançada.Representação gráfica dos contadores de KPI para entender os parâmetros de desempenho.

Métricas de desempenho

VMware Aria Operations usa o seguinte limite para o KPI interno.
IaaS Contador de VM Limite
CPU Pronto 2,5%
RAM Contenção 1%
Disco Latência 10 ms
Rede Pacote TX descartado 0

A tabela é um exemplo de um limite rigoroso. Um alto padrão de desempenho é usado porque é um KPI interno para o consumo da equipe de infraestrutura. Não é um SLA formal externo que é confirmado com os clientes. Deve haver um buffer entre o KPI interno e o SLA externo para que a equipe de operações receba avisos antecipados e tenha tempo de reagir antes que o SLA externo seja violado. Um alto padrão também funciona do ponto de vista da missão crítica até o ambiente de desenvolvimento. Se o padrão for definido para o ambiente de menor desempenho, ele não poderá ser aplicado ao desenvolvimento mais crítico.

Um único limite é usado para manter as operações simples. Isso significa que o desempenho na produção deve ter uma pontuação mais alta do que o ambiente de desenvolvimento. Espera-se que o desempenho do ambiente de desenvolvimento seja pior do que o do ambiente de produção, enquanto todo o resto é igual. Um único limite ajuda a explicar a diferença na Qualidade de Serviço (QoS) fornecida por uma classe de serviço diferente. Por exemplo, se você pagar menos, terá um desempenho ruim e, se pagar metade do preço, espere obter metade do desempenho.

Os quatro elementos de IaaS (CPU, RAM, Disco e Rede), conforme mencionado na tabela, são avaliados em cada ciclo de coleta. O tempo de coleta é definido em cinco minutos, pois é um equilíbrio apropriado para o monitoramento. Se o SLA for baseado em um minuto, ele estará muito próximo e resultará em aumento de custo ou redução no limite.

Considerações de projeto

Todos os painéis de desempenho compartilham os mesmos princípios de design. Eles foram projetados intencionalmente para serem semelhantes, pois é confuso se cada painel parecer diferente um do outro, considerando que eles têm o mesmo objetivo.

Os painéis são projetados com duas seções separadas: resumo e detalhes.

  • A seção de resumo normalmente é colocada na parte superior do painel para fornecer uma visão geral.
  • A seção de detalhes é colocada abaixo da seção de resumo. Ele permite que você faça uma busca detalhada em um objeto específico. Por exemplo, você pode obter o relatório de desempenho detalhado de qualquer VM específica.

Na seção de detalhes, use a alternância rápida de contexto para verificar o desempenho de vários objetos durante a solução de problemas de desempenho. Por exemplo, se você estiver analisando o desempenho da VM, poderá visualizar as informações específicas da VM e os KPIs sem alterar as telas. Você pode mover de uma VM para outra e visualizar os detalhes sem abrir várias janelas.

O painel usa a divulgação progressiva para minimizar a sobrecarga de informações e garantir que a página da Web seja carregada rapidamente. Além disso, se a sessão do seu navegador permanecer, a interface lembrará suas últimas seleções.

Muitos dos painéis de desempenho e capacidade compartilham um layout semelhante, pois há uma semelhança compartilhada entre esses pilares de operações.