Desempenho é garantir que as cargas de trabalho obtenham os recursos necessários. Os Indicadores Chave de Desempenho (KPI) podem ser usados para identificar problemas de desempenho relacionados a cargas de trabalho. Use esses KPIs para definir SLAs associados às camadas de serviço. Esses painéis usam KPIs para exibir o desempenho das cargas de trabalho na camada do consumidor e o desempenho agregado das cargas de trabalho na camada do provedor.
O SLA é o contrato comercial formal que você tem com seus clientes. Normalmente, o SLA é entre o provedor de IaaS (a equipe de infraestrutura) e o cliente de IaaS (a equipe de aplicativos ou a unidade de negócios). O SLA formal precisa de transformação operacional; por exemplo, ele requer mais do que alterações técnicas e talvez você precise analisar o contrato, o preço (não o custo), o processo e as pessoas. O KPI abrange métricas de SLA e métricas adicionais que fornecem aviso prévio. Se você não tiver um SLA, comece com KPI interno. Você deve entender e traçar o perfil do desempenho real do seu IaaS. Use as configurações padrão em VMware Aria Operations se você não tiver seu próprio limite, pois esses limites foram selecionados para oferecer suporte a operações proativas.
Os três processos de gerenciamento de desempenho
- Planejamento. Defina suas metas de desempenho. Ao arquitetar um vSAN, você deve saber quantos milissegundos de latência de disco deseja. 10 milissegundos medidos no nível da VM (não no nível vSAN) é um bom começo.
- Monitoramento. Compare o plano com o real. A realidade corresponde ao que sua arquitetura deveria entregar? Caso contrário, você deve corrigi-lo.
- Solução de problemas. Quando a realidade não está de acordo com o planejado, você deve corrigi-la de forma proativa e não esperar por problemas e reclamações.
- Contenção: Este é o principal indicador.
- Configuração: verifique as incompatibilidades de versão.
- Disponibilidade: verifique se há erros de software. vMotion stun time, lock up. Isso requer Log Insight.
- Utilização: verifique isso no final. Se os três primeiros parâmetros forem bons, você poderá ignorar isso.
As três camadas do gerenciamento de desempenho
Há três domínios principais de aplicativos corporativos. Cada um desses domínios tem seu próprio conjunto de equipes. Cada equipe tem um conjunto de responsabilidades exclusivas e requer o conjunto de habilidades associado. Os três domínios incluem Negócios, Aplicativos e IaaS. Consulte o gráfico abaixo para entender as três camadas e as perguntas comuns feitas em cada camada.
O Gerenciamento de Desempenho é, em grande parte, um exercício de eliminação. A metodologia divide cada camada e determina se essa camada está causando o problema de desempenho. Portanto, é imperativo ter uma única métrica para indicar se uma determinada camada está funcionando ou não. Essa métrica primária é apropriadamente chamada de Indicador Chave de Desempenho (KPI).
A camada superior depende da camada abaixo dela e, portanto, a camada de infraestrutura é normalmente a fonte de contenção. Como resultado, concentre-se primeiro na camada inferior, pois ela serve como base para a camada acima dela. A parte boa é que essa camada é normalmente uma camada horizontal, fornecendo um conjunto de serviços de infraestrutura genéricos, independentemente de quais aplicativos de negócios estão sendo executados nela.
As duas métricas do gerenciamento de desempenho
O contador primário de desempenho é a contenção. A maioria olha para a utilização, porque temem que algo errado possa acontecer se a utilização for alta. Esse algo é contenção. A contenção se manifesta em diferentes formas, como fila, latência, descartada, cancelada e alternância de contexto.
No entanto, não confunda os indicadores de utilização ultra-alta como um problema de desempenho. Se o host ESXi passar por balão, compactação e troca, isso não significa que sua VM tenha um problema de desempenho. Você mede o desempenho do host pelo quão bem ele atende suas VMs. Embora o desempenho esteja relacionado à utilização do host ESXi, a métrica de desempenho não é baseada na utilização, mas em métricas de contenção.
Configuração de Infraestrutura | Configuração da VM e do SO convidado |
---|---|
ESXi Configurações
|
VM: limite, compartilhamento e reserva
|
Rede
|
Tamanho: efeito NUMA. VM abrangendo nós NUMA. |
Configurações do cluster
|
Instantâneo. IO é processa 2x. Drivers de VM. |
vSAN
|
Windows ou Linux processam pingue-pongue, processo fugitivo e fila no nível do SO. |
Do ponto de vista do gerenciamento de desempenho, o cluster vSphere é o menor bloco de construção lógico dos recursos. Embora o pool de recursos e a afinidade do Host da VM possam fornecer uma fatia menor, eles são operacionalmente complexos e não podem fornecer a qualidade prometida do serviço de IaaS. O pool de recursos não pode fornecer uma classe de serviço diferenciada. Por exemplo, seu SLA afirma que o ouro é duas vezes mais rápido que o prata porque é cobrado 200% a mais. O pool de recursos pode conceder ao gold duas vezes mais compartilhamentos. Não é possível determinar se esses compartilhamentos extras se traduzem em metade da prontidão da CPU.
Desempenho da VM
Os contadores de KPI podem ficar técnicos para alguns usuários, portanto, VMware Aria Operations inclui uma linha de partida para que eles comecem. Você pode ajustar o limite depois de criar o perfil do seu ambiente. Essa criação de perfil é um bom exercício, pois a maioria dos clientes não tem uma linha de base. A criação de perfil requer uma edição avançada.
Métricas de desempenho
IaaS | Contador de VM | Limite |
---|---|---|
CPU | Pronto | 2,5% |
RAM | Contenção | 1% |
Disco | Latência | 10 ms |
Rede | Pacote TX descartado | 0 |
A tabela é um exemplo de um limite rigoroso. Um alto padrão de desempenho é usado porque é um KPI interno para o consumo da equipe de infraestrutura. Não é um SLA formal externo que é confirmado com os clientes. Deve haver um buffer entre o KPI interno e o SLA externo para que a equipe de operações receba avisos antecipados e tenha tempo de reagir antes que o SLA externo seja violado. Um alto padrão também funciona do ponto de vista da missão crítica até o ambiente de desenvolvimento. Se o padrão for definido para o ambiente de menor desempenho, ele não poderá ser aplicado ao desenvolvimento mais crítico.
Um único limite é usado para manter as operações simples. Isso significa que o desempenho na produção deve ter uma pontuação mais alta do que o ambiente de desenvolvimento. Espera-se que o desempenho do ambiente de desenvolvimento seja pior do que o do ambiente de produção, enquanto todo o resto é igual. Um único limite ajuda a explicar a diferença na Qualidade de Serviço (QoS) fornecida por uma classe de serviço diferente. Por exemplo, se você pagar menos, terá um desempenho ruim e, se pagar metade do preço, espere obter metade do desempenho.
Os quatro elementos de IaaS (CPU, RAM, Disco e Rede), conforme mencionado na tabela, são avaliados em cada ciclo de coleta. O tempo de coleta é definido em cinco minutos, pois é um equilíbrio apropriado para o monitoramento. Se o SLA for baseado em um minuto, ele estará muito próximo e resultará em aumento de custo ou redução no limite.
Considerações de projeto
Todos os painéis de desempenho compartilham os mesmos princípios de design. Eles foram projetados intencionalmente para serem semelhantes, pois é confuso se cada painel parecer diferente um do outro, considerando que eles têm o mesmo objetivo.
Os painéis são projetados com duas seções separadas: resumo e detalhes.
- A seção de resumo normalmente é colocada na parte superior do painel para fornecer uma visão geral.
- A seção de detalhes é colocada abaixo da seção de resumo. Ele permite que você faça uma busca detalhada em um objeto específico. Por exemplo, você pode obter o relatório de desempenho detalhado de qualquer VM específica.
Na seção de detalhes, use a alternância rápida de contexto para verificar o desempenho de vários objetos durante a solução de problemas de desempenho. Por exemplo, se você estiver analisando o desempenho da VM, poderá visualizar as informações específicas da VM e os KPIs sem alterar as telas. Você pode mover de uma VM para outra e visualizar os detalhes sem abrir várias janelas.
O painel usa a divulgação progressiva para minimizar a sobrecarga de informações e garantir que a página da Web seja carregada rapidamente. Além disso, se a sessão do seu navegador permanecer, a interface lembrará suas últimas seleções.
Muitos dos painéis de desempenho e capacidade compartilham um layout semelhante, pois há uma semelhança compartilhada entre esses pilares de operações.