运维管理是一组相互依赖的层面。了解这些层面之间的关系就像单独了解每个层面一样重要。各个层面之间的关系很重要,因为显示的症状和根本原因通常是两种不同的事情,例如有时配置问题会造成性能问题。
可用性
- 可用性考虑 HA(高可用性)设置。因此,计划内停机(例如 ESXi 处于维护模式)会影响可用性。
- 如果规划正确,则可用性不会影响容量和性能,因为它已被考虑在内。
- 可用性 SLA 越高,价格就越高。每增加 9 个可用性就会有显著的差异。五组 9 个的成本远远高于四组 9 个的成本。
性能和容量
- 相比容量而言,性能对时间更为敏感且更重要。您必须先管理性能,然后再管理容量。
- 性能和容量具有相反关系。最高性能在最低容量下实现,这是因为此时虚拟机或基础架构正在交付的工作量最大。
- 容量管理是指在不降低任何性能的情况下最大限度地提高利用率。此外,它还会考虑隐性工作负载和未来需求。
成本和价格
- 成本与容量密切关联。IaaS 的利用率越高,每台虚拟机的成本就越低。成本与容量是分开的,因为可以在不减少容量的情况下降低成本。
- 价格可独立于成本改变。价格具有折扣和渐进式定价等概念。使用价格可防止出现大量未使用的虚拟机。
- 性能 SLA 越高,客户愿意支付的价格就越高,这就是所谓的“性价比”。
合规性和安全性
- 合规性是根据内部标准和行业标准衡量的。
- 安全性是相关的,但与配置不同。
配置和清单
- 清单是相关的,但与配置不同。配置会影响性能、成本、容量和合规性。因此,它是优化评估的主要重点。清单包括您拥有的资源。配置包括您拥有的资源的属性。例如,集群中的虚拟机数量是清单的一部分,而不是配置的一部分。集群中的 ESXi 主机数量是清单和配置的一部分,因为这是集群的设计方式。出于同样的原因,为集群配置了八个 ESXi 主机。
有两种类型的计数器会影响性能和容量。争用是性能的主要计数器,而利用率是容量的主要计数器。利用率以不同的方式表示性能和容量。对于性能,请查看实际利用率和真实利用率。对于容量,将根据可用容量(启用 HA 和缓冲区后)衡量。由于它们具有负相关性,因此在低利用率下可能会出现争用。不平衡和配置是低利用率的两个典型原因。分配是对需求的补充,因为新置备的虚拟机往往处于闲置状态(可能持续数月)。需求模型无法检测未来负载,因为其不存在。应该使用分配模型来为需求模型做补充。
运维管理的七个支柱和管理流程
运维管理的最佳做法要求您区分支柱和流程。支柱是您必须管理的内容,而流程是您管理这些内容的方式。
每个支柱都是一个单独的管理单元,即容量管理、性能管理以及合规性管理。它们代表单独的层面,并且彼此兼容。每个支柱的复杂性取决于技术,例如,vSAN 的容量比中央阵列更具动态性。在 vSAN 中,更改存储策略可能会产生突发峰值。
第 0 天提供预期结果。有些公司会执行压力测试、负载测试,以便了解当实际负载出现时会发生什么情况。如果规划不正确,您将无法知道实际情况,因为您尚未定义好流程。
故障排除是一项活动,而不是您管理的内容。它侧重于查明原因,然后制定解决方案来防止将来出现意外事件。意外事件是指某些内容已失效、缓慢或遭到破坏。您可以对可用性、性能和安全性进行故障排除。
清单包括您拥有的内容,而不是您计划的内容。您可以使用特定配置规划容量。清单仅考虑您拥有的内容。不进行故障排除或优化。
使用“入门”页面
“入门”页面将任务分为三个广泛的类别,即管理、流程和集合。使用“入门”仪表板可了解这些类别之间的关系。
管理类别包括七个运维支柱:可用性、性能、合规性、容量、成本、配置和清单。
仪表板的“流程”类别涵盖包括故障排除和优化在内的流程。您可以使用故障排除仪表板解决与可用性、争用、利用率和配置相关的任何潜在问题。故障排除不仅仅是确定问题。它侧重于问题背后的原因,还制定解决方案来防止问题再次发生。意外事件是指某些内容已失效、缓慢或遭到破坏。您可以对可用性、性能和容量进行故障排除。使用优化仪表板可提高环境的性能。您可以选择更正问题区域,也可以选择更新、简化或改进虚拟机和基础架构。您可以优化性能、容量、成本和配置。您甚至可以在一定程度上提高系统的可用性,但不能增强合规性或清单。
“集合”类别由“公有云”和“库”部分组成。AWS 和 Azure 仪表板将显示在公有云仪表板下。您可以选择查看这些服务的整体性能,或查看与服务相关的特定仪表板。库包含与网络操作中心和管理层相关的仪表板。此外,它还列出了不适合运维支柱的仪表板,如 VOA 和已弃用的仪表板。