vRealize Log Insight 为您提供两组有关系统运行状况的通知:适用于所有产品配置的常规通知,以及与基于集群的部署中的集群相关的通知。

要查看系统通知,请展开主菜单并导航到警示 > 系统警示。您可以通过适当的权限激活或停用通知。有关详细信息,请参见使用 vRealize Log Insight 中的查看和管理警示

注: 在本主题中,管理员用户是指与超级管理员角色相关联的用户,或与具有相应权限的角色相关联的用户,如 创建和修改角色中所述。

以下各表列出并介绍了 vRealize Log Insight的系统通知。

常规系统通知

在发生可能需要管理干预的情况(包括存档失败或警示计划延迟)时,vRealize Log Insight 将会发出通知。

通知名称 描述
最旧的数据即将不可搜索

vRealize Log Insight 预计根据预期可搜索数据大小、存储空间和当前载入速率开始停用虚拟设备存储中的旧数据。如果已配置存档,将会存档已停用的数据,如果未配置,则会删除。

要解决该问题,请添加存储或调整保留通知阈值。有关详细信息,请参见配置 vRealize Log Insight 以发送运行状况通知

通知将在每次重新启动 vRealize Log Insight服务后发送。

存储库保留时间

保留期是在vRealize Log Insight实例的本地磁盘上保留数据的时间长度。保留期是由系统可保留的数据量以及当前载入速率决定的。例如,如果每天收到 10 GB 数据(在编制索引后)并具有 300 GB 空间,则保留速率为 30 天。

在达到存储限制时,将移除旧数据,以便为新载入的数据腾出空间。该通知告诉您,vRealize Log Insight 以当前载入速率存储的可搜索数据量何时超过虚拟设备上的可用存储空间。

您可能会在使用保留通知阈值设置的时间段结束前用完存储。请添加存储或调整保留通知阈值。

已丢弃的事件

vRealize Log Insight 无法载入所有入站日志消息。

  • 如果 vRealize Log Insight 服务器跟踪发现丢弃了 TCP 消息,则会按以下方式发送系统通知:
    • 每天一次
    • 每次手动或自动重新启动 vRealize Log Insight 服务时
  • 电子邮件包含自上次通知电子邮件发送后丢弃的消息数量,以及自上次重新启动 vRealize Log Insight后丢弃的消息总数。
注: 发送行中的时间由电子邮件客户端控制,并且以当地时区显示,而电子邮件正文则显示 UTC 时间。
损坏索引段

磁盘上的索引的一部分已损坏。损坏索引通常表示基础存储系统存在严重问题。索引的损坏部分将从服务查询中排除。损坏索引会影响新数据的载入。vRealize Log Insight 会在服务启动时检查索引的完整性。如果检测到损坏,vRealize Log Insight 会按以下方式发送系统通知:

  • 每天一次
  • 每次手动或自动重新启动 vRealize Log Insight 服务时
磁盘空间不足

vRealize Log Insight 将用完分配的磁盘空间。vRealize Log Insight 很可能出现与存储相关的问题。

存档空间将满 NFS 服务器上用于存档 vRealize Log Insight 数据的磁盘空间将很快用完。如果在当前载入速率下 NFS 服务器可以保存的已存档数据量小于七天,则会发送系统通知。例如,如果您以 708.9 MB/天的磁盘消耗率进行存档,并且有 2000 MB 的空间,则您拥有约三天的容量,这小于阈值。在这种情况下,您将收到低于此容量的通知。
总磁盘空间更改

vRealize Log Insight 数据存储的总分区大小已减小。此通知通常表示底层存储系统中存在严重问题。当 vRealize Log Insight 检测到该情况时,会按以下方式发送此通知:

  • 立即
  • 每天一次
挂起的存档 vRealize Log Insight 无法按预期方式存档数据。该通知通常表示您配置用于数据存档的 NFS 存储存在问题。
分配的日志记录存储卷已达到最大日志记录存储容量的 75% 已配置 vRealize Log Insight 以确保 STIG 合规性,并且分配的日志记录存储卷达到存储库最大日志记录存储容量的 75%。
注: 此通知按节点发送。
许可证即将过期 vRealize Log Insight 的许可证即将过期。
许可证过期 vRealize Log Insight 的许可证已过期。
SSL 证书即将过期 vRealize Log Insight 集群的 SSL 证书将在 30 天后过期。
无法连接 AD 服务器 vRealize Log Insight 无法连接到配置的 Active Directory 服务器。
无法接管 High Availability IP 地址 [IP Address],因为其他计算机已拥有它 vRealize Log Insight 集群无法接管为集成负载均衡器 (Integrated Load Balancer, ILB) 配置的 IP 地址。出现此通知的最常见原因是同一网络中的其他主机拥有该 IP 地址,因此集群无法接管该 IP 地址。

通过从当前拥有该 IP 地址的主机释放该 IP 地址,或者使用网络中可用的静态 IP 地址配置 Log Insight 集成负载均衡器,您可以解决此冲突。当更改 ILB IP 地址时,必须重新配置所有客户端以将日志发送到新的 IP 地址,或者发送到可解析为此 IP 地址的 FQDN/URL。您还必须从“vSphere 集成”页面取消配置与 vRealize Log Insight集成的每个 vCenter Server,然后重新对其进行配置。

由于节点故障太多,High Availability IP 地址 [IP Address] 不可用 为集成负载均衡器 (ILB) 配置的 IP 地址不可用。在客户端尝试通过 ILB IP 地址或可解析为此 IP 地址的 FQDN/URL 将日志发送到 vRealize Log Insight 集群时,此 IP 地址将在客户端中显示为不可用。发出此通知的最常见原因是 vRealize Log Insight 集群中的大多数节点不正常、不可用或无法从主节点访问。另一个常见原因是尚未激活 NTP 时间同步,或者配置的 NTP 服务器彼此之间存在相当大的时间偏移。您可以尝试 对 IP 地址执行ping操作(如果允许)以验证是否可以访问该地址,以确认该问题是否仍然存在。

通过确保大多数集群节点正常且可访问,并启用与精确 NTP 服务器的 NTP 时间同步,可以解决此问题。

vRealize Log Insight 节点之间的 High Availability IP 地址 [您的 IP 地址] 迁移次数太多 在最近 10 分钟内,为集成负载均衡器 (ILB) 配置的 IP 地址的迁移次数太多。

在正常操作下,IP 地址很少在vRealize Log Insight集群节点之间移动。但是,如果当前所有者节点重新启动或处于维护状态下,IP 地址可能移动。另一个原因可能是 Log Insight 集群节点之间未进行时间同步,而时间同步对于保证集群正常运行至关重要。对于后者,通过启用与精确 NTP 服务器的 NTP 时间同步,可以修复此问题。

SSL 证书错误

syslog 源已通过 SSL 启动到 vRealize Log Insight 的连接,但突然终止了该连接。此通知可能表示 syslog 源无法确认 SSL 证书的有效性。为了使vRealize Log Insight接受 SSL 上的 syslog 消息,需要具备一个由客户端验证的证书,且系统时钟必须进行同步。可能是 SSL 证书或者网络时间服务出现了问题。

您可以验证 SSL 证书是否受 syslog 源信任、将源重新配置为不使用 SSL 或重新安装 SSL 证书。请参见配置 vRealize Log Insight 代理的 SSL 参数安装自定义 SSL 证书

vCenter 收集失败

vRealize Log Insight 无法收集 vCenter 事件、任务和警报。要查找导致收集失败的确切错误,并了解当前是否正在进行收集,请查看 /var/log/vmware/loginsight/plugins/vsphere/li-vsphere.log 文件。

vCenter Kubernetes 服务事件收集失败

vRealize Log Insight 无法收集 vCenter Kubernetes 系统事件、任务和警报。要查找导致收集失败的确切错误,并了解当前是否正在进行收集,请查看 /var/log/vmware/loginsight/plugins/vsphere/li-vsphere.log 文件。

丢弃了事件转发器的事件

由于连接或过载问题,转发器丢弃了事件。

示例:

Log Insight Admin Alert: Event Forwarder Events Dropped 
This alert is about your Log Insight installation on https://<your_url>

Event Forwarder Events Dropped triggered at 2016-08-02T18:41:06.972Z

Log Insight just dropped 670 events for forwarder target 'Test',
reason: Pending queue is full.
警示查询延迟

vRealize Log Insight 无法在配置的时间运行用户定义的警示。出现延迟的原因可能是,存在一个或多个用户定义的低效警示,或者未正确调整系统大小以满足载入和查询负载要求。

自动停用警示

如果用户定义的警示已运行至少 10 次,并且平均运行时间超过一小时,则会将该警示视为低效警示,并将其停用以免影响其他用户定义的警示。

低效的警示查询

如果用户定义的警示需要超过一小时才能完成,则会将该警示视为低效警示。

创建新用户或者用户首次登录 已配置 vRealize Log Insight 以确保 STIG 合规性,并且创建新用户或者 Active Directory 或 VMware Identity Manager 用户首次登录。

有关集群的系统通知

vRealize Log Insight会发送有关集群拓扑更改的通知,包括添加新的集群成员或暂时性节点通信问题。

发送人 通知名称 描述
主节点 新工作线程节点需要批准

工作线程节点发送请求以加入集群。管理员用户必须批准或拒绝该请求。

主节点 已批准新工作线程节点

管理员用户已批准工作线程节点加入 vRealize Log Insight 集群的成员资格请求。

主节点 已拒绝新工作线程节点

管理员用户已拒绝工作线程节点加入 vRealize Log Insight 集群的成员资格请求。如果错误地拒绝了该请求,管理员用户可以从工作线程节点重新提出该请求,然后在主节点上批准该请求。

主节点 新添加的工作线程节点使节点数超出所支持的最大数量

由于添加新的工作线程节点,Log Insight 集群中的工作线程节点数超出支持的最大节点数。

主节点 允许的节点数超出,已拒绝新工作线程节点

用户尝试在集群中添加的节点超出允许的最大节点数,因此已拒绝该节点。

主节点 工作线程节点已断开连接

已将以前连接的工作线程节点从 vRealize Log Insight 集群断开连接。

主节点 工作线程节点已重新连接

已将工作线程节点重新连接到 vRealize Log Insight 集群。

主节点 工作节点已撤销

管理员用户已撤销工作线程节点成员资格,并且该节点不再属于 vRealize Log Insight 集群。

主节点 已拒绝未知工作线程节点

vRealize Log Insight 主节点已拒绝工作线程节点的请求,因为该工作线程节点对主节点而言为未知节点。如果工作线程节点是有效节点,并且应将其添加到集群,请登录到该工作线程节点,在/storage/core/loginsight/config/ 上移除其令牌文件和用户配置,然后在该工作线程节点上运行 restart loginsight service

主节点 工作线程节点已进入维护模式

工作线程节点已进入维护模式,管理员用户必须将该工作线程节点退出维护模式,然后它才能接收配置更改和处理查询。

主节点 工作线程节点已恢复运行

工作线程节点已退出维护模式并恢复提供服务。

工作线程节点 主节点出现故障或从工作线程节点断开连接

发送通知的工作线程节点无法联系 vRealize Log Insight 主节点。此通知可能表明主节点出现故障,可能需要重新启动。如果主节点出现故障,则在主节点恢复联机之前,将无法配置集群,并且无法提交查询。工作线程节点继续采集消息。

注: 您可能会接收到许多此类通知,这是因为多个工作线程节点可能会分别检测到主节点故障,并发出通知。
工作线程节点 主节点已连接到工作线程节点

发送通知的工作线程节点已重新连接到 vRealize Log Insight 主节点。