智能边缘计算
告警
更新时间: 2022-11-30 10:43:00功能说明
SIEP平台上创建集群时,平台已经配置了默认告警规则,当集群出现异常事件时会触发这些告警规则。用户可以在 SIEP平台强大的监控能力基础上,自定义告警规则,以便能及时了解平台、节点、负载的各项指标。
内置默认告警规则如下:
•Etcd告警:对 Etcd健康状态告警的规则。
•Kubernetes系统组件告警:当集群系统组件异常时会发出告警。
•事件告警:当集群部署控制器发生异常时会发出告警。
•节点告警:对节点的 CPU、内存、磁盘使用率进行监控,使用异常时会发出告警。
前提条件
创建告警规则时,必须已经配置了一个通知方式。例如,通过邮件的形式通知某个管理人员。
操作步骤
1.登录平台后,切换至需要配置告警的集群。选择[工具/告警]。然后点击<添加告警组>。
2.输入告警的名称以及告警的描述,推荐按不同的告警目的将告警策略分组。
3.根据用户创建的告警类型,查看下列对应的操作。
4.(可选)系统组件告警,此类告警可以监控Kubernetes集群的系统组件状态。
a)选择[systemservice],然后从下拉列表中选择一个选项:controller-manager、Etcd、scheduler。
b)选择告警的紧急程度,选项包括:
i.危险:最紧急。
ii.告警:正常紧急。
iii.信息:最不紧急。
c)用户可以根据系统服务的重要程度以及在集群中担任角色的节点数,选择紧急级别。例如,用户要为 Etcd服务发出告警,推荐选择危险。
5.(可选)资源事件告警,此类告警可以监控指定资源类型发生的事件。
a)选择触发告警的事件类型,选项包括:
i.正常:在对应资源发生正常事件时触发告警。
ii.警告:在对应资源发生告警事件时触发告警。
b)从[选择资源]下拉列表中选择要触发告警的资源类型。
c)选择告警的紧急程度,选项包括:
i.危险:最紧急。
ii.告警:正常紧急。
iii.信息:最不紧急。
d)用户可以通过考虑事件发生的频率或重要性等因素选择告警的紧急程度。例如:Pod通常可以由控制器控制进行自愈,用户可以选择“信息”作为紧急程度;如果StatefulSet无法工作,并且也可能无法自愈,用户可以选择“危险”作为紧急程度。
6.(可选)节点告警,此告警类型可以监控指定节点的情况。
a)选择[Node]选项,从选择主机下拉列表中选择需要告警的节点。
b)选择触发告警的情况。
i.未就绪:当节点无响应时发送告警。
ii.CPU使用率:当节点的 CPU使用率超出阈值时发送告警。
iii.内存使用率:当节点的内存使用率超出阈值时发送告警。
c)选择告警的紧急程度,选项包括:
i.危险:最紧急。
ii.告警:正常紧急。
iii.信息:最不紧急。
d)用户可以根据告警对操作的影响来选择紧急程度。例如,当节点的 CPU 提升到 60%以上时触发的告警,则认为紧急程度为“信息”,而节点状态为未就绪时则认为紧急程度为“危险”。
7.(可选)节点选择器(NodeSelector)告警,此告警类型可以监视带有对应标签的节点的情况。
a)选择[NodeSelector]选项,然后点击<添加选择器>以输入标签的键值对。
b)选择触发告警的情况:
i.未就绪:当节点无响应时发送告警。
ii.CPU 使用率:当节点的CPU使用率超出阈值时发送告警。
iii.内存使用率:当节点的内存使用率超出阈值时发送告警。
c)选择告警的紧急程度,选项包括:
i.危险:最紧急。
ii.告警:正常紧急。
iii.信息:最不紧急。
8.(可选)表达式告警,此告警类型可以监控 Prometheus表达式执行结果是否超过阈值,使用此功能需先启动监控功能。
a)选择[表达式],下拉列表显示 Prometheus的指标表达。
b)选择[对比]
i.等于: 当表达式值等于阈值时触发告警。
ii.不等于: 当表达式值不等于阈值时触发告警。
iii.大于: 当表达式值大于阈值时触发告警。
iv.小于: 当表达式值等于或小于阈值时触发告警。
v.大于或等于: 当表达式值大于等于阈值时触发告警。
vi.大小于或等于: 当表达式值小于或等于阈值时触发告警。
c)输入阈值,用于表达式值超过阈值时触发告警。
d)选择一个持续时间,表达式值超过阈值持续时长达到配置时触发告警。
e)选择告警的紧急程度,选项包括:
i.危险:最紧急。
ii.告警:正常紧急。
iii.信息:最不紧急。
9.(必选)选择告警通知的接受者,可以添加多名接受者,并可修改接受者的接受地址。
10.点击<创建>,完成告警组的添加。