产品亮点
1、支持的监控系统全,支持 Zabbix、Prometheus、Nightingale、PagerDuty、阿里云监控等市面上常见的所有监控系统;
2、告警降噪效果好,支持从事件到告警到故障的二级收敛,降噪比90%以上;
3、故障同时即时性好,故障的第一个告警会实时通知,没有延迟,后续告警会自动合并到之前的故障,既保证了降噪效果,又保证了即时性;
4、认领升级协同方便,故障自动认领、恢复自动关闭,关联分配策略自动升级,自动计算MTTA、MTTR等效率指标,支持重新分配、转派等操作,功能丝滑;
5、OnCall排班灵活,支持不同周期自动换班、换班通知、值班时间内工作时间配置,也支持临时调班,解决节假日临时调班的需求;
产品说明
简介
支持接入各种告警系统(夜莺,Prometheus,Zabbix、云监控 等)Event,基于时间和内容将 Event 降噪为 Alert,在一个平台管理 Alert 的触达、响应和事后分析。支持排班调度与升级、告警聚合与抑制、故障协同与自动化、变更事件关联等功能,减少告警风暴,加速排障过程,提升产品体验。
产品架构
事件合并逻辑
监控系统发过来的最原始的告警事件,称为 events,相同对象的相同指标的事件会合并为告警,称为 alerts,文本相似度高的 alerts,或者具备相同标签的 alerts,可以二次合并变成故障,即 incidents,整个逻辑如下:
合并配置
您可以按照告警标题、严重程度以及告警的标签信息,来组合设置聚合规则,将相似告警合并为故障,减少通知频次,提升处理效率。如下图所示,我们设置的是:
- 系统产生新告警,并自动生成新故障,分派和通知故障;
- 系统持续产生新告警,当告警标题或resource标签(代表告警对象)与故障相同时,将告警合入故障;
- 故障只聚合临近10分钟内发生的告警,超过时间窗口的告警,将生成一个新故障;
- 当故障聚合超过10条告警时,触发风暴预警。
设定抖动阈值以及收敛时长
对于频繁发生与自动恢复的故障,可以设定阈值,限制触发通知频率,避免持续接收相同且无需立即处理的告警。如下图所示:
故障查看页面
钉钉通知举例
可以在钉钉等各类常用即时通讯工具内部查看故障详情,对故障做认领、关闭、屏蔽等处理。
售后支持范围
售后服务范围为产品使用方面的技术支持,售后支持时间范围为合同期范围内