FlashDuty

FlashDuty

FlashDuty可以方便接入市面上常见的监控系统,把告警事件聚合到 FlashDuty 中心处理,提供事件聚合收敛降噪、认领升级、排班协同等相关功能

服务保障
请勿线下交易!90%的欺诈、纠纷、资金盗取均由线下交易导致。

产品能力

[]

产品亮点

1、支持的监控系统全,支持 Zabbix、Prometheus、Nightingale、PagerDuty、阿里云监控等市面上常见的所有监控系统; 2、告警降噪效果好,支持从事件到告警到故障的二级收敛,降噪比90%以上; 3、故障同时即时性好,故障的第一个告警会实时通知,没有延迟,后续告警会自动合并到之前的故障,既保证了降噪效果,又保证了即时性; 4、认领升级协同方便,故障自动认领、恢复自动关闭,关联分配策略自动升级,自动计算MTTA、MTTR等效率指标,支持重新分配、转派等操作,功能丝滑; 5、OnCall排班灵活,支持不同周期自动换班、换班通知、值班时间内工作时间配置,也支持临时调班,解决节假日临时调班的需求;

产品说明

简介

支持接入各种告警系统(夜莺,Prometheus,Zabbix、云监控 等)Event,基于时间和内容将 Event 降噪为 Alert,在一个平台管理 Alert 的触达、响应和事后分析。支持排班调度与升级、告警聚合与抑制、故障协同与自动化、变更事件关联等功能,减少告警风暴,加速排障过程,提升产品体验。

产品架构

 

事件合并逻辑

监控系统发过来的最原始的告警事件,称为 events,相同对象的相同指标的事件会合并为告警,称为 alerts,文本相似度高的 alerts,或者具备相同标签的 alerts,可以二次合并变成故障,即 incidents,整个逻辑如下:

 

合并配置

您可以按照告警标题、严重程度以及告警的标签信息,来组合设置聚合规则,将相似告警合并为故障,减少通知频次,提升处理效率。如下图所示,我们设置的是:

  1. 系统产生新告警,并自动生成新故障,分派和通知故障;
  2. 系统持续产生新告警,当告警标题或resource标签(代表告警对象)与故障相同时,将告警合入故障;
  3. 故障只聚合临近10分钟内发生的告警,超过时间窗口的告警,将生成一个新故障;
  4. 当故障聚合超过10条告警时,触发风暴预警。

drawing

设定抖动阈值以及收敛时长

对于频繁发生与自动恢复的故障,可以设定阈值,限制触发通知频率,避免持续接收相同且无需立即处理的告警。如下图所示:

drawing

故障查看页面

drawing

 

钉钉通知举例

可以在钉钉等各类常用即时通讯工具内部查看故障详情,对故障做认领、关闭、屏蔽等处理。

drawing

 

 

 

售后支持范围

售后服务范围为产品使用方面的技术支持,售后支持时间范围为合同期范围内
热搜类目 热搜产品 快速入口