前端质量之灰度监控的有效实践

EDM营销求职招聘QQ群 http://liangssw.com/bozhu/12719.html?ivk_sa=1024320u
本文将介绍更聚焦灰度监控的报警配置。

背景

回顾过去3年,前端故障总量并不算太大,但背后的数据反映出经济体前端的安全生产,特别是高可用这个子域,正处于一个相对比较低的水位:经济体故障监控发现率46.8%,但其中前端故障的监控发现率仅为22.7%,与期望的监控水平相去甚远!因此我们开始专门起项治理前端质量,主要抓手通过监控报警,进行一段时间也取得了一定成效。在分析遗漏的几个线上问题,尤其是报警没有报出来的,且较为严重(白屏、跳转故障等),都有以下共同点:

新变更导致的

非全量,只有部分流量某些特定情况才会出问题

发布阶段本可发现,但遗留到线上一段时间

因此在报警已经配置的比较全面的下一阶段,我们更需要聚焦于灰度监控?灰度监控的重要性

从保稳定看

预发测试的局限性:不能全面覆盖到线上用户场景(包括多样的用户行为,丰富的客户端设备,海量的业务数据等)

发布时间节点时效性:技术同学对问题更为


转载请注明:http://www.aierlanlan.com/rzgz/233.html