背景
回顾过去3年,前端故障总量并不算太大,但背后的数据反映出经济体前端的安全生产,特别是高可用这个子域,正处于一个相对比较低的水位:经济体故障监控发现率46.8%,但其中前端故障的监控发现率仅为22.7%,与期望的监控水平相去甚远!因此我们开始专门起项治理前端质量,主要抓手通过监控报警,进行一段时间也取得了一定成效。在分析遗漏的几个线上问题,尤其是报警没有报出来的,且较为严重(白屏、跳转故障等),都有以下共同点:新变更导致的
非全量,只有部分流量某些特定情况才会出问题
发布阶段本可发现,但遗留到线上一段时间
因此在报警已经配置的比较全面的下一阶段,我们更需要聚焦于灰度监控?灰度监控的重要性从保稳定看
预发测试的局限性:不能全面覆盖到线上用户场景(包括多样的用户行为,丰富的客户端设备,海量的业务数据等)
发布时间节点时效性:技术同学对问题更为