轻松应对上千节点失效,去哪儿网混沌工程自

本文根据朱仕智老师在〖Gdevops全球敏捷运维峰会-广州站〗现场演讲内容整理而成。

朱仕智

去哪儿网高级技术总监

年加入去哪儿网,负责过公共业务、国际机票、基础架构等团队,擅长高并发高可用高性能的系统设计和落地,多年的技术管理经验。目前主要负责去哪儿网的基础架构、基础平台、大前端、质量保障,专注公司整体技术演进和云原生技术落地。

分享概要

一、混沌工程价值探讨

二、去哪儿网混沌工程平台

三、大规模自动演练

四、故障注入攻防演练

一、混沌工程价值探讨

因为混沌工程是一个比较新兴的技术,所以不可避免地会面临一个问题:当我们要落地混沌工程时,需要对其进行价值的论证,再决定我们需要投入的人力,以及期望达到的效果。

作为技术行业的从业者,我们经常会了解到各大公司出现的宕机的情况,比如去年韩国电信网络的崩溃,以及Facebook服务器宕机的事件,国内各大厂商尤其是云厂商其实都会出现大规模的宕机故障。大部分人看到这些新闻都是吃瓜心态,但是作为技术行业的从业者,这类问题也许某一天就会发生在我们身上,出现在我们的机房和公司里,并且需要我们去解决。

1、去哪儿网的系统群情况

我简单介绍去哪儿网的系统群情况。目前线上运行的活跃的应用有+个,提供+个dubborpc的服务接口,有+个


转载请注明:http://www.aierlanlan.com/tzrz/5429.html