本文根据朱仕智老师在〖Gdevops全球敏捷运维峰会-广州站〗现场演讲内容整理而成。
朱仕智
去哪儿网高级技术总监
年加入去哪儿网,负责过公共业务、国际机票、基础架构等团队,擅长高并发高可用高性能的系统设计和落地,多年的技术管理经验。目前主要负责去哪儿网的基础架构、基础平台、大前端、质量保障,专注公司整体技术演进和云原生技术落地。
分享概要
一、混沌工程价值探讨
二、去哪儿网混沌工程平台
三、大规模自动演练
四、故障注入攻防演练
一、混沌工程价值探讨
因为混沌工程是一个比较新兴的技术,所以不可避免地会面临一个问题:当我们要落地混沌工程时,需要对其进行价值的论证,再决定我们需要投入的人力,以及期望达到的效果。
作为技术行业的从业者,我们经常会了解到各大公司出现的宕机的情况,比如去年韩国电信网络的崩溃,以及Facebook服务器宕机的事件,国内各大厂商尤其是云厂商其实都会出现大规模的宕机故障。大部分人看到这些新闻都是吃瓜心态,但是作为技术行业的从业者,这类问题也许某一天就会发生在我们身上,出现在我们的机房和公司里,并且需要我们去解决。
1、去哪儿网的系统群情况
我简单介绍去哪儿网的系统群情况。目前线上运行的活跃的应用有+个,提供+个dubborpc的服务接口,有+个