前情提要
8月19-20日,GOPS全球运维大会·深圳站正式开幕。观测云首席布道师吴亚昆受邀参加大会,并带来「云时代智能运维与可观测性探索」精彩主题演讲。
演讲目录
传统运维问题显著
云时代的智能运维新思路
可观测性的探索方向
演讲实录
大家好,我是来自观测云的吴亚昆,今天分享主题是「云时代智能运维与可观测性探索」。
传统运维问题显著
首先,我们看一看传统运维存在的问题有哪些?
首先,我们看一看传统运维存在的问题有哪些,回头看20多年整个运维阶段的发展,我还没有毕业的时候用的基本上是IBM的一套东西,那套东西非常繁重,比如大机、小机。但是在整个业务发展过程中,包括X86、虚拟化、云计算甚至到现在微服务整个过程,它其实有非常明确的演进方向。最开始架构非常简单,就是从前端Web端到中间处理端,最后到后端数据库的三层,它整个层次架构非常清晰。
原来我们怎么去处理这个问题呢?原来很简单,就是运维「三板斧」,「重启、重装、换电脑」,先是重启,重启不行就重装,重装不行就换一台设备,换一台设备之后绝大部分问题就解决了。
但是到虚拟化和云计算时代,我们会发现这样的处理方式其实已经没有那么容易去解决这些问题了,重启虚机并不一定能够恢复业务,尤其是到现在微服务化比较普及了,服务的调用链非常长,很难快速定位到问题根因。
回过头来看一下当年怎么做,我自己就是从最早从蹲机房的运维开始做起,我们原来做主机监控很简单,机房里面会有一个小推车,大家应该很熟悉,它背后其实是有一个显示器、键盘、鼠标,直接接到服务器背后,就可以查看这台服务器的状态了。
后来量多了,大家比较懒,我们就坐在机房旁边的操作室,用SSH方式远程登录,再往上是网络监控,交换机数量不是特别多的情况,我们通过Console线管理设备、用Telnet远程登录,因为我们信息化发展在往上走,当我们整体设备数量开始变多之后,我们需要有一些监控系统,比如说我们会用Cacti,它可以监控所有的网络设备,这个年代到这一层基本定型了,设备有问题换设备就好了,真正的业务跑的状态怎么样其实没有太多人知道。
所以随着信息化继续发展,大家也都开始逐渐