阿里巴巴技术专家,花名中亭。2011 年加入阿里巴巴中间件 & 高可用架构团队,一直从事稳定性产品研发和架构升级的相关的工作,主导了强弱依赖、灰度发布、线上故障演练等多款高可用产品的研发和建设,见证了阿里高可用产品体系从 1.0 到 3.0 的发展历程,积累了丰富的架构和稳定性经验。
2015 年作为共享事业部的大促 PM,负责大促和常态稳定性的保障工作。
为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011 年到 2015 年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016 年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双 11 备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。
本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。