专题演讲嘉宾 :周洋(中亭)

阿里巴巴技术专家

阿里巴巴技术专家,花名中亭。2011 年加入阿里巴巴中间件 & 高可用架构团队,一直从事稳定性产品研发和架构升级的相关的工作,主导了强弱依赖、灰度发布、线上故障演练等多款高可用产品的研发和建设,见证了阿里高可用产品体系从 1.0 到 3.0 的发展历程,积累了丰富的架构和稳定性经验。

2015 年作为共享事业部的大促 PM,负责大促和常态稳定性的保障工作。

演讲:阿里电商故障治理和故障演练实践

时间:04月18日 13:30
地点:309B
所属专题:性能优化面面观

为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011 年到 2015 年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016 年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双 11 备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。

本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。

听众收益

  • 整体了解阿里技术架构和稳定性治理情况,获取构建高可用系统和故障演练的一些经验。
  • 阿里技术架构、稳定性治理的背景介绍:
    • 依赖治理:依赖故障分析、模式总结,电商依赖治理经验及强弱依赖系统演进;
    • 灰度发布:如何通过流量控制、灰度发布、自动化测试提前发现故障;
    • 故障演练:向故障要红利,故障演练的系统设计和演练最佳实践。

本专题下其他演讲

关注主办方(InfoQ)

InfoQ Qcon

交通指南