赵宇辰,前 AppDynamics 数据科学负责人,一直致力于人工智能在企业级服务,特别是 DevOps、APM 领域的研究、应用和创新。任数据科学会议 KDD、ICDM、IJCAI 的委员会程序委员,还曾任 General Assembly 的首席数据科学讲师,同时在 Sumo Logic,Linkedin,eBay,IBM Watson Research 有相关经历,并在应用性能 APM 和 Log 领域拥有十多项美国和国际专利。 目前主导和负责下一代大规模数据挖掘、机器学习、异常检测和分析的 APM 产品构架和研发工作,包括一键式多维度相关性事故因果分析,智能正则表达式自动生成器,多项时间序列的预测和异常检测等等。
随着软件日新月异的发展和微服务的深入人心,运维越来越受到人们的重视。在大量的运维数据里,最不可忽视的就是各种 KPI、指标数据,它们在数学上都可以被表达为时间序列的形式。在一个大型软件系统里,往往每分钟能产生百万级的时间序列,如何从这些海量数据里发现规律,指导运维并将其智能化,成为了下一代运维中最重要的环节之一。
在本次演讲中,我们将从机器学习的角度分享运维里指标的三大问题:预测、异常检测和根源分析。同时,运维系统里的每个指标并非独立存在,我们将阐述如何能从多 KPI 中挖掘它们的关联去更好地指导系统监控。