郑超: IBM Bluemix 最早的研发人员之一,PaaS,Cloud Foundry 和 Container 专家。先后参与过 IBM Bluemix 平台的孵化,改进和平台相关基础工具的架构和研发。现在主要负责 Bluemix 平台运维数据的分析和智能化决策系统的架构设计和开发工作,对机器学习在分布式云平台上的应用有浓厚兴趣。
冯月利: IBM Bluemix 高级开发经理。2005 年加入 IBM,之后 9 年从事 WebSphere 系列产品的研发和客户支持。2013 年开始加入 Bluemix,先后作为开发经理,发版经理参与了 Bluemix Runtimes 的开发,Bluemix 监控和运维平台的开发,Bluemix 全球运维及测试。现在 Bluemix CTO 从事 Bluemix 监控平台的开发。
对于一个云平台级别的大型分布式系统来说,一旦发生问题,定位问题和解决问题的代价比单节点或小规模系统要大得多,于是在业界有类似于 google dapper 或者 twitter 的 zipkin 这样的分布式 tracing 解决方案。但 dapper 和 zipkin 都需要对原有系统进行改造,侵入式很强,对一些现有系统并不适合。在这个话题中,我们将分享在 Bluemix 里面,我们如何采用更加智能的方式对已有的分布式系统进行非侵入的调用链跟踪和问题诊断。