百度测试开发 8 年经验。熟悉问题定位和追踪技术、喜欢存储技术。
现在滴滴质量部。进行分布式追踪系统的实践。
服务化演进过程中同时带来模块功能内聚,跨进程调用增多、网络通信增多。一次 APP 端到服务端的交互愈发复杂,调用栈涉及的模块越来越多。
在一个核心模块日升级量几百的子系统,一个多语言、异构框架、缺少中间件大型分布式系统的生产环境下。
如何提供一种有效的问题定位方法,如何将 trace 机制在这样的复杂环境落地,实践过程中如何使得系统具有日志检索能力、链路追踪能力和信息透传能力。
海量业务日志是如何被格式化、如何存储、如何结合利用其中的业务信息和 trace 信息来进行价值深挖。