刘敬威,美团点评前端高级技术专家,目前任美团平台部门 FE 负责人,除了平台业务之外,还负责美团前端技术体系、混合应用开发、性能实时监控平台等基础技术建设。所在部门主要工作是解决大前端领域有门槛、有共性的难题,提升移动场景开发的交付效率和交付质量。
crash 率是客户端质量红线。作为移动客户端质量最核心的指标,如何快速暴露、发现、定位、修复对解决线上 crash 尤为关键。
最初我们的 crash 监控系统比较落后,数据更新不及时,日志没有符号化,定位问题不准确,客户端灰度发布的崩溃率需要到第二天才看得到等等,无法满足我们对客户端质量把控的要求,所以我们根据自身的情况,打造了一个更好的系统。
我们通过实时数据处理,及时发现问题并报警;对 crash 将崩溃信息符号化,结合机器学习,更智能准确的将长尾 crash 聚类定位,将聚类结果通过系统分配到相应 BU 及开发者;与内部任务系统、hotfix 系统联动,快速修复上线后实时跟踪修复效果,大大提高了线上 crash 修复率。美团将此系统和机制将原来线上 crash 率由千分位降低至万分位,质量处于行业领先的水平。
本 topic 主要分享的就是我们在开发这个系统时的探索与实践。
通过介绍美团监控和跟踪修复 crash 的探索实践过程,启发大家结合自身业务特点,提高 App 线上问题的修复速度,降低 crash 率,保证业务质量。