姜冰,毕业于中科院计算所,获计算机硕士学位,曾供职于 Yahoo Hadoop Team,拥有超过 7 年的大数据系统的研究和实战经验,技术涉猎广泛,对分布式系统、大数据存储、消息队列等领域有深入的理解和实战经验,并擅长排查解决分布式系统的疑难问题。现任 FreeWheel 主任工程师,全面负责大数据平台的架构和研发工作。
孙炎,毕业于北京航空航天大学,现任 FreeWheel 数据平台组高级软件工程师,目前负责 FreeWheel 日志数据的处理与查询服务,对 Presto 查询引擎有丰富的实战经验。
随着大数据技术的发展,数据应用的实时性要求越来越高。流计算框架成为实时计算的核心组件。如何借助大数据基础组件快速开发流计算框架与应用成为这其中的核心问题。FreeWheel 是一家主要服务于北美和欧洲客户的视频广告技术公司,为大型电视媒体和优质内容供应商提供企业级的视频广告解决方案,每天完成近 10 亿次视频广告投放,积累了大量的视频观看和广告投放数据。如何基于业务逻辑快速迭代开发出一套高性能可扩展的流计算框架,满足业务实时性需求成为了我们数据处理面临的最大挑战。
为此,根据视频广告数据的特点,我们引入了一套基于 Lambda 的数据处理架构,借助 Kafka 和 HBase 实现数据缓存、配对和系统模块集成,使用 Slider 实现业务逻辑任务的动态调度和部署,并通过 Presto 开发实现了数据的低延迟实时查询服务。业务模块的开发、部署和测试环境实现 Docker 化,进一步提升了我们在分布式环境下持续集成交付的能力。本次分享主要介绍我们在以上方面的一些经验。