王峰,淘宝花名“莫问”,2006 年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在阿里搜索事业部担任资深技术专家,负责数据基础设施团队。
在阿里的前几年一直从事搜索引擎研发工作,自 2010 年开始转向大数据计算和存储技术领域,最近一年带领团队对 Flink 进行了大量架构改进、功能完善和性能提升,打造出了阿里新一代实时计算引擎,我们称之为 Blink。目前千台规模的 Blink 集群已经开始在线支持搜索、推荐、广告和蚂蚁等核心实时业务场景。
随着互联网应用的普及、智能硬件的发展,数据产生的速度呈现了持续爆炸式的增长,数据产生的价值也已不仅取决于空间维度,同时开始在时间维度进行延展,因此提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。这在阿里双十一大促这样的场景中表现的尤为明显,用户行为和商品变化信息带来的价值都是短暂有效的,因此大数据后台系统需要在线收集用户行为和商品变化等信息,实时调整搜索和推荐策略,为用户和商家提供更精准的服务。
在实时计算领域,Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等开源流式计算引擎层出不穷,呈现百家争鸣之势,Google 也顺势推出了开源的 Beam 计算框架标准,本专题将邀请多位国内外一线大数据技术专家分享这些流处理技术的最新发展和趋势,并通过实际案例分享其在实时计算场景的生产应用。
随着近些年大数据技术的不断发展和成熟,无论是传统企业还是互联网公司都已经不再仅仅满足于批量处理数据,大家对数据时效性的需求也越来越强烈。这在电商领域更加明显,通常人们在不同时刻会有着不同的消费需求和潜在目标,尤其在双十一大促这样的场景中,用户会由于丰富的促销活动和环境而临时产生更多的购物需求,这些不断变化的海量商品和用户行为数据就对我们在大数据实时计算领域产生了全新的挑战。
在开源大数据技术业界,第一代实时计算引擎是 Storm,随后出现了 Samza,近几年持续火爆的 Spark 也推出了 Spark Streaming,但我们更看好 Flink 这个新一代的纯流式计算引擎。阿里巴巴搜索技术团队从去年开始改进 Flink,并创建了阿里的 Flink 分支,线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务,我们称之为 Blink 计算引擎。目前我们也已经在和 Flink 母公司 DataArtiscans 一起合作,将 Blink 的改进全部贡献回 Flink 社区,共同推进 Flink 社区的发展,本次分享将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进,并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。
滴滴出行近年来飞速发展,系统日均消息量超过万亿规模,消息日均存储处理量达到 pb 级别。由于交通数据的特殊性,滴滴内部需要实时计算的场景日益丰富,面临着低延迟、高吞吐、高稳定性等一系列的挑战。本文将从数据实时采集、实时传输、实时计算、实时消费等整个流程来介绍实时平台在滴滴的实践情况,同时针对日志检索、监控、etl、olap 等具体场景展开介绍。