演讲：对 2000 多亿条数据做一次 group by 需要多久？

时间：04月18日 15:30

地点：309B

所属专题：性能优化面面观

SPA 自研 PivotEngine 可以在 2 秒内完成。

数据是很多业务的核心驱动力之一。对于“SPA”这样的广告业务，更是如此。几十亿用户，每天几百亿次曝光，都产生大量的数据。对这些数据进行透视分析，发现其中蕴含的一些高层宏观信息，对于广告主以及我们自己的产品、运营、策略开发等人员的决策都能提供指导和帮助。

比如广告主投放一条广告，他想了解浏览了其广告的这批用户的年龄是个什么样的分布，更进一步地，其想对比一下曝光用户和有点击行为的用户，比如曝光中 25 岁的用户占比是 10%，但是点击中 25 岁的用户占比却高达 15%。

对于运营来说，他们可能想了解一段时间整个系统中获得不同曝光次数的用户的占比、点击率、产生的收入等。比如最近 10 天内产生 1 次曝光的用户的数量、平均点击率、收入，2 次曝光用户的数量、平均点击率、收入等。

对于广告主的这种简单需求，通过 SQL 可以这样得到结果：select age, count(*) from log where advertiser_id=xxx group by age。

对于后面那种按曝光量聚合统计的需求来说，假设每条曝光日志作为一条基本的数据，那么 sql 大概是如下这种形式的两层 GROUP BY 嵌套查询：

SELECT

exposure_num,

COUNT(*) as user_num,

SUM(sum_click) / SUM(exposure_num) as click_rate,

SUM(sum_cost) AS total_cost

FROM

(SELECT

qq,

COUNT(*) AS exposure_num,

SUM(click_count) AS sum_click,

SUM(cost) AS sum_cost

FROM

log_table

GROUP BY qq) temp_table

GROUP BY exposure_num;

如果只有几十万或几百万条数据，也许 mysql 就可以很好的解决这个问题。但是当数据规模达到几十亿、几百亿甚至上千亿时，mysql 就无法处理了。此外 mysql 一行数据在一列上只能取一个值，但是对于一个用户来说，其某个属性可能是多值，比如用户的商业兴趣，会有多个值。这时按照“商业兴趣”这一列进行 group by，mysql 也无法或者不方便处理。

为了高效低成本地支持这种简单的“过滤-聚合”模式，也即“where-group by-(count|sum|avg) ”这种模式的查询分析请求，当然易用也是非常重要的，我们自研了一套在线查询分析引擎“PivotEngine”。

专题演讲嘉宾 :易杰

腾讯社交与效果广告部检索系统组主管

演讲：对 2000 多亿条数据做一次 group by 需要多久？

时间：04月18日 15:30

地点：309B

所属专题：性能优化面面观

本专题下其他演讲

十亿级视频播放技术优化揭秘

王辉

腾讯

研发总监

Instagram 服务器性能优化实战与经验

陈昊

Facebook

Instagram 基础架构部门工程师

阿里电商故障治理和故障演练实践

周洋（中亭）

阿里巴巴

技术专家

全链路压测在滴滴的实践

叶杰，杨明川

滴滴出行

质量部架构师，基础架构部技术专家

OpenStack Swift 海量小文件性能优化之路

李杰辉

爱奇艺

资深工程师

关注主办方（InfoQ）

联系我们

交通指南

全球QCon大会

伦敦/2017年3月6-10日

北京/2017年4月16-18日

圣保罗/2017年4月24-26日

纽约/2017年6月26-30日

上海/2017年10月17-19日

旧金山/2017年11月13-17日