湾区同学技术沙龙 (TechM)(tech-meetup.com)成立于 2011 年,其成员主要来自 Google/LinkedIn/Facebook/UAP 和硅谷的初创企业。它以华人技术工程师为基础,以推动华人间技术交流和知识传播为目的,在过去的几年中,它成功的邀请各个领域的专家举办了 30 多个著名的技术讲座,并与 15 个以上湾区协作单位建立了友好合作关系,linkedin group 吸引了上千人加入,微信已经有 6 个普通群和 5 个专项群。目前已发展成为华人在硅谷人数最多、声望最高的技术讨论先锋组织。
夏磊博士于南京大学分别获得本科和硕士学位,并于美国西北大学获得计算机博士学位。夏磊一直从事与互联网、云计算和大数据相关的研究和开发工作,在计算机顶级会议和期刊上发表论文 20 余篇,并获得 2012 年 ACM 高性能并行与分布式计算国际会议(ACM HPDC)最佳论文提名奖。夏磊博士曾就职于因特尔(Intel)研究院、惠普实验室和威睿(VMware),现为领英(LinkedIn)大数据平台研发项目组高级工程师,同时也是 Apache 顶级开源项目 Helix 的 Committer 和主要开发者之一。夏磊也是湾区同学技术沙龙(TechM)的 Board member 和组织者之一。
本专题由湾区同学技术沙龙出品。专题邀请多位来自硅谷大型互联网公司具有实战经验的架构师和技术专家来探讨如何构建大数据处理系统。通过对各互联网公司的大数据业务系统的架构设计和实践案例的深入分析,以及在构建这些系统中的经验和教训的分享,为各位参会者带来一手经验和最佳实践。
The data-derived recommendations that power LinkedIn's site consists of a continuous chain of three phases: data collection, processing and serving. Due to the dynamic nature of the professional graph both, data collection and processing, methods have evolved to be able to quickly incorporate new signals into the derived features. This evolution, in the data collection and processing methods, has created a need for specialized storage infrastructure that can support this dynamic cycle.
This presentation will uncover the technology behind systems that specialize in serving recommendation dataset at LinkedIn and it's evolution from the early days of serving batch only derived data (Project Voldemort) to it's current novel way of serving derived data computed from any source, batch or nearline (Project Venice). The presentation will discuss architectural choices and tradeoffs in building these systems and share some thoughts on the future direction of this space.
大数据的价值已经得到广泛的关注和重视,在 Airbnb 平台上,用户的行为和行为相关的日志数据是产品决策和优化用户体验的重要基础。随着业务的快速增长,传统的基于批处理模式和无格式的日志处理已经逐渐不能满足应用需求。因此,Airbnb 数据基础构架组开发了新一代的日志数据存储和查询平台,着重于保证日志数据的质量,解决数据的实时性,提高查询的灵活性,方便多维度统计分析,和提供异常检测。演讲主要分享 Airbnb 核心日志平台的系统构架,以及主要系统模块的设计和实现。
在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生成,都转化成实时的结构化数据流,更早的存储和分析它们,并从中获得价值。同时,越来越多的企业应用也开始从批处理数据平台向实时的流数据数据平台转移。本演讲将介绍最近 Apache Kafka 添加的一些系统架构,包括 Kafka Connect 和 Kafka Streams,并且描述一些如何使用它们的实际应用体验。
大家将了解到 Apache Kafka 作为一个实时流处理的中央平台所提供的最新性能,从普通消息队列到关键业务数据冗余备份,再到流数据的实时处理分析。
随着业务的快速增长,Airbnb 正经历着一场对数据使用模式的根本性转变。早期 Airbnb 对数据的使用主要集中在离线数据分析和使用上。 近几年来,越来越多的具有强烈数据依赖特征的在线应用开始逐步上线。这些应用所依赖的数据也逐步从离线批处理向实时的流数据转移。在这样的大背景下,Airbnb 数据基础架构(Data Infrastructure)团队自主开发了基于 Kafka,Spark 和 HBase 的通用数据提取(derivation),聚集(aggregation)和存储(storage)平台——AirTrain。本演讲将从机器学习应用和非机器学习应用两个不同的角度对 Airtrain 的架构进行系统介绍,并且着重讨论一些在开发过程中的需求和设计思路。
近几年来,深度学习在图像识别和语音识别等方面有了非常显著的成绩,其在自然语言处理方面的应用才刚刚开始。本讲座聚焦于在电子商务领域,探索深度学习在自然语义处理和精准理解用户意图方面的应用。
随着互联网爆炸式增长,如何高效可靠地存储海量图片、视频、备份等数据成为决定系统综合性能的关键因素。本次分享,夏鸣博士将为大家介绍 Ambry,一个由领英开发的分布式二进制文件存储系统。Ambry 是 Apache 许可的 开源软件,已在领英生产环境中稳定运行两年。本次分享将包括 Ambry 的设计原理与架构,以及针对大文件流(streaming)的处理与优化。