魏自立,2011 年加入奇虎 360,高级工程师、资深顾问。参与建设了全世界首个也是目前全世界最大的云查杀安全系统,也是 360 搜索引擎的核心开发。在分布式网络服务器架构与计算、大规模系统性能调优等方面积累了大量实践经验,目前负责 360 核心安全业务线的云引擎服务团队。
面对业务部门的新需求不停、用户量不断增长,如何设计我们的软件架构以适应海量业务的需求是一个极大的挑战。本专题精选行业内最优秀的实践案例来分享支撑海量业务的架构设计和最佳实践方案。
本专题将从不同业务领域邀请和分享大型互联网系统的架构设计实践案例,特别是支撑海量业务架构平台的实施过程,在架构设计和迭代演进中所遇到的问题、如何应对、如何考量、最终如何落地实施。在实施过程中,会有不少典型性的坑及填坑的解决方案思路,与会者会从这些解决方案中得到架构设计方面的启迪和不一样的思考,供大家在日常的工作中作为参考。
Kafka 是知乎技术平台的核心基础组件,承载知乎的消息和日志服务。随着业务不断发展,对 Kafka 集群的稳定性和易用性、资源隔离、自动化运维、容量管理等方面提出更高的要求。
我们采用 Kubernetes 和容器技术搭建 Kafka 平台,实践可伸缩的有状态服务在 Kubernetes 方案。平台通过容器技术、服务注册发现、监控和报警和定制客户端等技术,提供从客户端到服务端的可伸缩和高可用的集群。
本次演讲将介绍知乎 Kafka 平台在 Kubernetes 有状态服务、集群管理、自动化运维和高可用方面的心得和体会。
蚂蚁花呗从 14 年开始,经过 3 年时间,逐步成长为一个亿级用户产品。对于互联网金融产品一方面有着比其他互联网产品更高的可用性和性能,另一方面基于产品特性对于用户有大量的通知和到期自动扣款,同时也经历了大部分互联网业务去 IOE 的过程。这些业务处理很共同的特点,数据量大,一致性要求高,时效性很强,不允许失败。这些都是需要高可用,高并发架构来支撑。
360 公司是一个安全公司,样本的自动化扫描鉴定系统则成为了打击恶意病毒木马的重要武器。想要快速准确的鉴别样本的安全与否,一方面要求系统能够做到实时的流式处理,已达到快,另一方面要在算法更新特征库升级的情况下对历史样本进行高吞吐量的回归扫描,已达到准。市面上开源的大多数实时大数据处理都是基于日志数据来设计的,面对我们这种小则几百 KB 大则上 GB 的样本数据,而且很多扫描程序只能运行于 Windows 或者 Android 环境的需求,就变得没有那么得心应手了。360 病毒样本大规模异构实时扫描平台,很好的完成了上述任务,每天处理量达到几百 TB 的规模,为广大用户的上网安全保驾护航。
本次分享会从系统的演进,重难点剖析全方位的进行介绍,希望大家能够得到一定的启发。
听众受益:了解系统架构的变迁,以及可扩展性分布式实时系统的建设。
高可用架构是互联网服务持续提供服务的基石,近几年越来越多的服务选择在云上部署(以及通过容器或微服务的方式),淘宝在过去 10 多年积累了丰富的高可用经验和产品化解决方案,包括优雅降级、服务限流、实时对账、跨机房容灾、单元化异地多活等方面,本次分享的第一部分会解析 PC 时代承载淘宝全站第二大流量的店铺系统的高可用设计方案。从 2015 年开始,基于聚石塔和阿里云,研发了 EWS 全架构容器托管平台,服务了上千个 ISV 的应用,总容器数达到上万个,在这个过程中,也总结出了一套基于公有云的高可用设计原则,并和过去自建机房的模式做类比,比如跨机房容灾演化为跨可用区容灾,异地多活演化为跨 Region 的高可用,以及基于 DTS 等产品做长距离的数据实时同步,并且在双 11 中通过容器弹性的方式结合这套高可用原则,为阿里的外部客户提供了高可用的基础设施,来守住双 11 高并发的压力,本次分享会分别从淘宝主站及云上的服务如何保障高可用的设计做一次解密。
微博作为全球最大中文社交媒体,近年来活跃度、流量各方面持续走高,媒体和明星名人集中选择微博作为独家发布平台,“晨冰恋”、“奥运”、“宝宝”等热点事件,带来短时间内流量冲高数倍的独特社交媒体现象。每年的元旦、春晚、红包飞等会为微博带来巨大的流量挑战,这些业务场景的主要特点是:瞬间峰值高、互动时间短。原有系统架构已无法满足业务快速发展及峰值应对,基于 Docker 借助公有云弹性计算能力、改造原有多机房架构,构建混合云平台,实现分钟级千台规模机器创建到服务部署自动化运维体系。本次分享涉及大规模峰值流量下高可用架构、混合云容器平台建设、多机房部署、应用性能跟踪及分析、业务技术保障等方面实践经验。
介绍在滴滴业务快速发展,流量不断增长的大背景下,作为公司的一个核心基础服务,路线规划引擎的架构演化之路。回顾整个路线引擎服务的发展历程,其中的架构如何从单模块的简单服务,逐步发展为一个多层分布式集群,在访问量从 kw 到每天 100 亿的过程中,都遇到了哪些稳定性方面的挑战。以及我们是从哪些纬度去思考所要做的折衷,总结的一些基本原则。
随着视频行业的飞速发展,视频流量和视频数量日益增长,如何打造一个高性能高可用的分布式视频搜索架构是一个挑战。本次演讲将介绍爱奇艺搜索架构是如何演进的,如何通过索引分级提高处理能力,利用现有的资源支撑更多的数据量和流量,如何实现数据的实时更新,让用户在第一时间搜到刚更新的视频,如何通过降级、限流、扩容、异地多活等手段提供高可用的服务,应对流量突增、网络抖动、服务器宕机等问题,如何利用监控系统和 trace 系统在故障产生前及时预防,故障发生后及时发现和处理,降低用户对故障的感知程度。