刘宇,@守住每一天,西山居运维架构师,曾任职于新浪、百度,担任高级系统工程师。《Puppet 实战》作者,《Puppet 实战手册》译者之一,《Python 进阶》译者之一,《Learning Puppet 4》译者之一,开源作品"opencmdb"作者。
http://linuxtone.org 联合创始人,活跃于 InfoQ 等技术社区,曾获得:2013 QCon 明星讲师等称号。
“风雨过后必见彩虹,斑斓过后必见平静”,自动化运维越来越受企业重视,默默无闻的运维工程师突然一下子变成了“国宝”,大家都想一探窥镜。如何巧妙地将公司特定的案例转化为通用型案例?需要大量的技巧与思考,本专题将运用独门秘籍给大家呈现:持续集成、持续交付、自动化运维、应用监控与分析、DevOps、SRE。如何落地是我们共同的目标。
云计算的普及、Docker 的兴起都给运维带来了前所未有的挑战,在这技术革命快速发展的今天,运维如何转身?企业在不同阶段如何选择最适合的方案显得尤为重要。
本专题在强调一线落地实践的同时,为你提供来自业界最前沿的运维思路。
随着软件日新月异的发展和微服务的深入人心,运维越来越受到人们的重视。在大量的运维数据里,最不可忽视的就是各种 KPI、指标数据,它们在数学上都可以被表达为时间序列的形式。在一个大型软件系统里,往往每分钟能产生百万级的时间序列,如何从这些海量数据里发现规律,指导运维并将其智能化,成为了下一代运维中最重要的环节之一。
在本次演讲中,我们将从机器学习的角度分享运维里指标的三大问题:预测、异常检测和根源分析。同时,运维系统里的每个指标并非独立存在,我们将阐述如何能从多 KPI 中挖掘它们的关联去更好地指导系统监控。
Kubernetes 是由 Google 推出的基于容器的集群管理系统。作为一个开放、灵活、的集群管理平台 Kuberneres 被各大企业、互联网公司以及云厂商所采用。Kubernetes 大大降低了部署、运维微服务和分布式系统的难度。但与此同时 Kubernetes 也对基础架构运维带来了挑战。
Kubernetes 本身是一个庞大的分布式系统,它涉及到数个 Master 组件,例如 API Server 、 Scheduler 、Controller Manager 、etcd 等;在每台节点上,也要部署节点组件 Kubelet 、Kube-proxy 等。无缝地部署、更新这些组件涉及到复杂的运维流程。任何一个步骤的失败都会导致这个集群的不可用,从而影响应用服务。运维 Kubernetes 本身是一个极有挑战性的工作。
为了减轻基础架构运维的工作,我们尝试去利用基础架构本身提供的功能去运维自身。我们称之为 Self Hosted Infrastructure。这个尝试取得了巨大的进展。目前,我们的基础架构可以做到无人监管的地安装、部署、升级。
本话题将详细介绍我们是如何利用 Kuberentes 来做到 Self Hosted Infrastructure。通过这个主题分享,希望大家能更多的了解到现代化集群管理系统的发展趋势。
历时 1 年时间,百度外卖从百度整体 spinoff 完毕;包括百度外卖基础设施建设、在线业务未停服从 IDC 到云端迁移方案和迁移实战、涉及到的运维平台建设,全部迁移完毕。在 1 年的迁移过程中,遇到众多困难,涉及到所有百度成熟的 20+ 个运维平台全部不可用,IDC<->云端网络不通数据无法平滑切换,用户端 / 商户端 / 物流端业务几百个模块耦合错综复杂无法在同一天完成全部切换,同时业务决定我们必须无缝切换即使凌晨也不能中断服务;面对这些困难,我们自研了 12 个运维平台(包括权限系统、部署系统、网络监控、CMDB、智能化监控等),用 BVROUTER 方式打通 IDC<->云端网络,整体设计了业务 / 数据整体快速切换方案做到单点数据秒级切换、切换过程没有损失任何一个订单、用户零感知。
阿里运维团队经过多次转型,2016 年开始垂直化,本次向业界分享我们对 DevOps 思考和实践。在转型过程中,如何重构组织,重新确定团队职责,定义团队能力模型。如何利用技术手段,工程化思维解决运维中的痛点,且如何以更少运维同学支持双 11 大促,沉淀运维实践、规范到平台。
随着大量企业上云以及云端应用的高速发展,数据中心网络的规模和架构都发生了巨大的变化,网络虚拟化给网络运维工作带来了新的巨大挑战。一方面,传统的分光、镜像无法覆盖虚拟化接入层;古老的 Netflow 也无法采集 VLAN/VXLAN 等虚拟网络信息,如何解决网络数据源的采集难题是运维智能化的第一步。另一方面,运维团队亟需解决复杂云网中故障的快速定位与修复难题;在此基础上,对网络数据的高效存储可以帮助运维人员回溯历史故障、发现网络中潜伏的各类异常。
在云、管、端的生态体系中,网络的价值不在于管道,而在于数据。因此对网络数据进行实时的精细化分析,能够发现毫秒级的网络毛刺并使之与应用相关联,有助于网络团队第一时间深入虚拟网络中定位故障。通过网络数据分析系统进一步挖掘更大时间尺度上的网络风险,掌握网络运行的健康态势,将给业务带来前所未有的价值提升。
IT 技术的迅猛发展,给运维人员带来了越来越多的挑战。只负责安装、部署的传统型运维的发展空间已经受到越来越多的挤压:互联网的快速发展,使各种软件的部署、安装已经不再是技术问题,各种开源解决方案也让人怀疑运维人员的存在是否还有意义。运维的转型迫在眉睫。
此次讲演,主要分享对于自动化运维、系统化、智能化运维的思考,特别是在类似京东商城的电商模式下,传统型运维的变革。从部署的自动化,到运维操作的系统化,再到服务台的智能化;从分散式的压力测试,到全流程压力测试;从应用信息的零散化记录,到业务系统的部署可视化。人的角色由操作者,转变为决断者。运维思想每一步的变化,都与信息技术的变革相辅相成。