您现在的位置: 首页 > 营销资讯营销资讯
30多名腾讯工程师,七天七夜拯救微盟的奇迹行动
发布时间:2020-03-10作者:青鸾传媒来源:全网营销点击:
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者:石灿,授权青鸾传媒转载发布。
踏上征途
徐勇州得知微盟数据被删,是在 2 月 23 日(星期天)晚上 7 点 30 左右。
腾讯云监控中心的同事给他发信息说,系统检测到微盟部署在黑石物理服务器上的业务出现大面积无法响应。很快,他收到了腾讯云大客户售后服务团队发起的突发事件通知电话。
他是腾讯云运维中心和客户服务部门负责人,工作地点在腾讯深圳总部。受疫情影响,他跟其他同事一样在家办公。他接到消息,第一时间进入解决故障的备战状态。
据徐勇州说,腾讯云做运维和做技术服务的人,都是7x24 小时待命,一旦系统出现问题,他们立即切换到作战状态。如果是比较重要的故障,个人作战模式转入团队作战模式,所有人集中进入腾讯会议,保持信息高效流通。
为应对突发情况,每个季度他们都要对团队作战进行预防演练。徐勇州当天知晓这一事情时,并没有表现出慌乱,但微盟数据被删这件事,远比他想象的要艰难,他和整个团队要面对史无前例的一次协助客户进行数据恢复的工程。
凭借多年的经验,徐勇州当时的第一反应是:“其他将业务部署在黑石物理服务器的公司有没有出现类似问题?”
黑石物理服务器是腾讯云推出的一种裸金属云服务。相对公有云的产品,黑石可以在云端给用户提供独享的一台物理服务器资源,有高性能、无虚拟化、安全隔离等特点。
通俗点解释,如果用户购买的是公有云的服务,那他们的业务有可能与云服务商其他客户的业务在同一台物理服务器上,也就可能与其他客户分享这台物理服务器算力资源;而如果购买黑石的服务,那这台服务器的所有算力资源是客户独享的。
因此,黑石物理服务器经常被企业用于核心业务场景,或者一些需要高性能计算的场景中。
腾讯云立即在内部调动网络团队、系统团队和售后团队查找问题,发现黑石物理服务器整体运行正常,一线也未收到其他客户的反馈。
因此,大家判断问题大概率出现在微盟业务系统内部。
腾讯云云鼎实验室安全应急团队随即与微盟开展了内部联合排查。他们很快发现微盟内部出现了黑天鹅事件