当前位置:6165电子游戏-6165金沙总站 登录平台 > 运输物流 > 经历不可抗力是一种什么体验,发布首日晚

经历不可抗力是一种什么体验,发布首日晚

文章作者:运输物流 上传时间:2020-05-08

摘要这是微信继今年四月、七月后,又一次大范围失灵。前两次事后解释的原因,一次是机房交换机出硬件故障,一次是路段施工导致光缆被挖断。这次不知道事后总结会是什么。在上次出现大规模故障后,马化腾已正告微信要加强 ...8月19日即时通讯/IM产品“易信”发布。嗖嗖地已目前已上了App Store前三名。微信为表示对友军的庆贺,英勇地于当日晚上10点左右挂掉。公众平台、朋友圈、游戏等链条环节,一一崩溃,无法连接。以上一半玩笑。真实的另一半是:微信真的又出大规模故障了。微信团队在新浪微博的告示如下:这是微信继今年四月、七月后,又一次大范围失灵。前两次事后解释的原因,一次是机房交换机出硬件故障,一次是路段施工导致光缆被挖断。这次不知道事后总结会是什么。在上次出现大规模故障后,马化腾已正告微信要加强容灾处理能力建设。这次“出错”的时机出现得太有趣了。欢迎明天阴谋论者们踊跃登场。

郑昀 最后更新于2015/1/29

关键词:空调、运维、电缆、DNS根域、DDoS、劫持、乌龙

本文档适用人员:研发和运维

知己知彼,百战不殆,了解一下过去那几年我们所经历过的各种不可抗离奇事件吧。

 

一.空调,挥之不去的噩梦

 

我们一而再再而三地跌倒在IDC机房空调机组脚下,那几年每年夏天都过得提心吊胆,每次望见漫天杨絮都忧心忡忡。

6165电子游戏 , 

回顾一下历史:

  1. 2011年5月6日

    • 15点~18点,我司所在的世某某联廊坊IDC机房,空调故障,局部过热,导致部分主机自动关机。

    • 所幸只影响到CMS的使用,对其他服务无影响。

  2. 2011年6月2日

    • 16点~19点,仍然是世某某联廊坊IDC机房,空调机组故障,造成托管机房温度过高。

    • 16点10分开始,运维部已将中心区域服务进行了迁移,将核心业务迁移到边缘区域温度相对较低的服务器上提供服务。但随着中心区域温度的持续升高,17点开始中心区服务器相继出现工作不稳定和宕机状况。

    • 6165金沙总站 登录平台 ,17点50分至18点06分期间,前端服务器陆续宕机,造成20%用户打不开网页。

    • 于是我司于6月底停服夜奔,从廊坊搬迁服务器回了北京,孩子还是放在身边放心。

  3. 2013年5月18日

    • 16点10分,我司所在的北京互某通IDC机房的空调机组因杨柳絮堵塞室外机而停机。

    • 托管机房某列机柜内托管服务器超温保护自动关机。

 

IDC机房空调机组停机导致的事故,我司每次都是标准处理流程:

1)运维部极速飞车到机房,冰砖啊风扇啊挪机器到外围区域啊;

2)运维部发函追责;

3)IDC机房承认错误,做出赔偿;

4)运维部发事件报告以及对方公函。

 

历史上其他公司的空调殃及池鱼事件:

2012年12月26日,12306火车票网站因机房空调系统故障而无法访问。 

 

二.易断的缆线

 

2011年11月17日16点40分~18点20分,我司短信通道所在的天津塘沽某IDC机房电缆被铲车挖断,备用电源坚持不了太久,机房断电,导致我司无法使用短信通道,同机房的遨游、新浪邮箱、豌豆荚等公司的服务也因此中断。

 

其实只要你运营时间足够长,总会撞上一次:

  • 2012年7月25日晚间~21点40分,北京暴雨抢修光纤被挖断,导致美团网一度不能访问。

  • 2012年10月18日上午~11点40分,酒仙桥某IDC机房断电,凡客诚品(刚好赶上凡客五周年生日促销)、亚马逊中国等网站无法访问。

  • 2013年7月22日上午,因市政道路施工导致通信光缆被挖断,影响了微信服务器的正常连接。

 

三.硬件造成的网络中断  

硬件造成的网络中断,并不鲜见,如2013年4月10日,腾讯微信所在IDC机房的一台交换机出现硬件故障,导致少部分微信用户约十分钟发送消息失败,还一度轰动了社交网络。

 

3.1.上游的硬件问题

 

2013年6月17日,

  1. 20:30分,监控报警提示业务中断;

  2. 20:32分,运维人员和机房值班工程师取得联系,确认机房网络出现异常;

  3. 20:35分,运维人员赶往机房现场协调处理;

  4. 20:40分,通知公司相关部门人员按紧急预案执行;

5. 20:50分,现场工程师和互某通技术人员确认,长话大楼机房核心设备硬件故障造成网络中断,备件已到位,正在更换中;

6. 21:00分,将服务切换到攻击防护IP地址段(因该IP段为单联通线路,流量出口为机房本地出口,所以该段未受到影响);

7. 21:00分,机房部分流量恢复,表现为联通运营商用户可以访问网站,其他运营商无法访问网站;

  1. 21:02分,通知公司相关部门人员故障开始恢复;

  2. 21:30分,与互某通技术人员联系,设备硬件已经更换完成进行加电;

10. 21:35分,互某通长话机房网络恢复,其他运营商用户可以访问网站,所有功能恢复。

 

 

本次故障为互某通机房长话大楼核心设备故障造成,暴露出几个问题:

1. 长话大楼机房作为核心机房,核心网络设备没有采用在线热备,采用冷备方式,出现故障后恢复时间过长,

2. 出现长话大楼机房核心设备故障时,可以选择将BGP出口切换到同城某核心机房,但对方未进行此操作。

 

3.2.自身的硬件问题

 

2014年10月27日,

  1. 15:20分,监控报警发现网站销量异常以及网站无法正常打开。

2. 15:23分,运维部开始分配工作检查故障,排除公司网络、DNS解析、外部网络攻击、机房网络问题等环节,最后判断是网站外网核心交换机可能出现故障。

  1. 15:47分,运维部工程师从公司出发到机房现场进行问题排查。

4. 16:05分,运维部工程师到达现场,使用笔记本接入核心交换机,查看交换机工作状态,发现有大量报错,经判断为核心交换机堆叠出线故障,造成交换机无法正常工作。工程师将交换机堆叠线缆重新安装,并重启交换机 。

  1. 16:15分,核心交换机完成重启,故障报错消失,网站开始恢复提供访问。

 

四.波及全国的DNS根域问题

 

DNS 出了问题,谁也跑不了,都受影响。

最近一次DNS事故是,2014年1月21日,继上午腾讯16项服务出现故障(与我司有关的是QQ联合登录登不进网站了)后,下午15点10分~16点30分,全国所有通用顶级域的根出现异常,导致大量国内网民无法访问 .com 域名网站,很多网站被解析到 65.49.2.178 这一美国IP地址。由于公网访问我司以及支付宝,均需要域名解析,所以损失无法估计。

 

据报载,近年来中国大规模的网络瘫痪事故有五起,包括2006年台湾地震震断海底光缆事故、2009年暴风DNS受攻击导致大范围断网、2010年百度域名被劫持事件、2011年中国电信宽带维修导致大规模网络故障、以及2014年1月21日DNS域名根服务器故障。

 

本文由6165电子游戏-6165金沙总站 登录平台发布于运输物流,转载请注明出处:经历不可抗力是一种什么体验,发布首日晚

关键词: