一份令人警醒的網(wǎng)絡(luò)重大故障報(bào)告
2018年12月6日,對于日本運(yùn)營商軟銀,簡直是噩夢般的一天。
下午13點(diǎn)39分,軟銀東日本和西日本兩大中心機(jī)房的18臺4G核心網(wǎng)網(wǎng)元突發(fā)故障,造成全網(wǎng)大量用戶無法正常通信。
軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團(tuán),整整花了近兩個(gè)小時(shí)才定位出故障原因,直到下午18點(diǎn)04分才恢復(fù)故障。
本次故障歷時(shí)4小時(shí)25分,共計(jì)造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。
事故發(fā)生后,軟銀高層向用戶公開道歉,并承諾以后將加強(qiáng)設(shè)備備份管理,嚴(yán)防事故再次發(fā)生。
由于故障發(fā)生在白天,影響范圍廣,對軟銀造成了極大的負(fù)面影響,股票大跌,5天內(nèi)超過1萬戶用戶解約。
估計(jì)連日本總務(wù)省也驚呆了,直到20天后,也就是今天,才官方公布確認(rèn)“收到軟銀提交的嚴(yán)重事故報(bào)告”。
以下內(nèi)容來自軟銀的故障報(bào)告。
概要
發(fā)生時(shí)間:
2018年12月6日 13:39至18:04(4小時(shí)25分鐘)
影響內(nèi)容:
4G LTE移動電話無法進(jìn)行語音通話和數(shù)據(jù)通信。
部分LTE 固話和家庭Wi-Fi無法正常使用
由于4G網(wǎng)絡(luò)故障,導(dǎo)致3G網(wǎng)絡(luò)擁塞
影響范圍:
全國(約3060萬線用戶)
故障原因:
4G核心網(wǎng)設(shè)備(MME)軟件缺陷導(dǎo)致。
故障原因分析
故障具體原因?yàn)楹诵木W(wǎng)網(wǎng)元MME(移動管理實(shí)體),即4G分組交換設(shè)備的數(shù)字證書(TSL證書)過期導(dǎo)致。
TLS(Transport Layer Security,傳輸層安全)是為網(wǎng)絡(luò)通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。
軟銀解釋到,他們在東日本和西日本兩大中心機(jī)房合計(jì)部署了18臺分組交換設(shè)備,這些設(shè)備都是按照遠(yuǎn)期需求配置,有足夠的負(fù)荷冗余量,目前僅使用了30%~40%的負(fù)荷。
同時(shí),18臺設(shè)備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設(shè)備發(fā)生故障都不會影響服務(wù)正常提供。
但是,數(shù)字證書過期這種事就不一樣了。
TSL數(shù)字證書過期,意味著系統(tǒng)無法識別那些連接分組交換設(shè)備的其他設(shè)備是否合法,此時(shí),系統(tǒng)檢測到異常,根據(jù)軟銀現(xiàn)網(wǎng)設(shè)置,會采用重啟的方式來試圖恢復(fù)。
不過,數(shù)字證書過期這種事,即使重啟N次,也是無法恢復(fù)的,因此,就發(fā)生了不斷重啟的死循環(huán),從而導(dǎo)致了這次重大故障。
此外,由于4G網(wǎng)絡(luò)服務(wù)中斷,導(dǎo)致大量用戶轉(zhuǎn)移到3G網(wǎng)絡(luò),這也造成3G網(wǎng)絡(luò)嚴(yán)重?fù)砣?/p>

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞