昨晚,谷歌全球宕機(jī):硬盤滿了
物聯(lián)網(wǎng)智庫 原創(chuàng)
轉(zhuǎn)載請注明來源和出處
導(dǎo) 讀
12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。據(jù)悉,谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報(bào)任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。
12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。
綜合多家媒體報(bào)導(dǎo),監(jiān)察故障的網(wǎng)站“Downdetector”顯示了超過9000個報(bào)告YouTube出現(xiàn)問題的用戶報(bào)告。當(dāng)用戶嘗試登錄YouTube時(shí),會出現(xiàn)一只猴子,并看到“出了點(diǎn)問題”的字句。
除了YouTube,谷歌旗下Gmail郵箱,Google日歷、Google Drive、Google Search等服務(wù)也都受到影響,但大部分搜索引擎業(yè)務(wù)仍然完好,影響波及美國、歐洲、印度、加拿大、南非、中南美洲國家、澳大利亞和其他一些國家的用戶。
據(jù)英國《衛(wèi)報(bào)》當(dāng)天報(bào)道,Google服務(wù)的大面積癱瘓大約從格林尼治標(biāo)準(zhǔn)時(shí)間(GMT)12月14日上午11時(shí)50分開始(北京時(shí)間19時(shí)50分),影響了公司旗下絕大多數(shù)的服務(wù)。而谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報(bào)任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。12時(shí)25分,谷歌才終于發(fā)現(xiàn)了問題。
隨后,Google Cloud在推特上回應(yīng):宕機(jī)是由于硬盤滿了。
谷歌宕機(jī),由來已久
據(jù)谷歌官方聲明,本次事故原因是由于服務(wù)器上的硬盤空間分配出了問題,導(dǎo)致認(rèn)證系統(tǒng)出了故障。其實(shí),早前就有消息傳出,谷歌云端運(yùn)算服務(wù)容量存在問題。前段時(shí)間,谷歌宣布明年停止免費(fèi)照片上傳容量, 并鼓勵訂閱Google One也能說明這一點(diǎn)。
時(shí)至今日,谷歌終于還是栽了。
其實(shí),這已經(jīng)是谷歌今年第3次宕機(jī)事件了。9月25日,谷歌就曾上演過一次全球宕機(jī),當(dāng)時(shí)谷歌系統(tǒng)癱瘓多半集中在美國東岸,Gmail、YouTube、谷歌云端在系統(tǒng)宕機(jī)時(shí),不斷有用戶持續(xù)嘗試進(jìn)入,但都無法順利使用。
再往前,美東時(shí)間6月2號,基于谷歌云架構(gòu)服務(wù)的諸多谷歌服務(wù)也在全球范圍內(nèi)遭遇大規(guī)模中斷,宕機(jī)近4小時(shí)。據(jù)悉,不僅是Snapchat、Vimeo、Shopify、Pokemon GO等外部服務(wù),包括如YouTube、Gmail、Google Search等谷歌自家服務(wù)的運(yùn)行也受到了影響。
美國東海岸用戶率先報(bào)告了這個問題,同時(shí),宕機(jī)監(jiān)控器DownDetector的報(bào)告表明,北美、英國、歐洲、南美等全球多地也受此影響。對于這個問題,谷歌公司表示是因?yàn)榫W(wǎng)絡(luò)系統(tǒng)出現(xiàn)了問題,以后一定加強(qiáng)管理。
宕機(jī)的代價(jià)有多大?或許無人知曉確切的答案,但是可以粗略的估算一下。2013年谷歌曾發(fā)生過一次5分鐘的宕機(jī),谷歌當(dāng)年第二季度營收達(dá)到141億美元,相當(dāng)于每分鐘營收10.8萬美元,換句話說,谷歌所有服務(wù)宕機(jī)5分鐘,其直接損失就是54.5萬美元,還不算由此帶來的企業(yè)商譽(yù)影響和對客戶業(yè)務(wù)的間接影響。
由此算來,谷歌單單今年的幾次宕機(jī),所帶來的損失就已經(jīng)難以估量。而這其中,幾乎所有問題都圍繞其云架構(gòu)服務(wù)展開,而云架構(gòu)講究多地多活,防止單點(diǎn)故障。一個服務(wù)器出故障應(yīng)該可以在幾分鐘內(nèi)檢測到,然后引流到其它服務(wù)器,同時(shí)啟動休眠的服務(wù)器。
可見,谷歌云的市場占有率始終干不過前面兩家大廠,也是有原因的。
主流廠商,競相爭“宕”
其實(shí),不只是谷歌,微軟也曾在云和硬盤方面發(fā)生過事故。
今年9月初,Windows 10的更新就出現(xiàn)了翻車事故。據(jù)了解,微軟在更新中修復(fù)了Windows 10 2004的一些bug,但同時(shí)又引入了幾個新的問題,導(dǎo)致用戶頻繁遇到PC崩潰、循環(huán)重啟等情況。
而在之后的修復(fù)過程中,微軟除修復(fù)一些常規(guī)bug,還特意更新解決了NVME固態(tài)硬盤引起的系統(tǒng)崩潰。據(jù)了解,Windows和NVMe固態(tài)硬盤的兼容問題一直都很差。此前,Windows 7就不支持使用NVMe的固態(tài)硬盤,因此裝有NVME固態(tài)的電腦需要單獨(dú)集成相關(guān)驅(qū)動才可使用。而即使此次修復(fù),由于存儲設(shè)備兼容性問題,也不是每個人的電腦都能夠收到此次更新。
在云端,微軟云計(jì)算服務(wù)Azure的主要組件在2014年8月就發(fā)生全球大范圍宕機(jī)。微軟表示,Azure服務(wù)當(dāng)時(shí)處于中斷狀態(tài),原因是位于全球多個數(shù)據(jù)中心的至少6個主要Azure組件無法提供服務(wù)。Azure允許企業(yè)獲取計(jì)算資源,通過互聯(lián)網(wǎng)運(yùn)行程序。
更令人震驚的是,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導(dǎo)致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動化措施強(qiáng)制關(guān)閉了系統(tǒng)電源以防止機(jī)器因過熱造成損壞。這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務(wù)都受到影響,并且恢復(fù)相關(guān)存儲服務(wù)經(jīng)歷了很長時(shí)間。
故障從9月4日上午9點(diǎn)(北京時(shí)間9月4日17:00)左右開始出現(xiàn)問題,一直持續(xù)到9月5日13點(diǎn)左右(北京時(shí)間9月5日21:00左右),整個故障中斷時(shí)間超過 24 小時(shí)。
除了谷歌和微軟,即使全球最領(lǐng)先的亞馬遜云也曾屢次三番出現(xiàn)故障。
據(jù)外媒報(bào)道,2020年11月25日,亞馬遜云端服務(wù)Amazon Web Services(AWS)遭遇了持續(xù)數(shù)小時(shí)的故障,導(dǎo)致部分網(wǎng)站和服務(wù)系統(tǒng)崩潰。AWS的服務(wù)狀態(tài)頁面上的通知顯示,因其處理大量數(shù)據(jù)流的服務(wù)器Kinesis出現(xiàn)問題,導(dǎo)致一些網(wǎng)站的“錯誤率增加”,亞馬遜已經(jīng)對該問題進(jìn)行了修復(fù),但完全恢復(fù)還需要一段時(shí)間,并貼出了當(dāng)前受到影響的服務(wù)。
值得一提的是,正值北美“黑色星期五”前夕,AWS宕機(jī)可能影響到亞馬遜的電商業(yè)務(wù)。有賣家稱,其亞馬遜上的訂單數(shù)據(jù)突然急劇下降,甚至廣告費(fèi)用也出現(xiàn)了異常。
此前,AWS云存儲服務(wù)S3也曾在2017年出現(xiàn)大宕機(jī),該錯誤持續(xù)了4個小時(shí),彼時(shí)AWS解釋稱該故障是由于一名程序員在調(diào)試系統(tǒng)的時(shí)候,運(yùn)行了一條原本打算刪除少量服務(wù)器的腳本,結(jié)果輸錯了一個字母,導(dǎo)致大量服務(wù)器被刪。被錯誤移除的服務(wù)其中運(yùn)行著兩套S3的子系統(tǒng),從而導(dǎo)致S3不能正常工作,S3 API處于不可用狀態(tài)。
不只是國外巨頭,國內(nèi)包括阿里云、華為云在內(nèi)的業(yè)內(nèi)巨頭也曾出現(xiàn)宕機(jī)事故。
2020年4月10日上午,大批網(wǎng)友在微博反饋華為云崩了,出現(xiàn)登錄異常、管理后臺無法訪問等情況。從網(wǎng)友曬圖來看,不少使用云服務(wù)的后臺都出現(xiàn)了“服務(wù)器暫時(shí)過載或處于維護(hù)中,請稍后重試!薄敖(shù)據(jù)庫連接時(shí)出錯”等提示。
2019年3月20日下午,阿里系多款產(chǎn)品短時(shí)無法正常運(yùn)作,時(shí)長約10分鐘,涉及App包括淘寶、天貓、淘寶直播、閑魚等。新浪科技親測發(fā)現(xiàn),淘寶和閑魚均出現(xiàn)“重新加載”提示。
讓外界頗感意外的是,阿里對外僅答復(fù)“修好了”,并未公布阿里系應(yīng)用全線“崩潰”的原因。另外,僅僅1天后,3月21日,部署在阿里云上的鐵路12306部分服務(wù)又一次發(fā)生故障。當(dāng)用戶搜索車票時(shí)系統(tǒng)顯示“很抱歉,查詢失敗,您可以稍后點(diǎn)擊下面按鈕重試”。
由此可見,在越來越依賴“云計(jì)算”的今天,目前主流的云服務(wù)廠商依然不能確保萬無一失。然而,在萬物上云的今天,云服務(wù)一旦出現(xiàn)問題,所將造成的損失也將更加巨大。
如何避免云服務(wù)/云平臺故障給自身業(yè)務(wù)帶來損失?
毫無疑問,云服務(wù)在未來將成為電力一樣的新型基礎(chǔ)設(shè)施。然而,正如人類至今也沒做到絕對避免停電一樣,云服務(wù)在漫長的運(yùn)行過程中發(fā)生故障亦在所難免,我們所要做的就是避免停電損失擴(kuò)大化。
對于大部分業(yè)務(wù)來說,云平臺的故障造成的損失并不致命。因此,我們可以通過多重保障,以避免云平臺故障造成的損失擴(kuò)大化,從而讓損失可控。例如:
核心數(shù)據(jù)定期異地備份,尤其需要保證備份的可用性。
保留少量自有服務(wù)器或其它云平臺主機(jī),一旦發(fā)生故障,及時(shí)發(fā)布公告告知用戶。
組織運(yùn)維人員配合云平臺恢復(fù)服務(wù),核心運(yùn)維保持隨時(shí)在線。
及時(shí)對損失做出評估。
當(dāng)然,在消費(fèi)等服務(wù)之外,包括智慧醫(yī)療、智能交通等服務(wù)也將成為未來的主流應(yīng)用場景之一。在這些領(lǐng)域,即使細(xì)微延遲都可能導(dǎo)致“人命關(guān)天”。對此,應(yīng)該在邊緣側(cè)部署相對應(yīng)的分析與計(jì)算能力,通過云邊協(xié)同,保障場景的連續(xù)性、穩(wěn)定性。
隨著科技的不斷發(fā)展,未來或?qū)⒂性絹碓蕉嗟墓收习l(fā)生。為此,雞蛋不能裝在一個籃子里,請?zhí)崆白龊肞lan B。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?