酷播亮新聞
最棒的知識補給站

60天內,一個機房起火,四大雲巨頭掛機,如何運維避免宕機厄運?

文章摘要: 運維管理與技術、服務實力相得益彰資料中心的智慧自動化運維並非意味著運維中不需要人

前天上午,騰訊旗下雲端計算服務在廣東地區宕機,導致部分使用者資源訪問失敗,控制檯登入異常,多家網站無法訪問。故障持續3個小時,目前,此次故障帶來的損失及其使用者賠償問題尚無定論。據悉,該事故系運營商光纜中斷所致,截止昨日11時40分,騰訊雲表示故障已經恢復。

然而,這不是個案。一個多月時間裏,接二連三地爆出了一樁樁驚心動魄的事故:

  • 6月初,北京亦莊某資料中心機房柴油機發生起火;
  • 6月28日,阿里雲官網控制檯和使用部分產品功能出現問題;
  • 7月17日,AWS管理控制檯間歇性失靈;
  • 7月18日,谷歌雲平臺全域性負載均衡服務發生中斷;
  • ……

以阿里雲故障為例,其事後宣告直指,這也是其在運維上的一個操作失誤。結果導致阿里雲的多個產品在約1個小時期間均無法使用,有使用者直言:中國網際網路半壁江山,驚魂整整一小時!

看來,高溫模式之下,資料中心與雲端計算領域也在經受著前所未有的運維考驗。

智慧化自動化運維,並非無人介入,還要借力人工智慧

運維無小事,尤其是對於充當重要基礎設施角色的資料中心而言,運維工作更是絲毫不能懈怠。近十多年來,資料中心已從只有UPS、空調和IT裝置的普通機房時代,進入到囊括各種新技術和應用的新時代。這樣一來,規模化之下,風險集中,資料中心的運維管理面臨更大的挑戰,運維難度也「更上一層樓」,特別是面對不斷擴充和升級的資料中心,基礎設施安全、穩定的執行顯得日益重要。

在資料中心領域,講究的是「三分技術,七分管理」。因此,資料中心如何減少人為參與的機會,並對人為行為進行科學管控,正是當下運維工作的重中之重,而近年來建設投產的新一代資料中心往往對此頗有發言權。其中,8月底投產運營的中國電信開普勒(佛山)資料中心在智慧自動化運維之路上進行了積極探索。

如今,大資料、物聯網、自動化和機器學習等創新技術改變了資料中心傳統的運維管理模式。新一代資料中心運維離不開信息系統的支撐,建立一套高度智慧化的信息系統,是提高運維效率、實現運維智慧自動化的關鍵。

其中,執行監控平臺是實現運維管理系統的基礎和前提。爲了保障資料中心的安全,運營商需要對資料中心裏面的溫溼度、電能、水流及風量等進行全面實時的監控,以期發現潛在問題。在開普勒資料中心裏,監控中心執行了紅外溫度監測、電能質量監測、超聲波水流監測、風量監測等資源的監控,並額外增加關鍵裝置監控,告警資訊直接在監控中心展示,確保關鍵裝置告警資訊第一時間被運維人員獲取,有備無患,少故障處理時間,提升工作效率;與此同時,防患於未然,科學運用這些資料還可以為應急措施及節能措施提供可靠的指導依據。

以人工智慧技術為依託,監控中心採用了統一規範編碼、名稱、資料型別、單位精度、更新頻率、儲存要求等資料來源標準,資料中心各種資源與裝置的執行狀況一目瞭然,既提升了運維的工作效率,又很大程度上避免了機房出現區域性熱點、機房冷熱不均、區域性熱點等不良現象發生。

只有監控平臺仍是遠遠不夠的,想要實現更精細化的管理,還少不了智慧管理平臺,由此PC端搭配移動APP的智慧管理方式應運而生。據悉,開普勒資料中心在業界首創性地採用了全自動化二維碼巡檢系統,可自定義巡檢路線,自動生成巡檢任務,手機APP自動接收巡檢任務,並一鍵生成巡檢報告,自動評估巡檢健康度,實現了流程自動化與智慧巡檢,與此同時,提升了資料中心的安全性,提升整體的執行效能。

需要指出的是,資料中心的智慧自動化運維並非意味著運維中不需要人,而是約有30%-40%的運維是標準化工作,不需要人工干預,只要設定好了引數和步驟,就能解決問題、實現自動化。然而,資料中心完全採用人工智慧還有一段很長的路要走——資料中心裝置廠商施耐德電氣公司專家指出。

此外,另外60%-70%的工作仍需要有人工介入,因為這一部分工作涉及到非標準化運維,此時考驗的正是運維團隊的專業性——在嚴格執行7*24小時運維值班制度、每月一次設施裝置保養、每季度一次裝置廠家維護保養等運營制度之下,開普勒資料中心提供了完整、高效、可靠的資料運營及網路服務。據悉,開普勒資料中心將於8月底投運第一批機架774個分別在2-3層模組機房,平均20A的機櫃,4-7層可提供客戶定製。

運維管理與技術、服務實力相得益彰,缺一不可

誠然,百密也難免有一疏。資料中心資源的集中化趨勢顯著,一旦發生故障,或是一個漏洞被利用,就可能會造成資料中心較大規模的資料丟失甚至裝置宕機事故。即使幾分鐘的停機時間也可能對企業造成災難性影響,災備應急方案對企業的穩定運營至關重要。以開普勒資料中心為例,真正實現了高可靠、真雙路市電,並配有2N方式供電的UPS系統,而柴油發電機也足以提供不低於8小時的供油能力,製冷系統的冷凍水/冷卻水也採用高可靠性的雙環路管道。這樣的技術實力之下,又嚴苛遵循每年度兩次消防演練,每年度兩次柴油發電機帶載執行、每年度一次機房應急演練等規章制度,客戶則可高枕無憂地享受資料託管服務。

智慧自動化運維的重要性不言而喻,高效智慧的資訊化運維管理系統也將扮演越來越重要的角色。然而,資訊化運維管理系統並不是孤軍作戰的,只有與科學的設計理念、合理的結構佈局、雄厚的技術服務實力搭配在一起,相得益彰,才能實現智慧、高效、安全的運維目標。

開普勒資料中心正是這樣軟硬實力兼具的新一代資料中心典範。依託合作伙伴中國電信雲網融合戰略,直連163骨幹國際出口,背靠股東佛山電建集團安全可靠的電力資源,佛山開普勒資料中心在設計中踐行了 「綠色」、「節能」、「環保」的理念,採用了獨立的油機樓,高效通風及降噪,並借力流動動力學原理,輔助了機房負載的佈局設計,為未來福能園區冷熱電三聯供接入預留介面,且空調冷凝水實現了回收利用,建設標準為中國電信五星級、T3+機房,旨在成為珠三角地區高科技、資訊化、綠色環保的新一代資料中心,重要的骨幹網路節點,面向全省、港澳臺乃至全國和東南亞地區,為公眾、政府、企業提供全方位的資料服務。

運維市場價值凸顯,資料中心借力彎道超車

實際上,運維往往是資料中心裏最重要的工作,但卻時常被人所忽略,主要因為運維的工作短期看不到收效,只有出了故障時,運維纔會被點名背黑鍋。伴隨著大資料技術發展,特別是新型伺服器的不斷涌現,針對基礎設施層的要求也越來越高,資料中心安全、穩定、可靠、綠色執行的基本要求早已難以滿足使用者需求,運營商也應順勢而為,積極拓展業務範疇,創新運維管理模式。

據《2018年中國企業IT運維管理市場報告》顯示,中國資料中心運維服務市場規模預計到2020年將達到2744.7億元,年複合增長率為16.4%。無疑,智慧化將是中國資料中心運維管理的必然趨勢,運維管理也將從被動響應變為主動防禦,實現從IT成本中心,向IT服務中心和IT價值中心轉變,這期間,那些兼具軟硬實力的資料中心將會一騎絕塵,迅速搶佔市場。

如有侵權請來信告知:酷播亮新聞 » 60天內,一個機房起火,四大雲巨頭掛機,如何運維避免宕機厄運?