在中國信息通信研究院與中國通信企業(yè)協(xié)會(huì )共同主辦的第二屆“鼎新杯”數字化轉型應用大賽中,北京移動(dòng)和嘉為藍鯨聯(lián)合申報的“北京移動(dòng)云計算智能運維平臺建設項目”,從兩千余個(gè)申報案例中脫穎而出,最終榮獲大賽二等獎。
中國移動(dòng)通信集團北京有限公司(下稱(chēng)北京移動(dòng))成立于1999年,隸屬于中國移動(dòng)通信集團公司,秉承“正德厚生,臻于至善”的企業(yè)核心價(jià)值觀(guān),緊密?chē)@“做世界一流企業(yè),成為移動(dòng)信息專(zhuān)家”的戰略定位,以卓越品質(zhì)鍛造一流信息服務(wù),用創(chuàng )新精神努力實(shí)現從優(yōu)秀向卓越的新跨越,著(zhù)力推動(dòng)“移動(dòng)改變生活”。
一、初探自動(dòng)化,轉型亟需新動(dòng)能
自成立以來(lái),北京移動(dòng)始終保持行業(yè)信息化領(lǐng)跑者的身份,堅持“以追求卓越,讓數字化生活更美好”為使命,志愿成為“客戶(hù)首選的數字化服務(wù)的引領(lǐng)者”。為快速響應業(yè)務(wù)需求,IT團隊前期從技術(shù)平臺建設切入,使用開(kāi)源軟件搭建了基礎的自動(dòng)化運維系統,實(shí)現了腳本和文件的批量自動(dòng)化,但仍存在如配置數據覆蓋不全、作業(yè)執行管控手段欠缺、運維場(chǎng)景化能力不足、技術(shù)架構相對簡(jiǎn)單等問(wèn)題。
為提升系統穩定性,保障業(yè)務(wù)穩定運行,北京移動(dòng)攜手嘉為科技旗下研運品牌嘉為藍鯨,打造智能運維平臺,建設配置數據管理、監控管理、日志管理、統一告警管理、自動(dòng)化巡檢、運營(yíng)服務(wù)報表等運維場(chǎng)景,實(shí)現管理流程創(chuàng )新,完善智能運維能力,向著(zhù)具備業(yè)務(wù)價(jià)值的運維模式邁進(jìn)。
二、“平臺+應用”,高效擴展應用場(chǎng)景
通過(guò)PaaS平臺+SaaS場(chǎng)景的方式構建一體化運維管理體系,1個(gè)基礎平臺融合了公共能力,支撐場(chǎng)景應用的運行、協(xié)同、服務(wù)。場(chǎng)景應用包括了配置管理CMDB、IT監控告警、日志平臺、自動(dòng)化巡檢、運營(yíng)服務(wù)報表等5大應用,后續可快速、靈活擴展各類(lèi)應用。
1、平臺規模:當前生產(chǎn)環(huán)境按支持納管200+節點(diǎn)服務(wù)器,納管8套應用系統,部署運行16個(gè)運維場(chǎng)景工具;
2、平臺集成:與4A系統集成對接,與郵件系統集成實(shí)現消息通知;
3、統一管控:采用管控平臺納管不同網(wǎng)絡(luò )區域的主機。
三、提速運維效能,保障業(yè)務(wù)穩定運行
1、CMDB自動(dòng)采集,資源統一管理
構建云運維基石CMDB,實(shí)現資產(chǎn)數據的集中管理,為應用提供各種運維場(chǎng)景的配置數據服務(wù)。通過(guò)提供配置管理服務(wù),以數據和模型相結合映射應用間的關(guān)系,保證數據的準確和一致性;并以整合的思路推進(jìn),最終面向應用消費,發(fā)揮配置服務(wù)的價(jià)值,實(shí)現IT資源集中規范化管理和消費。
·云平臺A創(chuàng )建模型涵蓋主機、業(yè)務(wù)、云虛擬資源、安全設備、基礎設施、網(wǎng)絡(luò )、服務(wù)器、云平臺等共30+個(gè);同時(shí)完成VMware、華為云資源的接入;納管主機120+、接入業(yè)務(wù)6個(gè);配置發(fā)現配置采集任務(wù)運行次數270+;
·云平臺B創(chuàng )建模型包括數據中心、機房、機柜等共計30+個(gè),完成模型數據錄入;
·自動(dòng)采集錄入虛擬機實(shí)例近1600條,計算服務(wù)器160+條,存儲服務(wù)器110+條,虛擬資源卷1200+條。
2、海量對象納管,一體化監控升級
基于平臺豐富的數據采集、數據處理及插件擴展能力,集成現有監控平臺,實(shí)現對各類(lèi)網(wǎng)絡(luò )設備、主機設備、存儲設備、中間件、數據庫、關(guān)鍵應用進(jìn)程的監控告警。通過(guò)集中管理告警信息,并采取統一的收斂、屏蔽、關(guān)聯(lián)分析、自動(dòng)化處理等手段提高告警有效性,減少誤告與漏告,實(shí)現告警從接入、收斂、處理、分派的閉環(huán)管理,提升了告警處理效能,保障系統穩定運行。
·監控接入:納管4個(gè)業(yè)務(wù)系統,共計120+臺主機監控、4個(gè)網(wǎng)絡(luò )端口撥測監控、20+個(gè)進(jìn)程監控,3個(gè)自定義腳本監控,共計70+個(gè)監控指標;
·告警接入:告警接入華為云、Zabbix、VMware等13個(gè)告警源,完全覆蓋1、2層硬件監控,3層監控覆蓋4個(gè)業(yè)務(wù)系統。
3、日志聯(lián)動(dòng)告警,網(wǎng)絡(luò )健康隨時(shí)保障
完成日志監控數據告警配置,可通過(guò)網(wǎng)絡(luò )設備的日志數據分析來(lái)獲取網(wǎng)絡(luò )設備健康狀態(tài),同時(shí),對網(wǎng)絡(luò )設備的日志級別進(jìn)行數量統計及監控展示面板。共接入70+個(gè)網(wǎng)絡(luò )日志數據源,創(chuàng )建10個(gè)網(wǎng)絡(luò )任務(wù)接入任務(wù),5個(gè)網(wǎng)絡(luò )日志數據儀表盤(pán),3個(gè)日志關(guān)鍵字告警任務(wù)。
4、巡檢自動(dòng)化,安全防范更高效
通過(guò)自定義巡檢腳本和腳本對象,進(jìn)行及時(shí)性、周期性等巡檢工作的自動(dòng)化執行,替代運維人員日常手工巡檢,可根據不同運維角色,自定義不同的巡檢工作計劃,并生成標準可視化報告。輔助運維團隊全面了解各類(lèi)軟硬件資源的生產(chǎn)健康狀態(tài),從全量的生產(chǎn)系統中提前發(fā)現隱患,保障業(yè)務(wù)穩定性。
·巡檢模版:完成4個(gè)標準化主機巡檢腳本,Linux巡檢模版3個(gè),各類(lèi)巡檢指標62個(gè);
·巡檢任務(wù):配置巡檢任務(wù)3個(gè),32個(gè)主機巡檢對象。
5、數據可視化,IT運行全掌握
北京移動(dòng)原先并未使用專(zhuān)門(mén)的報表工具,用Excel手工記錄資源資產(chǎn)信息,工作量大且時(shí)效性低,準確率也難以保證,制作、維護、查看均不方便。本項目基于藍鯨平臺,打造了一款輕量級、可自主分析的報表制作工具,實(shí)現對各類(lèi)數據源的接入,幫助運維人員全方位掌握IT資源的運行狀態(tài)及資源使用情況。
·云平臺A:完成對接華為和VMware數據接口獲取數據。在運營(yíng)服務(wù)報表中創(chuàng )建華為報表數據源9個(gè),VMware數據源7個(gè),制作華為運維報表8個(gè);制作VMware運維報表5個(gè),包括日報,周報和月報,并實(shí)現字段篩選展示報表數據;
·云平臺B:完成5個(gè)數據文件的解析,并封裝為報表數據源接口,并根據需求生成5個(gè)類(lèi)別共8張自動(dòng)化運維報表,可根據時(shí)間或對象名稱(chēng)進(jìn)行篩選展示。
在數字化轉型浪潮中,北京移動(dòng)率先出擊,打造了面向云計算運維場(chǎng)景的智能運維平臺,推進(jìn)更精細化、自動(dòng)化、智能化運維體系建設,強化系統風(fēng)險和故障的早發(fā)現、早定位、早處置,保障業(yè)務(wù)穩定運行,并建設完善的運維開(kāi)發(fā)能力,實(shí)現從傳統運維向運維開(kāi)發(fā)的轉型。
相關(guān)稿件