加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
隨著銀行業(yè)務(wù)的快速發(fā)展,銀行業(yè)邁入轉(zhuǎn)型創(chuàng)新關(guān)鍵期,如何對銀行關(guān)鍵系統(tǒng)實現(xiàn)自主可控顯得至關(guān)重要。與此同時,以云計算、大數(shù)據(jù)為代表的新興技術(shù)快速發(fā)展,更給數(shù)據(jù)中心運維工作帶來全新挑戰(zhàn)。
當前,工商銀行的大型主機系統(tǒng)日均承載交易量達到5億筆,系統(tǒng)穩(wěn)定運行的壓力巨大。此外,IT運行的基本目標是穩(wěn)定和安全,核心目的是為業(yè)務(wù)服務(wù),如何改變大型主機傳統(tǒng)的運維模式,結(jié)合分布式、大數(shù)據(jù)、人工智能等新興技術(shù)的應(yīng)用,提升主機運維的自動化、智能化水平,是大型主機運維人員的著重發(fā)力點。
近幾年,工商銀行數(shù)據(jù)中心(上海)大型主機運維團隊在運維自動化、智能化方面做了一些嘗試。希望借助新技術(shù)逐步夯實運維基礎(chǔ),提升運維的自主可控水平,尋找保障業(yè)務(wù)安全穩(wěn)定的有效路徑。
一、夯實基礎(chǔ),積極布局智能運維平臺
隨著系統(tǒng)架構(gòu)的不斷演變升級,不論是系統(tǒng)環(huán)境的數(shù)量還是整體系統(tǒng)架構(gòu)復雜度,相較以往都有較大幅的增長。以往的主機自動化工具開發(fā)及運維方式,與當前龐大復雜系統(tǒng)架構(gòu)下的運維管理需求相比,匹配度正在逐年下降,疲態(tài)漸顯,缺點漸露,這主要體現(xiàn)在可維護性差、復用程度低、主機配置自動化率低、各工具間缺乏有效聯(lián)動等,過多地依賴于技術(shù)人員特別是有著豐富經(jīng)驗的技術(shù)人員的專業(yè)素質(zhì)。為了改變這個局面,中國工商銀行數(shù)據(jù)中心(上海)大型主機運維團隊展開了多維度多方面的基礎(chǔ)性探索和改造。
二、運維數(shù)據(jù)標準化
第一步:對各類性能、監(jiān)控、運行數(shù)據(jù)的梳理、整合、入庫,標準化處理
將原本分散的性能類事件、監(jiān)控報警、運行狀態(tài)數(shù)據(jù)等內(nèi)容整合,實現(xiàn)數(shù)據(jù)統(tǒng)一規(guī)劃與存儲。然后對相似的指標進行標準化處理,對齊時間片,規(guī)范數(shù)據(jù)單位,統(tǒng)一格式,易于管理與抽取。
第二步:建立大數(shù)據(jù)平臺,為分析挖掘建立基礎(chǔ)
2016年通過搭建主機大數(shù)據(jù)平臺,完成了主機大數(shù)據(jù)池建設(shè)。結(jié)合大數(shù)據(jù)分析思維,著重對各種關(guān)聯(lián)關(guān)系的分析和挖掘,對交易進行實時分析,研究故障規(guī)律,完成了主機資源智能監(jiān)控和主機系統(tǒng)健康模型的研究。通過多角度分析主機監(jiān)控、性能、業(yè)務(wù)等方面歷史數(shù)據(jù),充分發(fā)揮這些數(shù)據(jù)在安全生產(chǎn)以及支撐業(yè)務(wù)等方面的價值。
第三步:數(shù)據(jù)可視化展示
通過建立統(tǒng)一的運維門戶,在PC端將各類監(jiān)控、報表、信息查詢等操作統(tǒng)一了入口,向運維人員提供可定制化的欄目。同時利用數(shù)據(jù)可視化技術(shù),將原先的一些報表內(nèi)容展現(xiàn)為界面友好、可視化程度較高的圖標,用于全方位地了解生產(chǎn)運行態(tài)勢。
三、監(jiān)控體系智能化
監(jiān)控系統(tǒng)對于關(guān)鍵系統(tǒng)的運維工作至關(guān)重要,工商銀行于2006年開始搭建統(tǒng)一的集中監(jiān)控體系,該體系涵蓋了性能監(jiān)控、事件報警、統(tǒng)計報表等內(nèi)容,在日常運維中發(fā)揮了巨大作用,但隨著業(yè)務(wù)負載的復雜性、突發(fā)性以及系統(tǒng)架構(gòu)的日益復雜等因素,傳統(tǒng)的集中監(jiān)控體系的不足日益凸顯,主要表現(xiàn)為:監(jiān)控閾值相對固定單一,報警覆蓋面較廣但誤報較多,無進一步處置建議等問題。
而對于監(jiān)控體系的智能化改造,主要從三方面展開。
1.對關(guān)鍵監(jiān)控對象采用動態(tài)閾值監(jiān)控
主要目標是要對各個系統(tǒng)關(guān)鍵指標的合理區(qū)間進行預估,利用預測區(qū)間可以較好的判定指標當前運行是否處于正常范圍。因傳統(tǒng)ARIMA模型對于預測大量數(shù)據(jù)以及周期性數(shù)據(jù)上的局限性,我們對這個模型進行了改造。改造后的模型可以提前24小時預測次日所有時點的指標區(qū)間。整體預測有效性達到95%以上,高峰期預測誤差下降至4.3%,每日峰值預測誤差下降至3.98%,取得了不錯的效果。
通過引入大數(shù)據(jù)和機器學習技術(shù),監(jiān)控系統(tǒng)有效地提升系統(tǒng)自動化判斷異常的能力。通過選取隨機森林、線性回歸、XGBoost、深度學習ANN等模型,根據(jù)指標的歷史數(shù)據(jù),自動給出當前系統(tǒng)狀態(tài)下各指標的合理值,利用合理值與實時值的差別量化系統(tǒng)異常。目前該模型已經(jīng)對部分重要的地址空間運行狀態(tài)上線生產(chǎn),并取得了良好的成效。
2.對報警事件的分析壓降
通過實施監(jiān)控信息與性能指標多維度組合、動態(tài)閥值設(shè)置、取消冗余監(jiān)控、信息折疊等優(yōu)化措施,實現(xiàn)報警壓降從月均2371條下降到1361條,降幅43%。夜間報警量從2017年12月的221條下降到月均141條,成效顯著,報警總量得到了控制,減輕了日常運維人員的壓力。受益于模型的引入,對一些原本被漏報的事件也能夠準確報出,報警有效性得到提升。
3.監(jiān)控和應(yīng)急有效聯(lián)動
再結(jié)合實時獲取的系統(tǒng)事件,監(jiān)控系統(tǒng)能夠及時準確地提示系統(tǒng)隱患,自動提示問題發(fā)生的可能原因,進一步關(guān)聯(lián)至對應(yīng)的應(yīng)急預案,為問題處理提供快速有效的應(yīng)急措施。
四、日常操作自動化
主機運維工作沉重而繁瑣,稍有不慎,便會導致不可估量的損失。究其原因,人工操作仍然是主要運維方式,知識和技能也主要依賴經(jīng)驗積累與傳承。因此,迫切需要打破固有的主機運維方式,將傳統(tǒng)的人工運維轉(zhuǎn)變成自動化運維,用機器替換人工,減少人為出錯的概率。
我們研發(fā)了每日健康檢查、問題跟蹤、故障診斷、一鍵式報表生成、知識共享平臺等模塊功能,實現(xiàn)了每日數(shù)千項性能指標的自動化檢查、基于大數(shù)據(jù)技術(shù)的海量日志分析、故障輔助診斷、問題的自動化管理和報表的快速定制及一鍵式生成的,有力提升了主機專業(yè)線的生產(chǎn)風險控制能力。為主機運維人員設(shè)計了高效、便捷、實用的知識共享模塊,將主機運維的經(jīng)驗和技能固化成模式,并利用前沿技術(shù)為主機運維人員提供一個簡單、高效的事件處理和知識共享平臺,提升主機運維的自動化水平。
通過變更流程規(guī)范化、變更分類梳理,合理安排變更實施步驟和順序,在主機側(cè)實現(xiàn)部分變更自動化提交和實施,截至2018年上半年,變更自動化率已達到35%。
在上述基礎(chǔ)性改造之上,我們面向主機一線運維需求,規(guī)劃設(shè)計統(tǒng)一的主機智能運維平臺,采用了業(yè)界主流開發(fā)技術(shù),旨在從數(shù)據(jù)標準化、系統(tǒng)間聯(lián)動和智能化應(yīng)用三個角度出發(fā),結(jié)合主機日常維護和一線生產(chǎn)需求,實現(xiàn)主機監(jiān)控智能化、應(yīng)急變更自動化和性能容量可視化,并引入大數(shù)據(jù)、機器學習等先進技術(shù),實現(xiàn)交易實時分析和日志挖掘,從而不斷提升主機運維工作的標準化、自動化、智能化和可視化水平。
主機智能運維平臺自上線以來,不斷優(yōu)化、不斷創(chuàng)新,實現(xiàn)了一系列具有主機系統(tǒng)專業(yè)特色的亮點功能,包括:自動化分析交易毛刺、生產(chǎn)告警信息的輔助處理及歷史事件自動關(guān)聯(lián)、一鍵式生成性能報告、極簡式搜索性能指標、知識庫全文搜索、一屏式監(jiān)控,問題跟蹤、一鍵式PTF、交易預估等。為提升主機生產(chǎn)運維的自動化和智能化水平,我們不斷加強運維團隊的生產(chǎn)風險控制能力,為主機系統(tǒng)的穩(wěn)定運行提供了強有力保障。
五、合縱連橫,探索主機智能運維未來
實現(xiàn)智能化運維,除了關(guān)注技術(shù)范疇,也要兼顧業(yè)務(wù)視角,將先進技術(shù)和生產(chǎn)主機系統(tǒng)技術(shù)指標以及銀行的業(yè)務(wù)指標進行融合。將創(chuàng)新思路積累和開發(fā)運維經(jīng)驗固化為有利模式,形成迭代式的開發(fā)和優(yōu)化機制,持續(xù)優(yōu)化已有策略并不斷完善,與此同時,積極與開放平臺、網(wǎng)絡(luò)專業(yè)協(xié)同聯(lián)動,并整合人工智能、機器學習、AIOps等新興技術(shù),形成新的思路,不斷向“讓銀行大型主機的運維、銀行數(shù)據(jù)中心整體運維實現(xiàn)智能化”的目標邁進。
六、主機調(diào)用服務(wù)化
大型主機在高性能、高可用、高穩(wěn)定性上有明顯的優(yōu)勢,但在開放性和與其他平臺的交互方面歷來是短板。在全面云化的趨勢下,為將主機資源、主機世界納入全數(shù)據(jù)中心的靈活納管體系下,我們一方面積極推動主機平臺產(chǎn)品的開放性改造,另一方面也通過自主研發(fā):一是單一功能模塊化封裝,將主機的常用功能實現(xiàn)原子化服務(wù)化改造,改造成可對外披露的API;二是自主研發(fā)面向主機的流程引擎組件,實現(xiàn)面向場景化的靈活流程的組裝調(diào)度,并支持支持跨多個SYSPLEX、高并發(fā)等特性,并能其他開放平臺進行實時交互、敏捷聯(lián)動,不僅提升了主機運維工作的管理集約化、智能化水平,更可實現(xiàn)數(shù)據(jù)中心層面運維的高效聯(lián)動。
七、監(jiān)控指標精微化
監(jiān)控指標的精細化和分級化是運維精細化的基礎(chǔ)。需要審視現(xiàn)有的監(jiān)控指標,對指標進行分類,微觀宏觀指標兩者要齊頭并舉。
首先對大型主機健康指數(shù)指標進行優(yōu)化,利用唯一性的指標,實時發(fā)布并展示大型主機系統(tǒng)當前的業(yè)務(wù)支撐能力與對外服務(wù)水平。該指標準確性與實時性的好壞將對運維人員的判斷產(chǎn)生決定性影響,所以首先要對所有原子指標的準確性進行優(yōu)化,然后利用經(jīng)驗權(quán)重對原子指標進行實時計算,最終獲得具有實際指導意義的主機健康指數(shù)。該指數(shù)分為主機系統(tǒng)級、子系統(tǒng)級、原子指標級,每一級都是下一等級指標的加權(quán)平均,分級指標可以輕松地實現(xiàn)鉆取以及尋找異常區(qū)域。
八、應(yīng)急操作智能化
準確判斷故障根因,并第一時間采取應(yīng)急措施,在最快的時間內(nèi)恢復生產(chǎn),是一線生產(chǎn)運維的目標。為此,我們需要從業(yè)務(wù)視角對系統(tǒng)和外圍進行全盤監(jiān)控,基于大數(shù)據(jù)分析對系統(tǒng)進行畫像建模,并在第一時間捕獲異動,自動識別故障類型,完成應(yīng)急處置,將問題解決在萌芽狀態(tài),防止其擴大化。
2018年年底,我們將在主機智能運維平臺上部署自動化變更系統(tǒng)和智能巡檢系統(tǒng)。前者旨在通過標準化變更流程,可視化展示變更實施的進度和狀態(tài),自動統(tǒng)計自動化變更的占比、正確率及長期趨勢,在平臺側(cè)對主機變更進行可視化全流程管理和一鍵式實施,助力提升變更自動化率。后者旨在通過基于專家規(guī)則與機器學習相結(jié)合的智能巡檢、系統(tǒng)健康評估、報警聚合壓縮等舉措,實現(xiàn)主機運維工作從被動響應(yīng)到主動服務(wù),故障定位從人工分析到智能分析,應(yīng)急操作從主機端到平臺側(cè)一鍵式交互的轉(zhuǎn)型。這兩個系統(tǒng)的投產(chǎn)應(yīng)用,必將主機智能運維平臺的應(yīng)用推向新高度。
九、積極布局移動端
除在傳統(tǒng)運維采用ECC集中管控的模式之外,隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,我們也積極拓展面向移動端的運維管理渠道。通過借助移動端監(jiān)控頁面,讓運維人員能夠7×24小時了解生產(chǎn)運行態(tài)勢。運維團隊將傳統(tǒng)PC端監(jiān)控頁面逐步遷移至移動端。在數(shù)據(jù)從主機實時下傳后,數(shù)據(jù)處理加工、模型調(diào)用、推送展示的全過程在平臺端實現(xiàn),所有和展示相關(guān)的內(nèi)容實現(xiàn)了主機資源零消耗的目標。
2018年,建成移動端的“掌上運維”門戶,將交易、業(yè)務(wù)分布、大型主機系統(tǒng)運行指標等內(nèi)容進行實時展現(xiàn)。上線一個月訪問達3000余人次,在出現(xiàn)生產(chǎn)問題的時候,可以在任何地方第一時間關(guān)注到各系統(tǒng)的指標狀況。將來,我們會加大在移動端的建設(shè)力度,展示更全面的監(jiān)控信息,并將機器學習相關(guān)內(nèi)容融入到各頁面之間,讓智能化運維的成果在移動端得以展現(xiàn)。
十、大型主機智能化運維的未來
2018年4月13日在深圳召開的GOPS全球運維大會上,清華大學裴丹博士曾說過一句話,“通過“心腦眼手”四位一體地協(xié)作,AIOps能為業(yè)務(wù)帶來“穩(wěn)、省、快”的價值,極大提升運維生產(chǎn)力;我們相信:AIOps發(fā)展的終極形態(tài)將是無人值守運維,而智能監(jiān)控就是眼、機器學習是未來的大腦,而面向服務(wù)的運維管理就是那雙靈活的機械手。”大型主機的運維應(yīng)當不斷學習互聯(lián)網(wǎng)公司的前沿技術(shù),不斷汲取營養(yǎng),為運維的智能化服務(wù)。