加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
數(shù)據(jù)中心的正常運(yùn)轉(zhuǎn)離不開運(yùn)維,運(yùn)維在數(shù)據(jù)中心中扮演的角色越來越重要。很多人也在探討新的運(yùn)維技術(shù),以便可以通過技術(shù)更新來進(jìn)一步提升運(yùn)維水平。傳統(tǒng)的運(yùn)維絕大部分都是被動式地處理問題,即將系統(tǒng)建好,設(shè)備上線之后,就守著這些設(shè)備,確保不出問題,真出了問題快速響應(yīng)去解決,這種運(yùn)維方式,工作量體現(xiàn)在出現(xiàn)問題之后,解決問題的能力是運(yùn)維能力的重要體現(xiàn)方面。但是,亡羊補(bǔ)牢,很多時候悔之晚矣,損失已經(jīng)發(fā)生,再怎么挽回也只能是盡量減少損失、止損。新運(yùn)維的技術(shù)都倡導(dǎo)將運(yùn)維的工作提前,要未雨綢繆、防患于未然,狀態(tài)運(yùn)維就是其中一種。所謂的狀態(tài)運(yùn)維技術(shù),是一種預(yù)防性的運(yùn)維方式,以設(shè)備實(shí)時運(yùn)行狀態(tài)和技術(shù)參數(shù)為依據(jù),對設(shè)備健康情況和所處的狀態(tài)進(jìn)行評價,隨后制定相應(yīng)運(yùn)維的行動計劃。狀態(tài)運(yùn)維是根據(jù)設(shè)備日常運(yùn)行情況記錄、周期性檢查記錄和在線狀態(tài)監(jiān)測等提供設(shè)備當(dāng)前和歷史信息資料,通過對這些信息資料進(jìn)行分析處理,來判斷設(shè)備是否處于健康的運(yùn)行狀態(tài)和可能發(fā)生的變化趨勢,及時發(fā)現(xiàn)故障特征,在事故發(fā)生前采取合理的運(yùn)維行動,防止故障突然發(fā)生,保證設(shè)備一直處于健康的運(yùn)行狀態(tài)。
狀態(tài)運(yùn)維是將運(yùn)維的工作做在了故障發(fā)生前,通過其故障前的一系列表現(xiàn),提前發(fā)現(xiàn)問題。這就像是地震預(yù)測,雖說地震預(yù)測技術(shù)還不夠準(zhǔn)確,但不少時候已經(jīng)可以提前一定時間發(fā)現(xiàn)哪里有可能會發(fā)生地震,這樣就可以在地震來之前,將人員和物品轉(zhuǎn)移走,避免人員傷亡。大數(shù)據(jù)和人工智能是狀態(tài)運(yùn)維必不可少的技術(shù),若不是這兩種技術(shù)的出現(xiàn)和火熱,也不可能出現(xiàn)狀態(tài)運(yùn)維的概念。狀態(tài)運(yùn)維的技術(shù)要依靠大量的歷史數(shù)據(jù),這包括設(shè)備之前運(yùn)行的所有狀態(tài),發(fā)生過的所有故障,一臺設(shè)備的各種日志信息、告警、故障表現(xiàn)、特性等數(shù)據(jù)都不少,要將數(shù)據(jù)中心所有設(shè)備的這些信息都集中起來,那必然是海量數(shù)據(jù),還要從這些海量數(shù)據(jù)找到一定的必然規(guī)律,這就需要借助大數(shù)據(jù)技術(shù)分析,得出一些有總結(jié)的東西出來。比如:當(dāng)設(shè)備出現(xiàn)內(nèi)部端口DOWN告警,就知道會影響到網(wǎng)絡(luò)轉(zhuǎn)發(fā)流量,就需要將這臺設(shè)備隔離,讓網(wǎng)絡(luò)流量不流經(jīng)這臺設(shè)備;比如發(fā)現(xiàn)設(shè)備CPU高,設(shè)備的狀態(tài)效率就會降低,在設(shè)備癱了之前,就要找到導(dǎo)致CPU高的原因,將CPU降下來,避免故障的發(fā)生,通過大數(shù)據(jù)技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)防運(yùn)維。狀態(tài)的運(yùn)維還要依仗人工智能進(jìn)行一定的預(yù)判,分析設(shè)備未來的工作狀態(tài),比如設(shè)備內(nèi)部溫度每升高一度,狀態(tài)效率就要下降20%,類似這樣的預(yù)測分析。俗話說“冰凍三尺,非一日之寒”,任何事物都是由量變到質(zhì)變的發(fā)展過程,在故障發(fā)生之前,設(shè)備多多少少都會有一些異常表現(xiàn)。有人可能會說,設(shè)備若發(fā)生硬件故障,怎么預(yù)測,天知道明天會有哪臺設(shè)備會出現(xiàn)硬件故障。其實(shí)依然有手段可以監(jiān)測,從而做到預(yù)判,只不過現(xiàn)在的監(jiān)測技術(shù)還比較初級,不夠深入。若將設(shè)備CPU的時鐘、Catch內(nèi)存、指令運(yùn)算這些過程都監(jiān)控起來,那么只要CPU運(yùn)行有偏差,就會發(fā)現(xiàn),任何一個CPU故障都有一個過程,不可能一下子所有的模塊部件都不靈光了,在其CPU徹底死掉之前,抓到異常信息即可,這樣瞬間將業(yè)務(wù)遷移到其它設(shè)備上去,將這臺設(shè)備隔離,從而避免等到CPU徹底死掉,業(yè)務(wù)掛掉再去處理,通過人工智能技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)知運(yùn)維。
狀態(tài)運(yùn)維不僅可以保障設(shè)備持續(xù)健康運(yùn)行,減少失效時間,提高生產(chǎn)率,還大大降低了大型設(shè)備由于故障停機(jī)造成數(shù)據(jù)中心的財產(chǎn)損失和設(shè)備的運(yùn)維成本,改善庫存和供應(yīng)鏈,對增加數(shù)據(jù)中心利潤,改善數(shù)據(jù)中心經(jīng)濟(jì)效益具有切實(shí)重要的指導(dǎo)意義,F(xiàn)在,狀態(tài)運(yùn)維受到越來越多人的重視,數(shù)據(jù)中心已經(jīng)不允許隨意中斷業(yè)務(wù),很多技術(shù)專家都在絞盡腦汁為數(shù)據(jù)中心的穩(wěn)定運(yùn)行出謀劃策,狀態(tài)運(yùn)維是數(shù)據(jù)中心要走的必由之路。不過,現(xiàn)在的數(shù)據(jù)中心運(yùn)維水平差距有點(diǎn)大,能夠做到預(yù)防運(yùn)維的翎毛鳳角,能做到預(yù)知運(yùn)維的恐怕還沒有,不然怎么那么多大型數(shù)據(jù)中心時不時的還在發(fā)生一些影響業(yè)務(wù)的故障呢,連亞馬遜、阿里云這類的技術(shù)型巨頭企業(yè)都避免不了。所以,基于狀態(tài)運(yùn)維的發(fā)展方向沒錯,但還需要努力,需要大量的歷史有效數(shù)據(jù),而不是無用的垃圾數(shù)據(jù);需要先進(jìn)的適合數(shù)據(jù)中心環(huán)境的人工智能技術(shù),而不是隨便拿來人工智能技術(shù)硬往數(shù)據(jù)中心的設(shè)備上套,那預(yù)知結(jié)果很可能會事與愿違,反而成了開展運(yùn)維工作的絆腳石,最怕不出故障時天天預(yù)報,真出了故障又不報,這樣的技術(shù)不用也罷。
狀態(tài)運(yùn)維作為未來數(shù)據(jù)中心運(yùn)維的發(fā)展方向,必將為數(shù)據(jù)中心帶來無限好處。其實(shí),早在二十年前1998年,美國軍方就提出故障預(yù)測與健康管理PHM這一概念,對設(shè)備由定期運(yùn)維轉(zhuǎn)變成預(yù)知性的運(yùn)維,只不過當(dāng)時的計算機(jī)技術(shù)還不夠發(fā)達(dá),計算能力也較低,很多想法沒有技術(shù)可以實(shí)現(xiàn)。現(xiàn)如今,云計算、大數(shù)據(jù)、人工智能計等新技術(shù)撲面而來,計算能力也得到急速提升,就算單機(jī)的計算速度有限,也可以通過云計算將多臺設(shè)備聯(lián)合起來同時計算,這樣就不存在計算能力限制的問題。狀態(tài)運(yùn)維呼之欲出,再次來到人們面前。雖很多技術(shù)仍需完善,數(shù)據(jù)中心的基礎(chǔ)水平也可能不夠,但并不妨礙這一技術(shù)的發(fā)展,為數(shù)據(jù)中心的運(yùn)維添磚加瓦。