新概念機房監(jiān)控三大新理念
瀏覽次數:
|
發(fā)布日期:2023/9/7 14:50:41
為了改變傳統(tǒng)機房環(huán)境監(jiān)控的現狀,需要引進三大新理念加以改善。
1、對設備內部進行監(jiān)控
機房監(jiān)控的目的在于保護機房內IT體系的正常、有效運行,在事端發(fā)生之前偵測出潛在危機,并經過各種方法將警情信息發(fā)送給相關人員及時進行處理。因此,機房監(jiān)控的核心應該是對IT體系運行狀態(tài)的監(jiān)控,而最直接有效的監(jiān)控應該是直接對IT設備運行狀態(tài)進行監(jiān)控。
IT設備內部的運行環(huán)境,例如服務器內風扇轉速與CPU溫度等是最直接、最敏捷影響IT設備正常運行的因素。有時候即使機房內空調運轉正常,機房整體環(huán)境參數值也在預設范圍內,但某服務器卻因為某種原因出現服務器內風扇的轉速不正常、CPU過熱。假如只監(jiān)控機房整體環(huán)境,此時機房的管理人員是不會得到這種危險信息的,整個體系就會因為該服務器潛在危機沒有得到及時處理而意外癱瘓。
2、多層次的機房監(jiān)控
完善的機房監(jiān)控體系應該是可以完成對從設備運行狀況到機柜微環(huán)境再到機房整體環(huán)境這樣多層次的監(jiān)控,并能要點完成對設備內部的監(jiān)控。
我們都知道,機柜內的微環(huán)境是設備正常運行所需要的物理環(huán)境。機柜微環(huán)境參數最能表現設備所處的實際運行物理環(huán)境的狀況,所以完成對機柜內微環(huán)境的監(jiān)控也相當重要。機房各個點的環(huán)境參數值是不同的,因此機房內整體環(huán)境監(jiān)測的參數不能表現各機柜微環(huán)境參數,更不能表現重要設備內部的環(huán)境。也就是說,即使機房整體環(huán)境參數正常,IT設備所在處的環(huán)境也不一定正常。所以說機房的整體環(huán)境監(jiān)控的重要性次于對設備的監(jiān)控和對機柜內微環(huán)境的監(jiān)控。
空調機的運行是為了降低機房內的溫度,使機房內的整體溫濕度保持在一個合適的范圍內,機房各個點的溫度參數值是不同的??照{機出風口的溫度值不能說明機房的整體溫度和機柜微環(huán)境溫度,空調的正常運行不能說明設備就能正常運行。因此對空調的監(jiān)控不能代表甚至取代對設備的監(jiān)控。
漏水監(jiān)測體系是為了監(jiān)測機房內是否有漏水,以避免因漏水影響設備的正常運行。線式探測器是成線型安置在機房可能漏水的最低處,而實際上點式漏水探測器同樣可以反映機房的漏水狀況且比線式探測器經濟實惠、裝置方便、維護簡單。
機房內設備由于非常重要,一般都是選用UPS供電,而且UPS是雙供電,只要對UPS進行監(jiān)控就能保證設備正常供電而且能反映市電的狀況。因此,對電源的有效監(jiān)控是在不增加任何投資的狀況下經過協(xié)議完成對UPS的監(jiān)控,經過監(jiān)控其電壓、電流、電池使用狀況、市電狀況來保證設備的正常運行。
3、機房監(jiān)控的預警功用
報警(alarm)是報告事情的發(fā)生,是在故障或危害發(fā)生之后向管理人員發(fā)送警訊,及時地發(fā)送警訊可以縮短故障修復時間(MTTR),最大程度地保障體系運行。但故障還是不可避免地發(fā)生了,影響了體系的正常運行。
預警(alert)則是在故障或危害發(fā)生之前向管理人員報告潛在危機,提示相關人員進行處理,是事前的,可以避免事端的發(fā)生。有效的預警可以增加體系平均無故障工作時間(MTBF),并可以根據危機狀況主動延伸到報警。
預警與報警的區(qū)別就在于它是事前預防性報警,機房監(jiān)控體系只要具有良好的預警功用才干偵測出潛在危機并分層次逐步擴大警訊發(fā)送范圍,有效地避免事端的發(fā)生,將損失降低到最小。越來越多的機房管理人員也開始意識到預警的重要性,因此機房監(jiān)控體系必須有預警功用。
那么,機房監(jiān)控該如何完成預警功用呢?首先,可以經過靈敏的閾值設置多種偵測方法,保證能及時地發(fā)現潛在危機;其次,經過設置多種預警的方法,保證一切相關人員無論在何時何地都能收到警訊;再次,設置多個預警流程,保證不同的相關人員在不同時間接收到不同程度的警訊。
這樣,一旦有危機出現,立刻將信息發(fā)送給相關人員直至危機得到有效處理,完成真實意義的預警功用,最大程度地保護體系的運行。
這種將網絡運維和機房的配電電源監(jiān)控、環(huán)境監(jiān)控、和安全視頻監(jiān)控結合在一起監(jiān)控,基于TCP/IP及SNMP,就可以高度的會集管理,不僅可以將單個機房內各種動力設備與環(huán)境設備的各種狀態(tài)信息、報警信息、控制命令與歷史數據等進行完好的會集監(jiān)控,而且可以將分布在全國各地的多個機房完成跨區(qū)域的會集監(jiān)控。用戶只需登錄一套體系就完成對整個資源的管理,免去了登錄多套體系的麻煩?!?
為避免外人非法闖入實施破壞和盜竊行為,可根據機房現場環(huán)境合理配置門禁和紅外等探測器完成防盜報警。假如生后報警會將聯(lián)動打開輔佐攝像燈光,攝像機會主動切換到相應位置并開始錄像,同時經過短信,郵件等多種發(fā)生向用戶發(fā)出報警。真實完成無人值守、會集化、主動化的機房維護管理。
最后,管理和監(jiān)控是息息相關的。只要企業(yè)具備完善的管理能力能才保證監(jiān)控發(fā)揮作用。