監(jiān)控工程萬建電子介紹監(jiān)控知識(shí):
1、監(jiān)控方法
1.了解監(jiān)控對(duì)象:我們要監(jiān)控的對(duì)象你是否了解呢?比如CPU到底是如何工作的?
2.性能基準(zhǔn)指標(biāo):我們要監(jiān)控這個(gè)東西的什么屬性?比如CPU的使用率、負(fù)載、用戶態(tài)、內(nèi)核態(tài)、上下文切換。
3.報(bào)警閾值定義:怎么樣才算是故障,要報(bào)警呢?比如CPU的負(fù)載到底多少算高,用戶態(tài)、內(nèi)核態(tài)分別跑多少算高?
4.故障處理流程:收到了故障報(bào)警,那么我們?cè)趺刺幚砟??有什么更高效的處理流程嗎?/p>
2、監(jiān)控核心
1.發(fā)現(xiàn)問題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息
2.定位問題:故障郵件一般都會(huì)寫某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無法連接,又或者某開發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。
3.解決問題:當(dāng)然我們了解到故障的原因后,就需要通過故障解決的優(yōu)先級(jí)去解決該故障。
4.總結(jié)問題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。