智能運維場景解析:如何通過異常檢測發現業務系統狀態異常

通常情況下,業務系統出現異常,最直接、最直觀反映就是關鍵業務指標出現異常波動。以保險行業為例,當業務系統出現異常時,系統處理保單的能力會顯著下降,對應到業務指標描述,即:業務系統出現問題時,“保單量”會出現下降。
如何正確判斷“保單量”出現下降呢?傳統的方式就是設置一個固定的閾值,例如:定義在正常情況下,系統每分鐘可以處理的保單量應該在200~600之間。當實時監控到的保單量超出上述閾值時,即認為保單量出現異常。傳統監控系統的固定閾值告警,就是通過設置固定的告警閾值與真實數據進行對比產生告警信息。
這個邏輯表面看上去沒有問題,但是仔細想一下,每天凌晨的時候,會有多少新的保單提交到系統中呢(假設保險公司只受理國內的業務)?顯然,每天上午10點到12點之間新提交到系統中的保單量要遠遠多于每天凌晨提交到系統中的保單量。
以此類推,業務系統在節假日和工作日處理的保單量也存在顯著的差別。如果據此邏輯進行深入分析,會發現,企業很難用預先設定的規則(閾值)來判斷業務系統保單量指標的是否出現異常。
為了解決上述問題,云智慧DOCP平臺的DOEM數字化運維事件管理產品采用多算法集成學習模式,并引入3種針對時序型監控指標進行異常檢測的方法:動態基線、同比/環比和指標異常檢測。
動態基線基于歷史數據,利用智能算法進行深度學習后,對未來一段時間內的每個時間點的數值進行精準預測,以預測值作為基線,并通過比較實際值與基線的偏離度(百分比差異)來監控和告警。
動態基線適用于已知某數據指標呈周期性變化且沒辦法給出每個周期的準確值或者周期內的數據變化過多的場景。以保險行業業務場景為例,我們根據歷史保單量的學習,識別出歷史數據的趨勢性和周期性的變化,預測未來一段時間保單量的變化。同時根據歷史數據的分布情況,給出未來一段時間的上下限的變化情況。當待檢測指標高于基線高于上限/低于下限時,即判斷為出現異常。監測發現預測實際值數據頻繁小于預測數據,我們有效的檢測到這種異常,并追蹤到事件的根源。
同/環比異常檢測用于發現某個待監測指標的變化趨勢是持續變好還是持續變壞。將目標監控值與歷史同期數據的分布和同環比的變化情況進行對比,根據數值或百分比差異情況判斷新進數據是否異常,并作出判斷是否進行告警。
為了應對不對業務模式的差異化數據特點,DOEM采用無監督集成學習算法進行單/多指標異常檢測,無需人工設置固定閾值和定義基線偏離度,系統根據不同的數據特點,選擇不同算法去做針對性的檢測,并對異常進行整體的評估,自動識別出不符合期望的數據后產生告警消息。
云智慧DOEM(Digital Operation Event Management的縮寫)數字化運維事件管理產品面向技術和管理,以事件為核心,實現問題事件全生命周期的全局管控。DOEM基于大數據技術和機器學習算法,對來自于各種監控系統的告警消息與數據指標進行統一的接入與處理,支持告警事件的過濾、通知、響應、處置、定級、跟蹤以及多維分析。DOEM產品基于動態基線等多種算法,能夠實現事件的告警收斂、異常檢測、根因分析、智能預測,幫助企業打通數據孤島,統一運維的標準與管理規范,減少對運維的事務性干擾,提升運維的整體管理水平。