IT 工程師經(jīng)常提到術(shù)語“MTTR”(平均修復(fù)時間)。這是一個關(guān)鍵指標(biāo),表明 IT 團隊可以多快地解決懸而未決的問題。盡管我們今天擁有更復(fù)雜的監(jiān)控工具,并且可能能夠比以前更早地收到警報,但仍然需要不斷努力尋找根本原因分析解決方案并確定適當(dāng)?shù)难a救措施。這通常是 MTTR 花費的時間比預(yù)期長得多的原因。
在這種情況下,根本原因分析可以通過結(jié)合過去的人類經(jīng)驗和機器驅(qū)動的數(shù)據(jù)處理能力來提供幫助,從而更快地提供可見性并建議最佳解決方案候選者。?在我們“馴服 IT 混亂”博客系列的第四篇文章中,我們將介紹使用機器學(xué)習(xí) (ML) 和相關(guān)技術(shù)的根本原因分析解決方案。
情境化警報
當(dāng)警報發(fā)生時,可能有許多導(dǎo)致它的故障。更好地理解警報的第一步是將其上下文化。通常,可以應(yīng)用四種情境化:
- 垂直堆疊
- 水平交通路徑
- 交易流程
- 時間序列事件關(guān)聯(lián)
1.垂直堆疊
現(xiàn)代IT 基礎(chǔ)架構(gòu)由多個層組成:從物理網(wǎng)絡(luò)到主機、服務(wù)和應(yīng)用程序。每一層都有不同的監(jiān)控機制,比如網(wǎng)絡(luò)層的流量監(jiān)控,服務(wù)層和應(yīng)用層的服務(wù)檢查。將警報與每一層的監(jiān)控指標(biāo)相關(guān)聯(lián)是使警報上下文化的第一步,如下圖所示:
2. 橫向交通路徑
流量路徑是將警報上下文化的另一個維度。它嘗試將警報與監(jiān)控指標(biāo)以及流量連接起來。例如,網(wǎng)站問題的根本原因可以追溯到其相關(guān)的網(wǎng)關(guān)、Web 服務(wù)器、功能服務(wù)或搜索服務(wù),如下圖所示:
3. 交易流程
事務(wù)是隨后執(zhí)行的一系列動作,共同完成一項任務(wù)。交易可以是由搜索、購物車操作和支付組成的高級電子商務(wù)流程?;蛘咚梢允堑图墧?shù)據(jù)庫 SQL 執(zhí)行,包括多個內(nèi)存計算步驟和最終提交。建立警報與其事務(wù)流的關(guān)系將使 IT 操作員能夠?qū)I(yè)務(wù)目的與其底層操作聯(lián)系起來,并快速勾勒出警報的影響范圍,從而快速確定關(guān)鍵路徑。
4.時間序列事件關(guān)聯(lián)
所有 IT 事件都可以應(yīng)用到時間序列分析中,可以識別事件之間的順序關(guān)系,并對相關(guān)事件進行分組和排序。順序關(guān)系不一定表示因果關(guān)系,然而,頻繁的、重復(fù)的順序關(guān)系可以被視為一種模式,當(dāng)與其他信息結(jié)合時,可能會導(dǎo)致進一步的發(fā)現(xiàn)。
過去事故的監(jiān)督培訓(xùn)
過去的經(jīng)驗是解決當(dāng)今問題的寶貴財富。過去的警報數(shù)據(jù),以及所有上下文數(shù)據(jù)和解決方案信息,是機器學(xué)習(xí)的完美訓(xùn)練集。它通常是一個有監(jiān)督的學(xué)習(xí)過程,可以應(yīng)用多種學(xué)習(xí)模型,例如回歸、決策樹或神經(jīng)網(wǎng)絡(luò)。通常,沒有適合所有場景的單一模型或一個問題的完美解決方案。機器學(xué)習(xí)的美妙之處在于它可以結(jié)合多個模型的結(jié)果,并提供一系列按置信度分數(shù)排序的解決方案。人類可以檢查機器學(xué)習(xí)模型建議的解決方案,進一步研究或嘗試它們。
超越根本原因分析解決方案
借助與機器學(xué)習(xí)建議的每個解決方案相關(guān)的置信度分數(shù),人類操作員甚至可以建立自我修復(fù)機制。對于負面影響也很低的高度自信的解決方案,如果應(yīng)用它們,人工操作員可以讓機器自動執(zhí)行它們并監(jiān)控結(jié)果。當(dāng)機器智能學(xué)習(xí)和建模越來越多的經(jīng)驗時,需要的人工干預(yù)越來越少——即使是災(zāi)難性事件也是如此。這可能是邁向完全自動化的第一步,這是 IT 運營的終極夢想。