對于任何 IT 團(tuán)隊來說,事件解決后的那一刻可能是最放松的。當(dāng)您的系統(tǒng)最終正常運行時,它會讓整個組織放心,但最艱巨的任務(wù)尚未到來:根本原因分析 (RCA)。類似于足球隊觀看以前的比賽以查明改進(jìn)領(lǐng)域,根本原因分析通過數(shù)據(jù)并找出最初導(dǎo)致事件的原因。
分析問題的根本原因?qū)M織來說是一項獨特的挑戰(zhàn)??赡苡性S多因素使這個過程變得更加困難,從太多的警報到缺乏文檔。也許最有害的是沒有一個固定的程序。許多組織的事件計劃都缺少這一關(guān)鍵步驟。任何好的事件計劃都包括一個用于根本原因分析的過程,而不僅僅是一個要求。
請注意,在開始根本原因分析過程之前,在事件解決期間可以做一些事情。這些任務(wù)使根本原因分析更容易;例如分配和定義角色、建立最佳實踐以及利用可用工具。雖然,每個企業(yè)都會根據(jù)其功能和規(guī)模的不同而有不同的需求。通過明確定義每個角色的角色、功能和范圍來避免重大事件。以下是每個組織應(yīng)具備的幾個關(guān)鍵角色:
組織中有效根本原因分析的關(guān)鍵角色
事件線索
事件負(fù)責(zé)人將充當(dāng)隊長,因為每個事件應(yīng)該只有一個事件負(fù)責(zé)人。擁有強(qiáng)大的指揮技能和事件管理經(jīng)驗至關(guān)重要。他們還應(yīng)該能夠理解問題的診斷和解決方法。他們的一般知識應(yīng)該從系統(tǒng)監(jiān)控和診斷工具擴(kuò)展到應(yīng)用程序和基礎(chǔ)設(shè)施組件,以及可用的工程工具。 他們會將資源引導(dǎo)到最需要的地方,并根據(jù)需要推動所有問題解決行動。由于這是有效負(fù)責(zé)的角色,他們將負(fù)責(zé)收集最終根本原因分析所需的數(shù)據(jù)。
服務(wù)主管
服務(wù)主管將幫助指導(dǎo)恢復(fù)工作,并根據(jù)他們對業(yè)務(wù)重要性的了解確定優(yōu)先級。他們應(yīng)該是經(jīng)驗豐富的工程師或經(jīng)理,了解受影響服務(wù)的系統(tǒng)方面和交付要求。他們還應(yīng)該熟悉并能夠指導(dǎo)服務(wù)恢復(fù)例程和程序。 服務(wù)負(fù)責(zé)人會知道必須考慮和解決的潛在下游影響。 此外,他們必須知道必須與哪些業(yè)務(wù)部門和聯(lián)系人合作,以最大程度地減少事故處理期間的影響。
技術(shù)主管
技術(shù)主管是專家或主題專家。這通常是對生產(chǎn)環(huán)境有充分了解的高級高級工程師。他們的工作是在他們的組件領(lǐng)域(例如存儲、網(wǎng)絡(luò)、DBMS 等)診斷并領(lǐng)導(dǎo)解決問題的工作。整個組織的技術(shù)主管必須相互協(xié)調(diào)和溝通,以解決可能存在于組件區(qū)域之間或之外的問題。
根本原因分析的最佳實踐
現(xiàn)在已經(jīng)定義了所有角色,重要的是概述團(tuán)隊在事件解決過程中應(yīng)遵循的一些最佳實踐,以使根本原因分析 (RCA) 更容易。
- 如果根本原因無法追溯,這是最常見的原因之一。如果您有多個團(tuán)隊同時進(jìn)行更改,則很難評估哪個團(tuán)隊解決了問題。事件負(fù)責(zé)人必須仔細(xì)跟蹤團(tuán)隊修復(fù)系統(tǒng)的內(nèi)容、時間和順序。
- 在恢復(fù)過程中,首要也是唯一的優(yōu)先事項應(yīng)該是解決事件并記錄可能的根本原因。大多數(shù)根本原因分析 (RCA) 工作都是在服務(wù)恢復(fù)后很久才進(jìn)行的,并且有了適當(dāng)?shù)奈臋n,它可以使過程變得更加容易。
- 系統(tǒng)文檔的一部分應(yīng)該是配置信息。能夠查看是否有可能導(dǎo)致錯誤的更改非常重要。以及監(jiān)視哪些更改解決了問題。這對于防止未來可能發(fā)生的事件很重要。解決問題的最快方法是恢復(fù)到上次已知的穩(wěn)定配置。您可以使用配置管理工具來檢測計劃外的更改并評估更改的內(nèi)容和時間。正向設(shè)計解決方案可能很誘人,但它不應(yīng)該是您唯一的選擇,因為巨大的變化可能會導(dǎo)致無法預(yù)料的問題。
- 建立明確的指揮線并確保執(zhí)行。業(yè)務(wù)方最好不要參與技術(shù)電話。技術(shù)數(shù)據(jù)可能是壓倒性的,并可能導(dǎo)致誤解。
- 在合理和可能的情況下并行工作。這應(yīng)該包括產(chǎn)生并行活動以工作多個合理的解決方案或備份。但是,重要的是要記住在實際執(zhí)行時“一次更改”的做法。
管理警報
警報過多會使根本原因分析變得更加困難。有一些方法可以減少可能掩蓋事件根本原因的警報噪音量。一般的經(jīng)驗法則是確保活動警報僅針對可操作的項目。
- 如果通知沒有使您立即采取行動,則不應(yīng)向您發(fā)出警報。例如,關(guān)于 CPU 使用率或內(nèi)存空間的警報。如果你一直忽視警報,很可能有一天一個重要的警報會從裂縫中溜走。更有幫助的是接收每日報告,為您提供一般系統(tǒng)指標(biāo),以便您知道如何處理以防止事件發(fā)生。
- 自動化報告使日常流程變得更容易,因此不會遺漏 任何事情,也不會因為不緊急的事情而引發(fā)警報。
利用操作系統(tǒng)
確保您以最佳方式使用您的工具是加快事件解決和根本原因分析的關(guān)鍵。
- 與通知管理器集成可以簡化待命安排,并提供一種不依賴于內(nèi)部郵件基礎(chǔ)設(shè)施的警報分發(fā)方式。
- 如果您正在使用 ServiceNow 或 RemedyForce 等票務(wù)或 ITSM 系統(tǒng),則應(yīng)確保您的計劃包括將這些系統(tǒng)與您的監(jiān)控和警報系統(tǒng)以及事件管理流程集成。
結(jié)論
根本原因分析對于更快地解決未來事件并防止它們再次發(fā)生非常重要。通過在您的解決計劃中實施上述內(nèi)容,它將使組織更加高效和優(yōu)化。通過其自動報告和集成平臺為您提供了輕松實現(xiàn)這一目標(biāo)的關(guān)鍵。