跳到主要內容

淺談營運持續重要性(RTO, RPO, WRT, MTPD)

前陣子有媒體報導指出,公共自行車系統在尖峰時段發生異常,導致部分使用者無法順利借還車輛。依據業者初步說明,原因與系統更新過程中的異常有關。雖然問題最終在數小時內排除,但此事件也提醒我們,資訊系統一旦出現異常,不僅影響服務可用性,更可能在高使用量時造成使用者不便與營運壓力。

這類事件雖然屬於技術面的系統異常,但若原因涉及資訊安全事件,影響範圍與風險將更為嚴重。例如,除了服務中斷外,還可能伴隨資料外洩、系統被入侵或成為攻擊跳板等相關問題。因此,無論是系統更新、維運作業或因外部因素導致的異常,企業或機關都應定期執行營運持續演練

營運持續活動的目的,不僅在於面對資安事件的應變,更在於確保各種營運中斷情境下,組織能迅速回復關鍵服務、降低影響範圍。透過定期的檢視與演練,能強化組織在突發狀況下的應變能力,確保民眾服務不中斷,也讓資訊系統的穩定性與韌性持續提升。


在這樣的背景下,我們可以進一步談談「營運持續計畫(Business Continuity Plan,簡稱 BCP)」的重要性。BCP 是一套在面臨突發事件時,確保組織核心業務能持續運作,或在可接受時間內恢復的策略與流程。它不僅適用於資訊安全事件,也涵蓋自然災害、系統故障、人為疏失等情境。透過事前的規劃與定期演練,組織能在危機發生時有條不紊地應對,降低中斷帶來的衝擊,確保服務不中斷。

在營運持續管理中,常被提及的幾個核心指標如下:

RTO(Recovery Time Objective,復原時間目標):指在系統異常後,系統可接受的最長停機時間,也就是「多久內要恢復運作」。

RPO(Recovery Point Objective,復原點目標):指可接受的資料遺失範圍,代表「最多能損失多少時間內的資料」。例如 RPO 為 30 分鐘,表示即使發生災難,最多只能遺失 30 分鐘內的資料變動。

WRT(Work Recovery Time,工作復原時間):指系統恢復後,業務單位將作業流程與資料恢復至正常狀態所需的時間。例如,系統雖於兩小時內復原(RTO),但人員仍需一小時進行資料驗證與重新啟動業務流程,這段時間即為 WRT。

MTPD(Maximum Tolerable Period of Disruption,最大可容忍中斷時間):指業務可容忍的最長停擺時間,超過此時間將對組織造成嚴重甚至不可逆的影響。



這些指標之間具有邏輯關係:MTPD = RTO + WRT,代表從中斷發生到業務完全恢復所需的總時間。透過設定並分析這些目標,組織能更精準地規劃備援方案、技術架構與應變流程,確保在突發事件發生時能快速回復關鍵服務,並將營運衝擊降至最低。

以上是我在之前參與營運持續(BCP)專案時的一些初步整理與理解。概念雖然不複雜,但實際推動到組織層面,還是得靠演練與時間的累積,才能看出真正的效果。





留言