Plán kontinuity¶
Matice rizik¶
Matice rizik definuje úroveň rizika tím, že zvažuje kategorii "Pravděpodobnost" výskytu incidentu ve srovnání s kategorií "Dopad". Obě kategorie mají skóre mezi 1 a 5. Násobením skóre pro "Pravděpodobnost" a "Dopad" se vytvoří celkové rizikové skóre.
Pravděpodobnost¶
Pravděpodobnost | Skóre |
---|---|
Zřídka | 1 |
Nepravděpodobné | 2 |
Možné | 3 |
Pravděpodobné | 4 |
Téměř jisté | 5 |
Dopad¶
Dopad | Skóre | Popis |
---|---|---|
Nevýznamný | 1 | Funkcionalita není ovlivněna, výkon není snížen, prostoje nejsou potřeba. |
Drobný | 2 | Funkcionalita není ovlivněna, výkon není snížen, prostoje u postiženého uzlu clusteru jsou potřeba. |
Mírný | 3 | Funkcionalita není ovlivněna, výkon je snížen, prostoje u postiženého uzlu clusteru jsou potřeba. |
Vážný | 4 | Funkcionalita je ovlivněna, výkon je výrazně snížen, prostoje clusteru jsou potřeba. |
Katastrofální | 5 | Úplná ztráta funkcionality. |
Scénáře incidentů¶
Úplné selhání systému¶
Dopad: Katastrofální (5)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně vysoká
Omezení rizika:
- Geograficky distribuovaný cluster
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Silná kybernetická bezpečnost
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
- Obnovte funkčnost hardwaru.
- Obnovte systém z zálohy konfigurace webu.
- Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).
Ztráta uzlu v clusteru¶
Dopad: Mírný (4)
Pravděpodobnost: Nepravděpodobné (2)
Úroveň rizika: středně nízká
Omezení rizika:
- Geograficky distribuovaný cluster
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
- Obnovte funkčnost hardwaru.
- Obnovte systém z zálohy konfigurace webu.
- Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).
Ztráta rychlého úložného disku v jednom uzlu clusteru¶
Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Rychlé disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta rychlého disku povede k "Ztrátě uzlu v clusteru".
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná výměna selhávajícího disku
Obnova:
- Vypněte postižený uzel clusteru
- Vyměňte selhávající rychlý úložný disk co nejdříve
- Zapněte postižený uzel clusteru
- Ověřte správnou rekonstrukci RAID1 pole
Note
Hot swap rychlého úložného disku je podporován na konkrétní žádost zákazníka.
Nedostatek rychlého úložného prostoru¶
Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Odstraňte zbytečná data z rychlého úložného prostoru.
- Upravte konfiguraci životního cyklu tak, aby se data přesunula do pomalého úložného prostoru dříve.
Ztráta pomalého úložného disku v jednom uzlu clusteru¶
Dopad: Nevýznamný (1)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká
Pomalé disky jsou v RAID 5 nebo RAID 6 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo další ztrátě disku. Druhá ztráta disku v RAID 5 nebo třetí ztráta disku v RAID 6 povede k "Ztrátě uzlu v clusteru".
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná výměna selhávajícího disku
Obnova:
- Vyměňte selhávající pomalý úložný disk co nejdříve (hot swap)
- Ověřte správnou rekonstrukci pomalého úložného RAID
Nedostatek pomalého úložného prostoru¶
Dopad: Mírný (3)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně vysoká
Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasné rozšíření velikosti pomalého datového úložiště
Obnova:
- Odstraňte zbytečná data z pomalého úložného prostoru.
- Upravte konfiguraci životního cyklu tak, aby se data odstranila z pomalého úložného prostoru dříve.
Ztráta systémového disku v jednom uzlu clusteru¶
Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Systémové disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta systémového disku povede k "Ztrátě uzlu v clusteru".
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná výměna selhávajícího disku
Obnova:
- Vyměňte selhávající rychlý úložný disk co nejdříve (hot swap)
- Ověřte správnou rekonstrukci RAID1 pole
Nedostatek systémového úložného prostoru¶
Dopad: Mírný (3)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká
Použijte monitorovací nástroje k identifikaci této situace před eskalací.
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Odstraňte zbytečná data ze systémového úložného prostoru.
- Kontaktujte podporu nebo dodavatele.
Ztráta síťového připojení v jednom uzlu clusteru¶
Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Redundantní síťové připojení
Obnova:
- Obnovte síťové připojení
- Ověřte správný provoz clusteru
Selhání clusteru Elasticsearch¶
Dopad: Vážný (4)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Elasticsearch
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu Elasticsearch¶
Dopad: Drobný (2)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Elasticsearch
Obnova:
- Sledujte automatické připojení uzlu Elasticsearch zpět do clusteru
- Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.
Selhání clusteru Apache Kafka¶
Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Apache Kafka
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu Apache Kafka¶
Dopad: Drobný (2)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Apache Kafka
Obnova:
- Sledujte automatické připojení uzlu Apache Kafka zpět do clusteru
- Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.
Selhání clusteru Apache ZooKeeper¶
Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu Apache ZooKeeper¶
Dopad: Nevýznamný (1)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
- Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper
Obnova:
- Sledujte automatické připojení uzlu Apache ZooKeeper zpět do clusteru
- Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.
Selhání stateless datového mikroservisu (kolektor, parser, dispatcher, korelátor, watcher)¶
Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Restartujte selhávající mikroservis.
Selhání stateless podpůrného mikroservisu (všechny ostatní)¶
Dopad: Nevýznamný (1)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Restartujte selhávající mikroservis.
Významné snížení výkonu systému¶
Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Omezení rizika:
- Aktivní používání monitorování a alertování
- Prophylaktická údržba
Obnova:
- Identifikujte a odstraňte příčinu snížení výkonu
- Kontaktujte dodavatele nebo podporu, pokud je potřeba pomoc
Strategie zálohování a obnovy¶
Offline záloha pro příchozí logy¶
Příchozí logy jsou duplikovány do offline záložního úložiště, které není součástí aktivního clusteru LogMan.io (proto je "offline"). Offline záloha poskytuje možnost obnovit logy do LogMan.io po kritickém selhání atd.
Strategie zálohování pro rychlé datové úložiště¶
Příchozí události (logy) jsou kopírovány do archivačního úložiště, jakmile vstoupí do LogMan.io. To znamená, že vždy existuje způsob, jak "přehrát" události do TeskaLabs LogMan.in v případě potřeby. Data jsou také replikována na jiné uzly clusteru okamžitě po příjezdu do clusteru. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné.
Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.
Strategie zálohování pro pomalé datové úložiště¶
Data uložená na pomalém datovém úložišti jsou VŽDY replikována na jiné uzly clusteru a také uložena v archivu. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné (zvažte obrovskou velikost pomalého úložiště).
Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.
Strategie zálohování pro systémové úložiště¶
Doporučuje se pravidelně zálohovat všechny souborové systémy na systémovém úložišti, aby mohly být použity k obnovení instalace, když je to potřeba. Strategie zálohování je kompatibilní s většinou běžných zálohovacích technologií na trhu.
- Cíl obnovy dat (RPO): plná záloha jednou týdně nebo po větší údržbě, inkrementální záloha jednou denně.
- Cíl doby obnovy (RTO): 12 hodin.
Note
RPO a RTO jsou doporučovány, za předpokladu vysoce dostupného nastavení clusteru LogMan.io. To znamená tři a více uzlů, aby úplný výpadek jednoho uzlu neovlivnil dostupnost služby.
Obecná pravidla pro zálohování a obnovu¶
-
Zálohování dat: Pravidelně zálohujte na bezpečné místo, jako je cloudová úložná služba, záložní pásky, abyste minimalizovali ztrátu dat v případě selhání.
-
Plánování zálohování: Stanovte plán zálohování, který splňuje potřeby organizace, například denní, týdenní nebo měsíční zálohy.
-
Ověření zálohování: Pravidelně ověřujte integritu zálohovaných dat, abyste zajistili, že mohou být použita pro obnovu po katastrofě.
-
Testování obnovy: Pravidelně testujte obnovu zálohovaných dat, abyste zajistili, že proces zálohování a obnovy funguje správně a abyste identifikovali a vyřešili jakékoli problémy, než se stanou kritickými.
-
Politika uchovávání záloh: Stanovte politiku uchovávání záloh, která vyváží potřebu dlouhodobého uchovávání dat s náklady