Přeskočit obsah

Plán kontinuity

Matice rizik

Matice rizik definuje úroveň rizika tím, že zvažuje kategorii "Pravděpodobnost" výskytu incidentu ve srovnání s kategorií "Dopad". Obě kategorie mají skóre mezi 1 a 5. Násobením skóre pro "Pravděpodobnost" a "Dopad" se vytvoří celkové rizikové skóre.

Pravděpodobnost

Pravděpodobnost Skóre
Zřídka 1
Nepravděpodobné 2
Možné 3
Pravděpodobné 4
Téměř jisté 5

Dopad

Dopad Skóre Popis
Nevýznamný 1 Funkcionalita není ovlivněna, výkon není snížen, prostoje nejsou potřeba.
Drobný 2 Funkcionalita není ovlivněna, výkon není snížen, prostoje u postiženého uzlu clusteru jsou potřeba.
Mírný 3 Funkcionalita není ovlivněna, výkon je snížen, prostoje u postiženého uzlu clusteru jsou potřeba.
Vážný 4 Funkcionalita je ovlivněna, výkon je výrazně snížen, prostoje clusteru jsou potřeba.
Katastrofální 5 Úplná ztráta funkcionality.

Scénáře incidentů

Úplné selhání systému

Dopad: Katastrofální (5)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně vysoká

Omezení rizika:

  • Geograficky distribuovaný cluster
  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Silná kybernetická bezpečnost

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
  2. Obnovte funkčnost hardwaru.
  3. Obnovte systém z zálohy konfigurace webu.
  4. Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta uzlu v clusteru

Dopad: Mírný (4)
Pravděpodobnost: Nepravděpodobné (2)
Úroveň rizika: středně nízká

Omezení rizika:

  • Geograficky distribuovaný cluster
  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
  2. Obnovte funkčnost hardwaru.
  3. Obnovte systém z zálohy konfigurace webu.
  4. Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta rychlého úložného disku v jednom uzlu clusteru

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Rychlé disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta rychlého disku povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná výměna selhávajícího disku

Obnova:

  1. Vypněte postižený uzel clusteru
  2. Vyměňte selhávající rychlý úložný disk co nejdříve
  3. Zapněte postižený uzel clusteru
  4. Ověřte správnou rekonstrukci RAID1 pole

Note

Hot swap rychlého úložného disku je podporován na konkrétní žádost zákazníka.

Nedostatek rychlého úložného prostoru

Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Odstraňte zbytečná data z rychlého úložného prostoru.
  2. Upravte konfiguraci životního cyklu tak, aby se data přesunula do pomalého úložného prostoru dříve.

Ztráta pomalého úložného disku v jednom uzlu clusteru

Dopad: Nevýznamný (1)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Pomalé disky jsou v RAID 5 nebo RAID 6 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo další ztrátě disku. Druhá ztráta disku v RAID 5 nebo třetí ztráta disku v RAID 6 povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná výměna selhávajícího disku

Obnova:

  1. Vyměňte selhávající pomalý úložný disk co nejdříve (hot swap)
  2. Ověřte správnou rekonstrukci pomalého úložného RAID

Nedostatek pomalého úložného prostoru

Dopad: Mírný (3)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasné rozšíření velikosti pomalého datového úložiště

Obnova:

  1. Odstraňte zbytečná data z pomalého úložného prostoru.
  2. Upravte konfiguraci životního cyklu tak, aby se data odstranila z pomalého úložného prostoru dříve.

Ztráta systémového disku v jednom uzlu clusteru

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Systémové disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta systémového disku povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná výměna selhávajícího disku

Obnova:

  1. Vyměňte selhávající rychlý úložný disk co nejdříve (hot swap)
  2. Ověřte správnou rekonstrukci RAID1 pole

Nedostatek systémového úložného prostoru

Dopad: Mírný (3)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Odstraňte zbytečná data ze systémového úložného prostoru.
  2. Kontaktujte podporu nebo dodavatele.

Ztráta síťového připojení v jednom uzlu clusteru

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Redundantní síťové připojení

Obnova:

  1. Obnovte síťové připojení
  2. Ověřte správný provoz clusteru

Selhání clusteru Elasticsearch

Dopad: Vážný (4)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Elasticsearch

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Elasticsearch

Dopad: Drobný (2)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Elasticsearch

Obnova:

  1. Sledujte automatické připojení uzlu Elasticsearch zpět do clusteru
  2. Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache Kafka

Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Apache Kafka

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache Kafka

Dopad: Drobný (2)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Apache Kafka

Obnova:

  1. Sledujte automatické připojení uzlu Apache Kafka zpět do clusteru
  2. Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache ZooKeeper

Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache ZooKeeper

Dopad: Nevýznamný (1)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba
  • Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper

Obnova:

  1. Sledujte automatické připojení uzlu Apache ZooKeeper zpět do clusteru
  2. Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání stateless datového mikroservisu (kolektor, parser, dispatcher, korelátor, watcher)

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Restartujte selhávající mikroservis.

Selhání stateless podpůrného mikroservisu (všechny ostatní)

Dopad: Nevýznamný (1)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Restartujte selhávající mikroservis.

Významné snížení výkonu systému

Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Omezení rizika:

  • Aktivní používání monitorování a alertování
  • Prophylaktická údržba

Obnova:

  1. Identifikujte a odstraňte příčinu snížení výkonu
  2. Kontaktujte dodavatele nebo podporu, pokud je potřeba pomoc

Strategie zálohování a obnovy

Offline záloha pro příchozí logy

Příchozí logy jsou duplikovány do offline záložního úložiště, které není součástí aktivního clusteru LogMan.io (proto je "offline"). Offline záloha poskytuje možnost obnovit logy do LogMan.io po kritickém selhání atd.

Strategie zálohování pro rychlé datové úložiště

Příchozí události (logy) jsou kopírovány do archivačního úložiště, jakmile vstoupí do LogMan.io. To znamená, že vždy existuje způsob, jak "přehrát" události do TeskaLabs LogMan.in v případě potřeby. Data jsou také replikována na jiné uzly clusteru okamžitě po příjezdu do clusteru. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné.

Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro pomalé datové úložiště

Data uložená na pomalém datovém úložišti jsou VŽDY replikována na jiné uzly clusteru a také uložena v archivu. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné (zvažte obrovskou velikost pomalého úložiště).

Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro systémové úložiště

Doporučuje se pravidelně zálohovat všechny souborové systémy na systémovém úložišti, aby mohly být použity k obnovení instalace, když je to potřeba. Strategie zálohování je kompatibilní s většinou běžných zálohovacích technologií na trhu.

  • Cíl obnovy dat (RPO): plná záloha jednou týdně nebo po větší údržbě, inkrementální záloha jednou denně.
  • Cíl doby obnovy (RTO): 12 hodin.

Note

RPO a RTO jsou doporučovány, za předpokladu vysoce dostupného nastavení clusteru LogMan.io. To znamená tři a více uzlů, aby úplný výpadek jednoho uzlu neovlivnil dostupnost služby.

Obecná pravidla pro zálohování a obnovu

  1. Zálohování dat: Pravidelně zálohujte na bezpečné místo, jako je cloudová úložná služba, záložní pásky, abyste minimalizovali ztrátu dat v případě selhání.

  2. Plánování zálohování: Stanovte plán zálohování, který splňuje potřeby organizace, například denní, týdenní nebo měsíční zálohy.

  3. Ověření zálohování: Pravidelně ověřujte integritu zálohovaných dat, abyste zajistili, že mohou být použita pro obnovu po katastrofě.

  4. Testování obnovy: Pravidelně testujte obnovu zálohovaných dat, abyste zajistili, že proces zálohování a obnovy funguje správně a abyste identifikovali a vyřešili jakékoli problémy, než se stanou kritickými.

  5. Politika uchovávání záloh: Stanovte politiku uchovávání záloh, která vyváží potřebu dlouhodobého uchovávání dat s náklady