Plán kontinuity¶

Matice rizik¶

Matice rizik definuje úroveň rizika tím, že zvažuje kategorii "Pravděpodobnost" výskytu incidentu ve srovnání s kategorií "Dopad". Obě kategorie mají skóre mezi 1 a 5. Násobením skóre pro "Pravděpodobnost" a "Dopad" se vytvoří celkové rizikové skóre.

Pravděpodobnost¶

Pravděpodobnost	Skóre
Zřídka	1
Nepravděpodobné	2
Možné	3
Pravděpodobné	4
Téměř jisté	5

Dopad¶

Dopad	Skóre	Popis
Nevýznamný	1	Funkcionalita není ovlivněna, výkon není snížen, prostoje nejsou potřeba.
Drobný	2	Funkcionalita není ovlivněna, výkon není snížen, prostoje u postiženého uzlu clusteru jsou potřeba.
Mírný	3	Funkcionalita není ovlivněna, výkon je snížen, prostoje u postiženého uzlu clusteru jsou potřeba.
Vážný	4	Funkcionalita je ovlivněna, výkon je výrazně snížen, prostoje clusteru jsou potřeba.
Katastrofální	5	Úplná ztráta funkcionality.

Scénáře incidentů¶

Úplné selhání systému¶

Dopad: Katastrofální (5)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně vysoká

Omezení rizika:

Geograficky distribuovaný cluster
Aktivní používání monitorování a alertování
Prophylaktická údržba
Silná kybernetická bezpečnost

Obnova:

Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Obnovte funkčnost hardwaru.
Obnovte systém z zálohy konfigurace webu.
Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta uzlu v clusteru¶

Dopad: Mírný (4)
Pravděpodobnost: Nepravděpodobné (2)
Úroveň rizika: středně nízká

Omezení rizika:

Geograficky distribuovaný cluster
Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Obnovte funkčnost hardwaru.
Obnovte systém z zálohy konfigurace webu.
Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta rychlého úložného disku v jednom uzlu clusteru¶

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Rychlé disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta rychlého disku povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná výměna selhávajícího disku

Obnova:

Vypněte postižený uzel clusteru
Vyměňte selhávající rychlý úložný disk co nejdříve
Zapněte postižený uzel clusteru
Ověřte správnou rekonstrukci RAID1 pole

Note

Hot swap rychlého úložného disku je podporován na konkrétní žádost zákazníka.

Nedostatek rychlého úložného prostoru¶

Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Odstraňte zbytečná data z rychlého úložného prostoru.
Upravte konfiguraci životního cyklu tak, aby se data přesunula do pomalého úložného prostoru dříve.

Ztráta pomalého úložného disku v jednom uzlu clusteru¶

Dopad: Nevýznamný (1)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Pomalé disky jsou v RAID 5 nebo RAID 6 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo další ztrátě disku. Druhá ztráta disku v RAID 5 nebo třetí ztráta disku v RAID 6 povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná výměna selhávajícího disku

Obnova:

Vyměňte selhávající pomalý úložný disk co nejdříve (hot swap)
Ověřte správnou rekonstrukci pomalého úložného RAID

Nedostatek pomalého úložného prostoru¶

Dopad: Mírný (3)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud nastane na více uzlech clusteru současně. Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasné rozšíření velikosti pomalého datového úložiště

Obnova:

Odstraňte zbytečná data z pomalého úložného prostoru.
Upravte konfiguraci životního cyklu tak, aby se data odstranila z pomalého úložného prostoru dříve.

Ztráta systémového disku v jednom uzlu clusteru¶

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Systémové disky jsou v RAID 1 poli, takže ztráta jednoho disku není kritická. Zajistěte rychlou výměnu selhávajícího disku, aby se předešlo druhé ztrátě rychlého disku. Druhá ztráta systémového disku povede k "Ztrátě uzlu v clusteru".

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná výměna selhávajícího disku

Obnova:

Vyměňte selhávající rychlý úložný disk co nejdříve (hot swap)
Ověřte správnou rekonstrukci RAID1 pole

Nedostatek systémového úložného prostoru¶

Dopad: Mírný (3)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Použijte monitorovací nástroje k identifikaci této situace před eskalací.

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Odstraňte zbytečná data ze systémového úložného prostoru.
Kontaktujte podporu nebo dodavatele.

Ztráta síťového připojení v jednom uzlu clusteru¶

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Redundantní síťové připojení

Obnova:

Obnovte síťové připojení
Ověřte správný provoz clusteru

Selhání clusteru Elasticsearch¶

Dopad: Vážný (4)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Elasticsearch

Obnova:

Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Elasticsearch¶

Dopad: Drobný (2)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Elasticsearch

Obnova:

Sledujte automatické připojení uzlu Elasticsearch zpět do clusteru
Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache Kafka¶

Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Apache Kafka

Obnova:

Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache Kafka¶

Dopad: Drobný (2)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Apache Kafka

Obnova:

Sledujte automatické připojení uzlu Apache Kafka zpět do clusteru
Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache ZooKeeper¶

Dopad: Vážný (4)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper

Obnova:

Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache ZooKeeper¶

Dopad: Nevýznamný (1)
Pravděpodobnost: Zřídka (1)
Úroveň rizika: nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba
Včasná reakce na zhoršující se zdraví clusteru Apache ZooKeeper

Obnova:

Sledujte automatické připojení uzlu Apache ZooKeeper zpět do clusteru
Kontaktujte podporu / dodavatele, pokud selhání přetrvává několik hodin.

Selhání stateless datového mikroservisu (kolektor, parser, dispatcher, korelátor, watcher)¶

Dopad: Drobný (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Restartujte selhávající mikroservis.

Selhání stateless podpůrného mikroservisu (všechny ostatní)¶

Dopad: Nevýznamný (1)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Restartujte selhávající mikroservis.

Významné snížení výkonu systému¶

Dopad: Mírný (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Omezení rizika:

Aktivní používání monitorování a alertování
Prophylaktická údržba

Obnova:

Identifikujte a odstraňte příčinu snížení výkonu
Kontaktujte dodavatele nebo podporu, pokud je potřeba pomoc

Strategie zálohování a obnovy¶

Offline záloha pro příchozí logy¶

Příchozí logy jsou duplikovány do offline záložního úložiště, které není součástí aktivního clusteru LogMan.io (proto je "offline"). Offline záloha poskytuje možnost obnovit logy do LogMan.io po kritickém selhání atd.

Strategie zálohování pro rychlé datové úložiště¶

Příchozí události (logy) jsou kopírovány do archivačního úložiště, jakmile vstoupí do LogMan.io. To znamená, že vždy existuje způsob, jak "přehrát" události do TeskaLabs LogMan.in v případě potřeby. Data jsou také replikována na jiné uzly clusteru okamžitě po příjezdu do clusteru. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné.

Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro pomalé datové úložiště¶

Data uložená na pomalém datovém úložišti jsou VŽDY replikována na jiné uzly clusteru a také uložena v archivu. Z tohoto důvodu se tradiční zálohování nedoporučuje, ale je možné (zvažte obrovskou velikost pomalého úložiště).

Obnova je zajištěna komponenty clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro systémové úložiště¶

Doporučuje se pravidelně zálohovat všechny souborové systémy na systémovém úložišti, aby mohly být použity k obnovení instalace, když je to potřeba. Strategie zálohování je kompatibilní s většinou běžných zálohovacích technologií na trhu.

Cíl obnovy dat (RPO): plná záloha jednou týdně nebo po větší údržbě, inkrementální záloha jednou denně.
Cíl doby obnovy (RTO): 12 hodin.

Note

RPO a RTO jsou doporučovány, za předpokladu vysoce dostupného nastavení clusteru LogMan.io. To znamená tři a více uzlů, aby úplný výpadek jednoho uzlu neovlivnil dostupnost služby.

Obecná pravidla pro zálohování a obnovu¶

Zálohování dat: Pravidelně zálohujte na bezpečné místo, jako je cloudová úložná služba, záložní pásky, abyste minimalizovali ztrátu dat v případě selhání.
Plánování zálohování: Stanovte plán zálohování, který splňuje potřeby organizace, například denní, týdenní nebo měsíční zálohy.
Ověření zálohování: Pravidelně ověřujte integritu zálohovaných dat, abyste zajistili, že mohou být použita pro obnovu po katastrofě.
Testování obnovy: Pravidelně testujte obnovu zálohovaných dat, abyste zajistili, že proces zálohování a obnovy funguje správně a abyste identifikovali a vyřešili jakékoli problémy, než se stanou kritickými.
Politika uchovávání záloh: Stanovte politiku uchovávání záloh, která vyváží potřebu dlouhodobého uchovávání dat s náklady