Plán kontinuity
Matice rizik
Matice rizik definuje úroveň rizika tím, že zohledňuje kategorii "Pravděpodobnost" výskytu incidentu oproti kategorii "Dopad". Obě kategorie dostávají skóre mezi 1 a 5. Násobením skóre "Pravděpodobnost" a "Dopad" dohromady se produkuje celkové skóre rizika.
Pravděpodobnost
Pravděpodobnost | Skóre |
---|---|
Vzácné | 1 |
Nepravděpodobné | 2 |
Možné | 3 |
Pravděpodobné | 4 |
Téměř jisté | 5 |
Dopad
Dopad | Skóre | Popis |
---|---|---|
Nevýznamný | 1 | Funkčnost není ovlivněna, výkon není snížen, není potřeba žádný výpadek. |
Menší | 2 | Funkčnost není ovlivněna, výkon není snížen, je potřeba výpadek zasaženého uzlu clusteru. |
Střední | 3 | Funkčnost není ovlivněna, výkon je snížen, je potřeba výpadek zasaženého uzlu clusteru. |
Závažný | 4 | Funkčnost je ovlivněna, výkon je výrazně snížen, je potřeba výpadek clusteru. |
Katastrofický | 5 | Úplná ztráta funkčnosti. |
Scénáře incidentů
Úplné selhání systému
Dopad: Katastrofický (5)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně vysoká
Snižování rizika:
- Geograficky distribuovaný cluster
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Silná kybernetická bezpečnost
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
- Obnovte funkčnost hardwaru.
- Obnovte systém z zálohy konfigurace stránky.
- Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).
Ztráta uzlu v clusteru
Dopad: Střední (4)
Pravděpodobnost: Nepravděpodobné (2)
Úroveň rizika: středně nízká
Snižování rizika:
- Geograficky distribuovaný cluster
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
- Obnovte funkčnost hardwaru.
- Obnovte systém z zálohy konfigurace stránky.
- Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).
Ztráta rychlého úložiště na jednom uzlu v clusteru
Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Rychlé disky jsou v RAID 1 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání druhého rychlého disku. Selhání druhého rychlého disku bude eskalovat na "Ztrátu uzlu v clusteru".
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná výměna selhaného disku
Obnova:
- Vypněte zasažený uzel v clusteru
- Nahraďte selhaný rychlý disk co nejdříve
- Zapněte zasažený uzel v clusteru
- Ověřte správnou rekonstrukci RAID1 pole
Poznámka
Hot swap rychlého úložiště je podporován na specifickou žádost zákazníka.
Nedostatek místa na rychlém úložišti
Dopad: Střední (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Tato situace je problematická, pokud se vyskytne současně na více uzlech clusteru. Používejte nástroje pro monitorování k identifikaci této situace před eskalací.
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Odstraňte nepotřebná data z rychlého úložiště.
- Upravením konfigurace životního cyklu tak, aby data byla přesunuta na pomalé úložiště dříve.
Ztráta pomalého disku na jednom uzlu v clusteru
Dopad: Nevýznamný (1)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká
Pomalé disky jsou v RAID 5 nebo RAID 6 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání dalšího disku. Selhání druhého disku v RAID 5 nebo třetího disku v RAID 6 bude eskalovat na "Ztrátu uzlu v clusteru".
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná výměna selhaného disku
Obnova:
- Nahraďte selhaný pomalý disk co nejdříve (hot swap)
- Ověřte správnou rekonstrukci pole RAID pomalého úložiště
Nedostatek místa na pomalém úložišti
Dopad: Střední (3)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně vysoká
Tato situace je problematická, pokud se vyskytne současně na více uzlech clusteru. Používejte nástroje pro monitorování k identifikaci této situace před eskalací.
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasné rozšíření kapacity pomalého úložiště
Obnova:
- Odstraňte nepotřebná data z pomalého úložiště.
- Upravením konfigurace životního cyklu tak, aby data byla odstraněna z pomalého úložiště dříve.
Ztráta systémového disku na jednom uzlu v clusteru
Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Systémové disky jsou v RAID 1 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání druhého rychlého disku. Selhání druhého systémového disku bude eskalovat na "Ztrátu uzlu v clusteru".
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná výměna selhaného disku
Obnova:
- Nahraďte selhaný rychlý disk co nejdříve (hot swap)
- Ověřte správnou rekonstrukci RAID1 pole
Nedostatek místa na systémovém úložišti
Dopad: Střední (3)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká
Používejte nástroje pro monitorování k identifikaci této situace před eskalací.
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Odstraňte nepotřebná data ze systémového úložiště.
- Kontaktujte podporu nebo dodavatele.
Ztráta síťové konektivity na jednom uzlu v clusteru
Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Redundantní síťová konektivita
Obnova:
- Obnovte síťovou konektivitu
- Ověřte správnou provozní podmínku clusteru
Selhání clusteru ElasticSearch
Dopad: Závažný (4)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru ElasticSearch
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu ElasticSearch
Dopad: Menší (2)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru ElasticSearch
Obnova:
- Sledujte automatické připojování uzlu ElasticSearch zpět do clusteru
- Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.
Selhání clusteru Apache Kafka
Dopad: Závažný (4)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru Apache Kafka
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu Apache Kafka
Dopad: Menší (2)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru Apache Kafka
Obnova:
- Sledujte automatické připojování uzlu Apache Kafka zpět do clusteru
- Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.
Selhání clusteru Apache ZooKeeper
Dopad: Závažný (4)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru Apache ZooKeeper
Obnova:
- Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
Selhání uzlu Apache ZooKeeper
Dopad: Nevýznamný (1)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
- Včasná reakce na zhoršující se stav clusteru Apache ZooKeeper
Obnova:
- Sledujte automatické připojování uzlu Apache ZooKeeper zpět do clusteru
- Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.
Selhání bezstavového mikroservisu datové cesty (kolektor, parser, dispatcher, korelátor, watcher)
Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Restartujte selhaný mikroservis.
Selhání bezstavového podpůrného mikroservisu (všechny ostatní)
Dopad: Nevýznamný (1)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Restartujte selhaný mikroservis.
Významné snížení výkonu systému
Dopad: Střední (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká
Snižování rizika:
- Aktivní používání monitorování a alertů
- Preventivní údržba
Obnova:
- Identifikujte a odstraňte hlavní příčinu snížení výkonu
- Kontakujte dodavatele nebo podporu, pokud je potřeba pomoc
Strategie zálohování a obnovy
Offline záloha příchozích logů
Příchozí logy jsou duplikovány do offline záložního úložiště, které není součástí aktivního clusteru LogMan.io (proto je "offline"). Offline záloha poskytuje možnost obnovy logů do LogMan.io po kritickém selhání atd.
Strategie zálohování pro rychlé datové úložiště
Příchozí události (logy) jsou kopírovány na archivní úložiště, jakmile vstoupí do LogMan.io. To znamená, že vždy existuje způsob, jak "přehrát" události do TeskaLabs LogMan.io v případě potřeby. Data jsou také okamžitě replikována na jiné uzly v clusteru po jejich příjezdu do clusteru. Z tohoto důvodu není tradiční zálohování doporučeno, ale možné.
Obnova je zajištěna komponentami clusteru replikací dat z jiných uzlů clusteru.
Strategie zálohování pro pomalé datové úložiště
Data uložená na pomalém datovém úložišti jsou VŽDY replikována na jiné uzly clusteru a rovněž uložena v archivu. Z tohoto důvodu není tradiční zálohování doporučeno, ale možné (zvažte obrovskou velikost pomalého úložiště).
Obnova je zajištěna komponentami clusteru replikací dat z jiných uzlů clusteru.
Strategie zálohování pro systémové úložiště
Doporučuje se pravidelné zálohování všech souborových systémů na systémovém úložišti, aby mohly být použity pro obnovení instalace v případě potřeby. Strategie zálohování je kompatibilní s většinou běžných zálohovacích technologií na trhu.
- Recovery Point Objective (RPO): úplná záloha jednou týdně nebo po větší údržbě, inkrementální záloha jednou denně.
- Recovery Time Objective (RTO): 12 hodin.
Poznámka
RPO a RTO jsou doporučeny, předpokládá se vysoce dostupné nastavení clusteru LogMan.io. To znamená tři a více uzlů, aby úplný výpadek jednoho uzlu neovlivnil dostupnost služby.
Obecná pravidla zálohování a obnovy
-
Záloha dat: Pravidelně zálohujte do bezpečného úložiště, jako je cloudová služba, zálohovací pásky, aby se minimalizovala ztráta dat v případě selhání.
-
Plánování záloh: Vytvořte plán záloh, který splňuje potřeby organizace, jako jsou denní, týdenní nebo měsíční zálohy.
-
Ověření zálohy: Pravidelně ověřujte integritu zálohovaných dat, aby bylo zajištěno, že mohou být použity pro obnovu po havárii.
-
Testování obnovy: Pravidelně testujte obnovu zálohovaných dat, aby bylo zajištěno, že zálohovací a obnovovací proces fungují správně a aby byly identifikovány a vyřešeny jakékoli problémy dříve, než se stanou kritickými.
-
Uchování záloh: Vytvořte politiku uchovávání záloh, která vyvažuje potřebu dlouhodobé úschovy dat s náklady na uchovávání zálohovaných dat.
Monitorování a alertování
Monitorování je důležitou součástí plánu kontinuity, protože pomáhá včas odhalit potenciální selhání, identifikovat příčinu selhání a podporovat rozhodování během procesu obnovy.
Mikroservisy LogMan.io poskytují OpenMetrics API a/nebo odesílají svou telemetrii do InfluxDB a používají Grafanu jako nástroj pro monitorování.
- Strategie monitorování: OpenMetrics API se používá k sběru telemetrie ze všech mikroservisů v clusteru, operativního systému a hardwaru. Telemetrie je sbírána jednou