Přeskočit obsah

Plán kontinuity

Matice rizik

Matice rizik definuje úroveň rizika tím, že zohledňuje kategorii "Pravděpodobnost" výskytu incidentu oproti kategorii "Dopad". Obě kategorie dostávají skóre mezi 1 a 5. Násobením skóre "Pravděpodobnost" a "Dopad" dohromady se produkuje celkové skóre rizika.

Pravděpodobnost

Pravděpodobnost Skóre
Vzácné 1
Nepravděpodobné 2
Možné 3
Pravděpodobné 4
Téměř jisté 5

Dopad

Dopad Skóre Popis
Nevýznamný 1 Funkčnost není ovlivněna, výkon není snížen, není potřeba žádný výpadek.
Menší 2 Funkčnost není ovlivněna, výkon není snížen, je potřeba výpadek zasaženého uzlu clusteru.
Střední 3 Funkčnost není ovlivněna, výkon je snížen, je potřeba výpadek zasaženého uzlu clusteru.
Závažný 4 Funkčnost je ovlivněna, výkon je výrazně snížen, je potřeba výpadek clusteru.
Katastrofický 5 Úplná ztráta funkčnosti.

Scénáře incidentů

Úplné selhání systému

Dopad: Katastrofický (5)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně vysoká

Snižování rizika:

  • Geograficky distribuovaný cluster
  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Silná kybernetická bezpečnost

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
  2. Obnovte funkčnost hardwaru.
  3. Obnovte systém z zálohy konfigurace stránky.
  4. Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta uzlu v clusteru

Dopad: Střední (4)
Pravděpodobnost: Nepravděpodobné (2)
Úroveň rizika: středně nízká

Snižování rizika:

  • Geograficky distribuovaný cluster
  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.
  2. Obnovte funkčnost hardwaru.
  3. Obnovte systém z zálohy konfigurace stránky.
  4. Obnovte data z offline zálohy (začněte s nejnovějšími daty a pokračujte do historie).

Ztráta rychlého úložiště na jednom uzlu v clusteru

Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Rychlé disky jsou v RAID 1 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání druhého rychlého disku. Selhání druhého rychlého disku bude eskalovat na "Ztrátu uzlu v clusteru".

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná výměna selhaného disku

Obnova:

  1. Vypněte zasažený uzel v clusteru
  2. Nahraďte selhaný rychlý disk co nejdříve
  3. Zapněte zasažený uzel v clusteru
  4. Ověřte správnou rekonstrukci RAID1 pole

Poznámka

Hot swap rychlého úložiště je podporován na specifickou žádost zákazníka.

Nedostatek místa na rychlém úložišti

Dopad: Střední (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud se vyskytne současně na více uzlech clusteru. Používejte nástroje pro monitorování k identifikaci této situace před eskalací.

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Odstraňte nepotřebná data z rychlého úložiště.
  2. Upravením konfigurace životního cyklu tak, aby data byla přesunuta na pomalé úložiště dříve.

Ztráta pomalého disku na jednom uzlu v clusteru

Dopad: Nevýznamný (1)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Pomalé disky jsou v RAID 5 nebo RAID 6 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání dalšího disku. Selhání druhého disku v RAID 5 nebo třetího disku v RAID 6 bude eskalovat na "Ztrátu uzlu v clusteru".

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná výměna selhaného disku

Obnova:

  1. Nahraďte selhaný pomalý disk co nejdříve (hot swap)
  2. Ověřte správnou rekonstrukci pole RAID pomalého úložiště

Nedostatek místa na pomalém úložišti

Dopad: Střední (3)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně vysoká

Tato situace je problematická, pokud se vyskytne současně na více uzlech clusteru. Používejte nástroje pro monitorování k identifikaci této situace před eskalací.

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasné rozšíření kapacity pomalého úložiště

Obnova:

  1. Odstraňte nepotřebná data z pomalého úložiště.
  2. Upravením konfigurace životního cyklu tak, aby data byla odstraněna z pomalého úložiště dříve.

Ztráta systémového disku na jednom uzlu v clusteru

Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Systémové disky jsou v RAID 1 poli, takže ztráta jednoho disku je nekritická. Zajistěte rychlou výměnu selhaného disku, aby nedošlo k selhání druhého rychlého disku. Selhání druhého systémového disku bude eskalovat na "Ztrátu uzlu v clusteru".

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná výměna selhaného disku

Obnova:

  1. Nahraďte selhaný rychlý disk co nejdříve (hot swap)
  2. Ověřte správnou rekonstrukci RAID1 pole

Nedostatek místa na systémovém úložišti

Dopad: Střední (3)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká

Používejte nástroje pro monitorování k identifikaci této situace před eskalací.

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Odstraňte nepotřebná data ze systémového úložiště.
  2. Kontaktujte podporu nebo dodavatele.

Ztráta síťové konektivity na jednom uzlu v clusteru

Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Redundantní síťová konektivita

Obnova:

  1. Obnovte síťovou konektivitu
  2. Ověřte správnou provozní podmínku clusteru

Selhání clusteru ElasticSearch

Dopad: Závažný (4)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru ElasticSearch

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu ElasticSearch

Dopad: Menší (2)
Pravděpodobnost: Pravděpodobné (4)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru ElasticSearch

Obnova:

  1. Sledujte automatické připojování uzlu ElasticSearch zpět do clusteru
  2. Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache Kafka

Dopad: Závažný (4)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru Apache Kafka

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache Kafka

Dopad: Menší (2)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru Apache Kafka

Obnova:

  1. Sledujte automatické připojování uzlu Apache Kafka zpět do clusteru
  2. Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.

Selhání clusteru Apache ZooKeeper

Dopad: Závažný (4)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru Apache ZooKeeper

Obnova:

  1. Kontaktujte podporu a/nebo dodavatele a konzultujte strategii.

Selhání uzlu Apache ZooKeeper

Dopad: Nevýznamný (1)
Pravděpodobnost: Vzácné (1)
Úroveň rizika: nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba
  • Včasná reakce na zhoršující se stav clusteru Apache ZooKeeper

Obnova:

  1. Sledujte automatické připojování uzlu Apache ZooKeeper zpět do clusteru
  2. Kontaktujte podporu/dodavatele, pokud selhání přetrvává několik hodin.

Selhání bezstavového mikroservisu datové cesty (kolektor, parser, dispatcher, korelátor, watcher)

Dopad: Menší (2)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Restartujte selhaný mikroservis.

Selhání bezstavového podpůrného mikroservisu (všechny ostatní)

Dopad: Nevýznamný (1)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně nízká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Restartujte selhaný mikroservis.

Významné snížení výkonu systému

Dopad: Střední (3)
Pravděpodobnost: Možné (3)
Úroveň rizika: středně vysoká

Snižování rizika:

  • Aktivní používání monitorování a alertů
  • Preventivní údržba

Obnova:

  1. Identifikujte a odstraňte hlavní příčinu snížení výkonu
  2. Kontakujte dodavatele nebo podporu, pokud je potřeba pomoc

Strategie zálohování a obnovy

Offline záloha příchozích logů

Příchozí logy jsou duplikovány do offline záložního úložiště, které není součástí aktivního clusteru LogMan.io (proto je "offline"). Offline záloha poskytuje možnost obnovy logů do LogMan.io po kritickém selhání atd.

Strategie zálohování pro rychlé datové úložiště

Příchozí události (logy) jsou kopírovány na archivní úložiště, jakmile vstoupí do LogMan.io. To znamená, že vždy existuje způsob, jak "přehrát" události do TeskaLabs LogMan.io v případě potřeby. Data jsou také okamžitě replikována na jiné uzly v clusteru po jejich příjezdu do clusteru. Z tohoto důvodu není tradiční zálohování doporučeno, ale možné.

Obnova je zajištěna komponentami clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro pomalé datové úložiště

Data uložená na pomalém datovém úložišti jsou VŽDY replikována na jiné uzly clusteru a rovněž uložena v archivu. Z tohoto důvodu není tradiční zálohování doporučeno, ale možné (zvažte obrovskou velikost pomalého úložiště).

Obnova je zajištěna komponentami clusteru replikací dat z jiných uzlů clusteru.

Strategie zálohování pro systémové úložiště

Doporučuje se pravidelné zálohování všech souborových systémů na systémovém úložišti, aby mohly být použity pro obnovení instalace v případě potřeby. Strategie zálohování je kompatibilní s většinou běžných zálohovacích technologií na trhu.

  • Recovery Point Objective (RPO): úplná záloha jednou týdně nebo po větší údržbě, inkrementální záloha jednou denně.
  • Recovery Time Objective (RTO): 12 hodin.

Poznámka

RPO a RTO jsou doporučeny, předpokládá se vysoce dostupné nastavení clusteru LogMan.io. To znamená tři a více uzlů, aby úplný výpadek jednoho uzlu neovlivnil dostupnost služby.

Obecná pravidla zálohování a obnovy

  1. Záloha dat: Pravidelně zálohujte do bezpečného úložiště, jako je cloudová služba, zálohovací pásky, aby se minimalizovala ztráta dat v případě selhání.

  2. Plánování záloh: Vytvořte plán záloh, který splňuje potřeby organizace, jako jsou denní, týdenní nebo měsíční zálohy.

  3. Ověření zálohy: Pravidelně ověřujte integritu zálohovaných dat, aby bylo zajištěno, že mohou být použity pro obnovu po havárii.

  4. Testování obnovy: Pravidelně testujte obnovu zálohovaných dat, aby bylo zajištěno, že zálohovací a obnovovací proces fungují správně a aby byly identifikovány a vyřešeny jakékoli problémy dříve, než se stanou kritickými.

  5. Uchování záloh: Vytvořte politiku uchovávání záloh, která vyvažuje potřebu dlouhodobé úschovy dat s náklady na uchovávání zálohovaných dat.

Monitorování a alertování

Monitorování je důležitou součástí plánu kontinuity, protože pomáhá včas odhalit potenciální selhání, identifikovat příčinu selhání a podporovat rozhodování během procesu obnovy.

Mikroservisy LogMan.io poskytují OpenMetrics API a/nebo odesílají svou telemetrii do InfluxDB a používají Grafanu jako nástroj pro monitorování.

  1. Strategie monitorování: OpenMetrics API se používá k sběru telemetrie ze všech mikroservisů v clusteru, operativního systému a hardwaru. Telemetrie je sbírána jednou