Freitagabend, 18:30 Uhr: Der zentrale ERP-Server eines Logistikunternehmens startet nach einem fehlgeschlagenen Firmware-Update nicht mehr. Die Disposition steht still, LKW-Fahrer erhalten keine Tourenpläne, und die Lagerverwaltung weicht auf handschriftliche Listen aus. Erst am Montagmorgen läuft das System wieder — drei verlorene Geschäftstage, sechsstelliger Umsatzausfall.
Systemausfälle treffen Organisationen oft dann, wenn sie am wenigsten darauf vorbereitet sind. Das BSI führt den Ausfall von Geräten oder Systemen als elementare Gefährdung G 0.25 — eine der am breitesten verknüpften Bedrohungen im gesamten Grundschutzkatalog, mit Bezug zu über 200 Bausteinen.
Was steckt dahinter?
Jedes technische Gerät hat eine endliche Lebensdauer und kann jederzeit ausfallen — ob durch Verschleiß, Defekte, Fehlbedienung oder äußere Einflüsse. Bei zeitkritischen Anwendungen ohne Ausweichmöglichkeit eskaliert ein einzelner Geräteausfall schnell zum unternehmensweiten Problem.
Ausfallszenarien
- Hardware-Defekte — Festplatten, Netzteile, Speichermodule und Mainboards unterliegen physischem Verschleiß. Besonders bei Systemen jenseits der geplanten Nutzungsdauer steigt die Ausfallwahrscheinlichkeit exponentiell.
- Fehlerhafte Updates — Eine Firmware, die für den falschen Systemtyp eingespielt wird, kann ein Gerät in einen nicht-bootfähigen Zustand versetzen. Gleiches gilt für Betriebssystem-Updates, die Inkompatibilitäten mit vorhandenen Treibern auslösen.
- Stromversorgungsprobleme — Spannungsspitzen, Unterbrechungen oder fehlerhafte USV-Anlagen können zum abrupten Herunterfahren führen. Dateisystem-Inkonsistenzen nach einem harten Abschalten machen einen schnellen Neustart oft unmöglich.
- Umgebungseinflüsse — Überhitzung durch ausgefallene Klimaanlagen, Feuchtigkeit, Staub oder mechanische Erschütterungen wirken auf empfindliche Komponenten ein.
- Abhängigkeitsketten — Wenn ein einzelner Speicher-Controller ausfällt, auf den mehrere virtuelle Maschinen zugreifen, multipliziert sich das Schadensausmass über die gesamte Infrastruktur.
Schadensausmass
Der Schaden hängt direkt davon ab, wie zeitkritisch die betroffene Anwendung ist und ob Ausweichmöglichkeiten existieren. Produktionssteuerungen, Kassensysteme, E-Mail-Server oder VoIP-Anlagen können im Sekundentakt wirtschaftlichen Schaden verursachen. Zu den direkten Kosten (Wiederherstellung, Ersatzbeschaffung) kommen indirekte Folgen: verpasste Liefertermine, Vertragsstrafen, Reputationsverlust.
Praxisbeispiele
Speicher-Controller im Rechenzentrum. Ein Internet-Dienstleister betreibt seine Webserver auf einem zentralen Speichersystem. Ein Stromversorgungsfehler schaltet das Array ab. Obwohl der eigentliche Defekt in einer Stunde behoben ist, lassen sich die Server wegen Dateisystem-Inkonsistenzen nicht wieder hochfahren. Mehrere Kundensysteme bleiben tagelang unerreichbar.
Firmware-Update mit falschem Image. Ein Administrator spielt ein Firmware-Update auf einen Netzwerk-Switch ein, das für ein anderes Modell vorgesehen ist. Der Switch startet nicht mehr, das gesamte Stockwerk verliert die Netzwerkanbindung. Da kein Ersatzgerät vorrätig ist, dauert die Behebung drei Tage.
Klimaanlage fällt unbemerkt aus. Im Serverraum einer mittelständischen Firma versagt am Wochenende die Klimaanlage. Die Temperatur steigt langsam an. Am Montag sind zwei Server mit Festplattenfehlern ausgefallen, mehrere RAID-Arrays müssen aufwändig rekonstruiert werden.
Relevante Kontrollen
Die folgenden ISO-27001-Kontrollen wirken dieser Gefährdung entgegen. (Die vollständige Liste der 47 zugeordneten Kontrollen findest du unten im Abschnitt „Abdeckende ISO-27001-Kontrollen”.)
Prävention:
- A.8.14 — Redundanz von informationsverarbeitenden Einrichtungen: Redundante Auslegung kritischer Systeme (Cluster, gespiegelte Speicher, Dual-Power-Supplies) verhindert, dass ein einzelner Defekt den Dienst unterbricht.
- A.7.11 — Versorgungseinrichtungen: Unterbrechungsfreie Stromversorgung, Notstromgeneratoren und überwachte Klimatisierung schützen vor umgebungsbedingten Ausfällen.
- A.7.12 — Sicherheit der Verkabelung: Geschützte Verkabelung und redundante Netzwerkpfade vermeiden Single-Points-of-Failure in der physischen Infrastruktur.
- A.8.6 — Kapazitätssteuerung: Überwachung und rechtzeitige Skalierung verhindern Ausfälle durch Ressourcenerschöpfung.
- A.5.29 — Informationssicherheit bei Störungen: Vorab geplante Continuity-Maßnahmen sorgen dafür, dass kritische Prozesse auch bei einem Ausfall weiterlaufen.
Erkennung:
- A.8.15 — Protokollierung: Zentrales Logging erfasst Hardware-Warnungen, Temperaturalarme und Fehlerzustände, bevor ein Totalausfall eintritt.
- A.8.16 — Überwachungsaktivitäten: Aktives Monitoring (SNMP-Traps, Health-Checks, Heartbeats) erkennt drohende Ausfälle frühzeitig.
Reaktion:
- A.5.24 — Planung der Informationssicherheitsvorfallreaktion: Dokumentierter Incident-Response-Plan mit klaren Eskalationswegen und Wiederanlaufprozeduren.
- A.8.13 — Sicherung von Informationen: Regelmäßige, getestete Backups ermöglichen die Datenwiederherstellung nach einem Hardwareausfall.
BSI IT-Grundschutz
G 0.25 verknüpft der BSI-Grundschutzkatalog mit den folgenden Bausteinen:
- OPS.1.1.7 (Systemmanagement) — Anforderungen an Überwachung, Kapazitätsplanung und Störungsbehandlung.
- SYS.1.1 (Allgemeiner Server) — Grundlegende Absicherung von Servern, einschließlich Redundanz und Wartung.
- INF.2 (Rechenzentrum sowie Serverraum) — Physische Schutzmaßnahmen wie Klimatisierung, Brandschutz und Stromversorgung.
- DER.4 (Notfallmanagement) — Planung und Durchführung von Maßnahmen zur Aufrechterhaltung des Betriebs bei Ausfällen.
Quellen
- BSI: Die Lage der IT-Sicherheit in Deutschland — Jahreslagebericht mit Statistiken zu IT-Störungen und Ausfällen
- BSI IT-Grundschutz: Elementare Gefährdungen, G 0.25 — Originalbeschreibung der elementaren Gefährdung
- ISO/IEC 27002:2022 Abschnitt 8.14 — Umsetzungshinweise zur Redundanz informationsverarbeitender Einrichtungen