Fehlertoleranz vs. Hochverfügbarkeit: Was schützt Ihre IT wirklich?

Fehlertoleranz (FT) und Hochverfügbarkeit (HA) werden oft synonym verwendet — sind aber grundlegend verschiedene Technologien mit unterschiedlichen Schutzversprechen.
Hochverfügbarkeit: Bei Ausfall übernimmt ein Backup-System. Es gibt eine Unterbrechung (Sekunden bis Minuten) und potenziellen Datenverlust.
Fehlertoleranz: Zwei Systeme arbeiten synchron. Bei Ausfall eines Systems läuft das andere unterbrechungsfrei weiter — 0 Sekunden Downtime, 0 Datenverlust.
Definitionen
Was ist Hochverfügbarkeit (High Availability)?
Hochverfügbarkeit beschreibt Systeme, die eine bestimmte Betriebszeit garantieren — typischerweise gemessen in „Neunen“:
| Verfügbarkeit | Ausfallzeit/Jahr | Bezeichnung |
|---|---|---|
| 99,9% | 8,7 Stunden | Three Nines |
| 99,99% | 52,6 Minuten | Four Nines |
| 99,999% | 5,3 Minuten | Five Nines |
| 99,9999% | 31,5 Sekunden | Six Nines |
| 99,99999% | 3,2 Sekunden | Seven Nines |
Was ist Fehlertoleranz (Fault Tolerance)?
Fehlertoleranz geht über Hochverfügbarkeit hinaus. Anstatt bei einem Ausfall umzuschalten, arbeiten zwei Systeme permanent synchron (Lock-Step-Technologie): Beide Server führen identische Operationen gleichzeitig aus. Bei Ausfall eines Servers läuft der andere sofort weiter — ohne Failover, ohne Neustart, ohne Datenverlust.
Typische FT-Technologien: Stratus everRun, ztC Edge, ztC Endurance.
Technischer Vergleich
| Merkmal | Hochverfügbarkeit (HA) | Fehlertoleranz (FT) |
|---|---|---|
| Unterbrechung bei Ausfall | Sekunden bis Minuten | 0 Sekunden |
| Datenverlust möglich | Ja (Transaktionen, Cache) | Nein |
| Failover nötig | Ja (automatisch oder manuell) | Nein |
| Neustart nötig | Ja (VM oder Dienst) | Nein |
| Synchronisationsart | Shared Storage / Replikation | Lock-Step (Speicher-Checkpoints) |
| Typische Verfügbarkeit | 99,99% (52 Min/Jahr) | 99,99999% (3,2 Sek/Jahr) |
| Komplexität | Mittel (Cluster-Konfiguration) | Gering (2 Server, Software regelt alles) |
| Kosten | Niedriger | Höher (zusätzliche Hardware) |
| Einsatzgebiet | Tolerierbare kurze Ausfälle | Zero-Downtime-Anforderung |
VMware vSphere HA vs. Stratus everRun
VMware bietet mit vSphere sowohl HA als auch FT — aber mit Einschränkungen. Mehr zu VMware-Alternativen
| Merkmal | VMware vSphere FT | Stratus everRun |
|---|---|---|
| Max vCPUs pro VM | max. 8 (Enterprise Plus, ab vSphere 6.7) | Keine Limitierung |
| Max FT-VMs pro Host | 4 | Keine Limitierung |
| Betriebssystem-Support | VMware-kompatible OS | Windows, Linux |
| Separates Monitoring | Nicht integriert | DCM verfügbar |
| Redundantes Internet | Nicht enthalten | becom.one verfügbar |
| Geo-Redundanz | vSphere Replication | SplitSite |
Quellen: VMware vSphere 8 Dokumentation, Stratus everRun Datenblatt
Entscheidungshilfe: HA oder FT?
| Frage | Ja | Nein |
|---|---|---|
| Kostet eine Minute Ausfall > 1.000 EUR? | FT | HA kann reichen |
| Fallen Sie unter NIS2 oder KRITIS? | FT empfohlen | HA kann reichen |
| Laufen Echtzeitprozesse (Fertigung, Leitstellen)? | FT | HA kann reichen |
| Ist Datenverlust im Cache inakzeptabel? | FT | HA |
| Reicht Ihr Budget nur für Cluster-Hardware? | HA | FT prüfen |
Kosten eines Ausfalls
Die Frage ist nicht „Was kostet Fehlertoleranz?“ sondern „Was kostet ein Ausfall?“ Kostenfaktoren bei IT-Ausfall:
- •Produktivitätsverlust (Mitarbeiter können nicht arbeiten)
- •Umsatzausfall (Webshop, Transaktionssysteme, Produktion)
- •Vertragsstrafen (SLA-Verletzungen gegenüber eigenen Kunden)
- •Wiederherstellungskosten (IT-Personal, Überstunden, externe Hilfe)
- •Reputationsschaden (schwer quantifizierbar, aber real)
- •Regulatorische Konsequenzen (NIS2: bis 10 Mio. EUR oder 2% Jahresumsatz) [Quelle: OpenKRITIS]
[SCHÄTZUNG-Warnung: Ausfallkosten-Statistiken beziehen sich oft auf Enterprise-Unternehmen und sind nicht direkt auf den Mittelstand übertragbar]
Häufige Missverständnisse
„Macht RAID meinen Server ausfallsicher?“
RAID schützt vor Festplattenausfall — nicht vor Serverausfall, Netzwerkausfall oder Standortausfall. Es ist eine Komponenten-Redundanz, kein Ausfallsicherheitskonzept.
„Reicht unser Backup als Disaster Recovery?“
Ein Backup schützt Daten, nicht Verfügbarkeit. Die Wiederherstellung dauert Stunden bis Tage — abhängig von Datenmenge und Komplexität.
„Ist Cloud automatisch hochverfügbar?“
Cloud-Anbieter bieten SLAs für ihre Infrastruktur. Die Verfügbarkeit Ihrer Anwendung ist Ihre Verantwortung. AWS garantiert z.B. 99,99% für EC2 — das sind 52 Minuten Ausfallzeit pro Jahr.
„Ist Fehlertoleranz nur für Großunternehmen?“
Stratus-Systeme sind für den Mittelstand konzipiert. Die Einstiegskonfiguration besteht aus zwei Standard-Servern mit everRun-Software. Die Frage ist nicht die Unternehmensgröße, sondern die Ausfallkosten.
Fehlertoleranz oder Hochverfügbarkeit — was brauchen Sie?
In einer kostenlosen 30-Minuten-Analyse bewerten wir Ihre aktuelle Infrastruktur und empfehlen die passende Schutzstrategie. Unverbindlich, technisch fundiert.
+49 30 802020990