Was ist Hochverfügbarkeit?

Definition

Hochverfügbarkeit oder auch High Availability (HA) ist die Klassifizierung eines IT-Systems danach, inwiefern das Systems in der Lage ist, auch beim Ausfall einzelner Komponenten weiterhin reibungslos zu funktionieren beziehungsweise den Ausfall von Komponenten komplett zu kompensieren. Entsprechende IT-Systeme werden mit Hinblick auf eine hohe Verfügbarkeit mit redundanten Komponenten ausgestattet. Systeme, bei denen Hochverfügbarkeit eine wichtige Rolle spielt, befinden sich etwa in Kommunikationssatelliten – oder auch im Virtuellen Kraftwerk.

Um den Begriff der Hochverfügbarkeit zu verstehen, ist es wichtig festzuhalten, dass sich Verfügbarkeit immer auf den anvisierten Zeitraum bezieht. Das kann ein ganzes Jahr sein oder sich aber auch nur auf jeden Werktag zwischen 8:00 und 20:00 Uhr beziehen. Schaut man sich die Klassifizierung von Hochverfügbarkeit an, so überrascht es auf den ersten Blick, dass die Definitionen die Verfügbarkeit weitaus enger fassen, als man es vielleicht annehmen könnte. Eine Verfügbarkeit von 99 % gilt heutzutage nicht mehr als Hochverfügbarkeit, sondern gilt als grundlegend oder normal. Das wird deutlich, wenn man sich anschaut, was beispielsweise 99 % bedeuten, wenn man diesen Wert auf ein ganzes Jahr umrechnen würde. In diesem konkreten Fall hieße das, dass der Anwender akzeptieren müsste, wenn die Systeme pro Jahr 3,65 Tage offline wären. Für IT-Systeme oder Rechenzentren, wie sie etwa auch in Virtuellen Kraftwerken zur Anwendung kommen, wäre dies ein zu langes Zeitfenster, um Ausfälle hinnehmen zu können.
Aus diesem Grund hat die Harvard Research Group (HRG) Anforderung an IT-Systeme definiert. Hochverfügbarkeit fällt nach dieser Einordung in die HRG-Klassen AEC-2.

KlasseBezeichnungErklärung
AEC-0ConventionalFunktion kann unterbrochen werden, Datenintegrität ist nicht essenziell
AEC-1Highly ReliableFunktion kann unterbrochen werden, Datenintegrität muss jedoch gewährleistet sein
AEC-2High AvailabilityFunktion darf nur innerhalb festgelegter Zeiten oder zur Hauptbetriebszeit minimal unterbrochen werden
AEC-3Fault ResilientFunktion muss innerhalb festgelegter Zeiten oder während der Hauptbetriebszeit ununterbrochen aufrechterhalten werden
AEC-4Fault TolerantFunktion muss ununterbrochen aufrechterhalten werden, 24/7-Betrieb (24 Stunden, 7 Tage die Woche) muss gewährleistet sein
AEC-5Disaster Tolerant Funktion muss unter allen Umständen verfügbar sein

Daran anknüpfend hat die Harvard Research Group in der Availability Environment Classification (AEC) folgende Verfügbarkeitsklassen definiert:

  • Verfügbarkeitsklasse 2
  • 99 % = Das System hat eine Ausfallszeit von maximal 87,7 Stunden/Jahr, d. h. 3 Tage und 15:39:36 Stunden
  • Verfügbarkeitsklasse 3
  • 99,9 % = eine Ausfallzeit von weniger als 8:45:58 Stunden/Jahr
  • Verfügbarkeitsklasse 4
  • 99,99 % = eine Ausfallzeit von weniger als 52:36 Minuten/Jahr
  • Verfügbarkeitsklasse 5
  • 99,999 % = eine Ausfallzeit von weniger als 5:16 Minuten/Jahr
  • Verfügbarkeitsklasse 6
  • 99,9999 % = eine Ausfallzeit von weniger als 31,6 Sekunden/Jahr
Hochverfuegbarkeit

Wie wird Hochverfügbarkeit hergestellt?

Hochverfügbarkeit lässt sich primär durch die Einhaltung der folgenden drei Leitgedanken erzielen:

  • Redundanz zur Vermeidung von Single Points of Failure – Fehler einer einzelnen Komponente bedeuten nicht mehr den Zusammenbruch des gesamten Systems
  • Übergeordnete Controller sorgen für einen Wechsel zwischen einzelnen Komponenten innerhalb redundanter Systeme. Diese Controller können aber selbst Single Points of Failure darstellen, wenn sie nicht redundant ausgelegt sind.
  • Fehlererkennung. Das System muss auch bei Anwendung der beiden aufgeführten Prinzipien überwacht und gewartet werden. Entweder überwacht sich das System selbst und erkennt drohende Ausfälle oder es wird von außen überwacht. In einem Störungsfall wird dann von außen auf das Backupsystem gewechselt. Damit dies möglich ist, muss natürlich das gesamte System auf einen solchen Betrieb ausgelegt werden.

Folgende Schritte sorgen für eine Verbesserung der Hochverfügbarkeit:

  • Ein System sollte lediglich über so viele Komponenten verfügen, wie es sie zum Funktionieren benötigt.
  • Jede zusätzliche Komponente bedeutet gleichfalls eine weitere Fehlerquelle.
  • Darüber hinaus sollten menschliche Eingriffe in das System auf ein Minimum reduziert werden – stellen diese doch eine der häufigsten Ursachen für Ausfälle in Systemen dar.

Wie oben bereits erwähnt, ist Redundanz ein wichtiger Faktor in der Herstellung von Hochverfügbarkeit. Je nach Anwendungsfall wird zwischen passiver und aktiver Redundanz unterschieden. Unter passiver Redundanz versteht man, dass selbst unter höchster Auslastung noch genügend Ersatzkapazitäten verfügbar sind. In unserem oben erwähnten Einsatzfall des Satelliten könnte dies bedeuten, dass die Kommunikation immer über zwei parallele Kommunikationskanäle abläuft. Sollte der erste Kanal ausfallen, würde der Betrieb nicht eingeschränkt, weil alle Kommunikation ebenfalls immer über einen weiteren Kanal abgewickelt werden würde. Unter Gesichtspunkten von Hochverfügbarkeit würde man den Wegfall des einen Kanals nicht als problematisch ansehen, wenn das System weiterhin in der Lage ist, die Kernaufgabe wahrzunehmen. Ein Fehler wäre es erst, wenn die gesetzten Spezifikationen nicht mehr eingehalten werden könnten.
Aktive Redundanz hingegen zielt darauf ab, dass es in der Performance keinerlei Einbußen gibt und aktiv der operative Betrieb unterstützt wird. Nehmen wir das Beispiel des Satelliten. Hier würde eine aktive Redundanz bedeuten, dass ein zusätzliches System vorhanden ist, dass den Ausfall des Kommunikationskanals registriert. Als Reaktion auf diesen Ausfall würde ein dritter Kommunikationsweg hinzugeschaltet, damit wieder zwei parallele Kanäle für die Kommunikation sorgen. Es ist auch denkbar in solchen Systemen eine weitere, übergeordnete Monitoring-Ebene zu installieren. Diese Monitoring-Ebene würde im Zweifelsfall Komponenten abschalten und das laufende System neu konfigurieren, wenn es beispielsweise bemerken würde, dass der eine Kommunikationskanal des Satelliten instabil läuft. Wie oben bereits erwähnt, kann auch diese zusätzliche Ebene wiederum selbst Störfälle produzieren. Modellierungen und Simulationen können dann wiederum helfen, dieses Risiko zu minimieren.

Wie hilfreich war dieser Artikel?
[Anzahl der Bewertungen: 3 Durchschnitt: 4.3]