Erfahren Sie mehr über die drei wichtigsten Kennzahlen für den Aufbau einer effektiven Geschäftskontinuitätsplanung und Notfallwiederherstellungsstrategie.
Immer betriebsbereit und verfügbar zu sein, ist das Ziel aller IT-Services. Egal ob Hauptanwendungen, weitere IT-Applikationen, Clouddienste oder sonstige Rechenzentrumsdienste betroffen sind, die Widerstandsfähigkeit von Unternehmen hängt davon ab, wie schnell diese Services nach einer Störung wiederhergestellt werden können. Eine solche Störung kann durch den Ausfall eines einzelnen Servers entstehen. Dann wäre möglicherweise nur eine Anwendung betroffen. Durch einen Netzwerkausfall, der eine Gruppe von Systemen an einem Standort in Mitleidenschaft zieht, würden immer mehrere Dienste betroffen sein. Ein Komplettausfall am gesamten Standort bei einer größeren Katastrophe, würde alle dort befindlichen Dienste angreifen. Die Widerstandsfähigkeit gegen solche Ausfälle ist ein Schlüsselelement des betrieblichen Geschäftskontinuitäts- und Notfallwiederherstellungsplans. Hier werden die Ziele für die Vorbereitungsmaßnahmen, den Schutz, die Reaktion und die Wiederherstellung festgelegt. Dabei geht es darum, die betroffenen Dienste möglichst schnell, effektiv und ohne größere Datenverluste oder Beeinträchtigung der Nutzer wieder betriebsbereit zu machen.
Der Datenspeicher spielt eine wichtige Rolle für die Verfügbarkeit und die Performance der Anwendungen. Speicherbezogene Ausfallzeiten beeinträchtigen den Zugriff auf Anwendungen und damit die Geschäftskontinuität. In diesem Blog gehen wir auf die Bedeutung und Anwendbarkeit der drei grundsätzlichen Kennzahlen ein, die für die Speicherwelt ebenso gelten wie für die IT – wenn nicht sogar mehr. Sie lauten:
- Recovery point objective (RPO)
- Recovery time objective (RTO)
- Recovery time actual (RTA)
Das Sprichwort „weniger ist mehr“ könnte nirgends treffender sein als für dieses Dreiergespann. Je kleiner der jeweilige Wert (gemessen als Zeit) dieser Kennzahlen, umso schneller die Reaktion und die Wiederaufnahme des normalen Geschäftsbetriebs. Im Idealfall würden diese Kennzahlen alle bei null liegen. Sie so nah wie möglich an null heranzubringen, ist das Ziel jedes IT-Teams. Um kürzere Wiederherstellungszeiten zu erzielen, kommt es auf die richtigen Datensicherungs- und Wiederherstellungsabläufe an.
Recovery Point Objective
Stellen Sie sich einen betriebsweiten Zwischenfall vor, bei dem der gesamte Datenspeicher ausfällt und viele Anwendungen betroffen sind. Hier versteht sich RPO als der Zeitraum des Datenverlusts der Anwendungen. Anders ausgedrückt: Der Zeitraum zwischen dem letzten zugreifbaren Datenstand und dem Schadenseintritt. RPO kann als Service-Level-Ziel oder als Kennzahl für die Verlusttoleranz verstanden werden. Welchen Zeitraum mit Datenverlusten kann ein Unternehmen realistisch betrachtet verkraften, wenn ein Speicherausfall den Zugriff auf die Daten beeinträchtigt? Wenn der RPO-Wert im Geschäftskontinuitätsplan als Zeitraum von zwölf Stunden festgelegt wird und das letzte bekannte verfügbare Daten-Backup vor dem Ausfall neun Stunden zurückliegt, wird die RPO-Schwelle nicht überschritten
Recovery Time Objective
RTO ist ein weiteres Service-Level-Ziel, das dazu dient, die von der IT-Abteilung erwartete Zielvorgabe für die Wiederherstellung der Betriebsbereitschaft festzulegen. RTO bezeichnet den Zeitraum, den das Unternehmen als Service-Level festgelegt hat und in dem der betroffene Service nach der Störung (in unserem Fall ein Speicherproblem) wiederhergestellt sein muss. In einem Hochverfügbarkeitsszenario könnte der RTO-Wert bei einem kleinen Zwischenfall fünf Minuten betragen, z. B. bei einem Festplattenausfall, bei dem eine synchrone Kopie der Daten zugreifbar gemacht werden muss. Im Falle eines Disaster-Recovery-Szenarios, in dem der primäre Standort und der DR-Standort weit voneinander entfernt sind, müssen am DR-Standort umfangreiche Daten-Backups verfügbar gemacht werden (in der Regel durch asynchrone Replikation). Dazu müssen viele Verbindungen neu konfiguriert und Services neu gestartet werden, was zu einem RTO von mehreren Stunden oder sogar Tagen führt.
Recovery Time Actual
RTA bezieht sich auf die Zeit, die tatsächlich vergeht, bis die Daten vollständig wiederhergestellt sind und die Speicherkopie für die Anwendungen zugänglich ist. Während RTO ein Sollwert ist, der als Ziel festgelegt wird, ist RTA die tatsächlich benötigte Zeit. Für eine gute Daten-Governance und -Compliance muss die erreichte RTA unter dem im BC/DR-Plan festgelegten RTO-Wert liegen. In machen Fällen simulieren IT-Abteilungen ein DR-Szenario in einer unabhängigen Testumgebung und untersuchen die Wirksamkeit ihrer Backup and Recovery Tools durch die Messung der RTA. Falls man dabei feststellt, dass die RTA-Zeit länger ist als die RTO-Zeit, sollten Sie Ihre Notfallwiederherstellungsstrategie noch einmal überarbeiten, um eine schnelle Wiederherstellung des Geschäftsbetriebs zu gewährleisten.
Die Abbildung unten zeigt eine schematische Darstellung von RPO, RTO und RTA für einen Fall, in dem der tatsächliche Datenverlust und die Wiederherstellungszeit über den Vorgaben liegen. Das heißt, die Failover- und Recovery-Reaktion des Unternehmens erfüllt nicht die Vorgaben aus dem BC/DR-Plan.
Faktoren, die bei der Planung der RPO- und RTO-Ziele berücksichtigt werden sollten
Bei der Festlegung der RPO- und RTO-Werte für ihren BC/DR-Plan müssen IT-Abteilungen mehrere Faktoren berücksichtigen:
- Failover-Automatisierung: Bei einem automatischen Storage Failover sind die RPO- und RTO-Werte viel niedriger als bei einem manuellen Wiederherstellungsprozess. Ihre Zielwerte sollten also darauf basieren, wie stark automatisiert und wie schnell Ihr Failover-Prozess ist.
- Kopierfrequenz von Daten für deren Wiederherstellung: Speziell der RPO-Wert hängt davon ab, wie aktuell Datenkopien sind, d. h. wie weit die letzte Kopie vor der Störung liegt. Wird die Kopie des zuletzt bekannten guten Datenstatus verwendet, die am dichtesten vor dem Zeitpunkt des Ausfalls liegt, lassen sich Datenverluste erheblich verringern.
- Entfernung zwischen Speicher und Kopie: Wenn sowohl der Primärspeicher als auch seine replizierte Kopie am gleichen Standort verfügbar sind, können RPO und RTO niedrig sein. Befinden sie sich an unterschiedlichen Standorten, müssen die Zielwerte je nach geografischer Entfernung zwischen den Orten angepasst werden.
- Bewertung der Bedeutung der Anwendungen: Die IT legt die Wiederherstellungskennzahlen anhand der geschäftlichen Relevanz der Anwendung fest. Handelt es sich um eine unternehmenskritische Anwendung mit häufig abgerufenen Daten? In diesem Fall müssen RPO und RTO niedriger sein, damit die Anwendung in einer konzertierten Aktion möglichst schnell wieder in Betrieb genommen werden kann.
- Wirtschaftlichkeit der Wiederherstellung: RPO, RTO und RTA werden von verschiedenen Faktoren der IT-Umgebung beeinflusst. Dazu zählen unter anderem die für Backup und Recovery verfügbaren Tools, der Kenntnis- und Schulungsstand der beteiligten IT-Mitarbeiter, die Verfügbarkeit von Snapshots/Backup-Kopien, die Kosten für zusätzliche Hardware und Speicherkapazität und so weiter. Die Gesamtkosten, die mit einem ehrgeizigen RTO-Wert verbunden sind, können also relativ hoch sein. Durch die Ermittlung der finanziellen Auswirkungen kann der RTO-Wert so eingestellt werden, dass er sowohl erreichbar als auch bezahlbar ist.
Die drei Verteidigungslinien von DataCore Software-Defined Storage
DataCore SANsymphony ist eine branchenführende Software-Defined Storage (SDS) Lösung, die viele direkt einsatzfertige Datenschutztechniken beinhaltet. Mit deren Hilfe können Sie Ihre Geschäftskontinuitäts- und Notfallwiederherstellungsziele erreichen und RPO und RTO verbessern.
Die erste Verteidigungslinie ist die Herstellung einer lokalen Redundanz mithilfe von SYNCHRONER SPIEGELUNG. SANsymphony repliziert die Daten aus dem aktiven Speicher automatisch auf einen Spiegel und verknüpft sie zu einem aktiv-aktiv Verbund. Bei einem Geräteausfall greift SANsymphony automatisch auf die gespiegelten Daten zurück und gewährleistet so die Geschäftskontinuität und Verfügbarkeit für die Anwendung. Sobald das betroffene Speichergerät wieder einsatzfähig ist, führt SANsymphony eine Re-Synchronisation durch und stellt die ursprüngliche Verbindung des Geräts zur Anwendung wieder her.
Sowohl Failover als auch Failback sind Zero-Touch-Prozesse, die ohne manuelle Intervention ablaufen. Und da diese Prozesse fast in Echtzeit ablaufen, liegen sowohl RPO als auch RTO bei null, sodass Datenverluste oder Beeinträchtigungen der Anwendung ausgeschlossen sind. Auch die dreifache synchrone Spiegelung wird von SANsymphony unterstützt und erhöht die Ausfallsicherheit.
Die zweite Verteidigungslinie ist die Notfallwiederherstellung eines kompletten Standorts oder Rechenzentrums basierend auf ASYNCHRONER REPLIKATION. Hier erstellt SANsymphony Kopien der Daten des primären Standorts für den DR-Standort und ermöglicht die Redundanz über größere Entfernungen hinweg. Aufgrund der Distanz zwischen den Standorten erfolgt die Datenspiegelung asynchron, d. h. nicht in Echtzeit. Bei einem Standortausfall wechselt SANsymphony zum DR-Standort und ermöglicht die Fortführung des Geschäftsbetriebs mit minimaler Störung.
- Der RTO-Wert ist hier meist größer, da die Verbindung zum DR-Standort für die Produktionsanwendung konfiguriert werden muss und die damit zusammenhängenden Services neu gestartet werden müssen.
- Der RPO-Wert hängt wiederum von der replizierten Kopie der zuletzt bekannten „guten“ Daten ab und beträgt typischerweise nur Minuten.
Tatsächlich trägt das Standort-Failover dazu bei, im Falle einer Naturkatastrophe die Redundanz zu sichern. Es kann jedoch auch für kontrollierte Standortwechsel z. B. bei geplanter Standortwartung, geplanten Stromausfällen, Bauarbeiten usw. genutzt werden. Darüber hinaus ermöglicht die bidirektionale Replikationsfunktion in SANsymphony den Wechsel zwischen dem Primär- und dem Remote-Standort, wenn der IT-Betrieb dies erfordert.
Die dritte Verteidigungslinie ist die Rückkehr zum letzten bekannten Status mit „guten“ Daten. Hierzu unterstützt SANsymphony drei Techniken: BACKUP (durch Integrationen mit Backup-Lösungen wie Veeam), SNAPSHOT, und CONTINUOUS DATA PROTECTION (CDP). Alle drei sind zeitpunktspezifische Wiederherstellungsmethoden, bei denen in regelmäßigen Abständen Datenkopien gespeichert werden, d. h. als Backup (in der Regel weniger häufig), als Snapshot (in kürzeren Abständen) und als CDP-Rollback (mit einer Granularität von einer Sekunde, um Daten punktgenau im unmittelbar vor Eintritt der Störung bekannten guten Zustand wiederherzustellen).
CDP speichert nur die Änderungen der Daten und kopiert nicht jedes Mal das gesamte Speicher-Volume. Auf der Basis eines vom IT-Administrator gewählten Punkts vor dem Eintritt der Störung erstellt CDP ein Rollback-Volume, das dann der Anwendung bereitgestellt wird. Wenn man im Falle eines Ransomware-Angriffs beispielsweise an den Zeitpunkt unmittelbar vor dem Angriff zurückkehren möchte, ist CDP dafür ideal geeignet. Damit lassen sich RPO-Werte nahe null und sehr gute RTO-Werte erzielen.
Hinweis: CDP unterstützt das Zurückspielen der Daten innerhalb der letzten 14-Tage. CDP ist kein Ersatz für Backups oder Snapshots und empfiehlt sich als ergänzendes Element für die Wiederherstellung.
Die Abbildung unten zeigt die Unterschiede von RPO und RTO zwischen Backup, Snapshot und CDP mit SANsymphony. Bei CDP ist der RPO-Wert der niedrigste.
Die 3-2-1-Strategie zur Optimierung der BC/DR-Ziele
Die 3-2-1-Regel ist eine bewährte BC/DR-Strategie, die dazu beiträgt, Ausfälle zu minimieren und Wiederherstellungszeiten zu verkürzen. Laut dieser Formel empfiehlt es sich, mindestens drei (3) Kopien Ihrer Daten auf zwei (2) unabhängigen Speichermedien zu haben, von denen sich (1) Kopie der Daten an einem externen Standort befinden sollte. Falls einer der beiden Speicherstandorte unerreichbar wird, kann auf die andere Datenkopie zurückgegriffen werden. Diese Strategie verbessert als praxisbewährtes Verfahren die betriebliche Kontinuität.
Zusammengefasst: RPO, RTO und RTA sind ausschlaggebend für jede BC/DR-Planung. Wenn man versteht, wie diese Elemente in Ihrer IT-Umgebung und in Bezug auf Ihre geschäftlichen Anforderungen zusammenspielen, können Sie realistische Ziele setzen und schnellere Wiederherstellungszeiten erreichen. Mit DataCore SANsymphony, können Sie die integrierten Funktionen wie Spiegeln, Replikation, Snapshots, CDP usw. nutzen, um Ihre Wiederherstellungsziele (auf null oder beinahe null) zu verbessern und damit die Auswirkungen von Störungen auf Anwendungszugriff und -verfügbarkeit zu verringern. Diese Kennzahlen sind auch für die Einhaltung gesetzlicher Vorgaben wichtig, da sich Prüfer Ihre Wiederherstellungs-SLAs ansehen könnten, um sie mit den tatsächlichen Werten zu vergleichen. Kontaktieren Sie uns, um herauszufinden, wie SANsymphony Ihnen dabei helfen kann, funktionierende Datenschutz- und Wiederherstellungsstrategien zu implementieren, um Ihre Organisation bzw. Ihr Unternehmen widerstandsfähig gegen Ausfälle zu machen.