Funktionierende Backup- und Recovery-Strategien werden immer wichtiger. Ein bisschen Paranoia kann da durchaus hilfreich sein. [...]
Die Fähigkeit, IT-Systeme und Daten schnell wiederherzustellen, kann über Leben und Tod entscheiden. Das machte Mitte September ein Vorfall in der Uniklinik Düsseldorf auf dramatische Weise deutlich. Hacker hatten rund 30 Server des Krankenhauses verschlüsselt, um Lösegeld zu erpressen. Infolge der ausgefallenen IT-Infrastruktur konnten Rettungswagen die Klinik nicht mehr anfahren. Eine Notfallpatientin musste deshalb ins weiter entferntere Wuppertal gebracht werden. Wertvolle Zeit ging verloren. Kurze Zeit später verstarb die Frau.
Die Staatsanwaltschaft Köln sieht mittlerweile genügend Anhaltspunkte, um wegen des Verdachts auf fahrlässige Tötung zu ermitteln. Da hilft es auch nicht, dass die Cyberkriminellen eigentlich die Düsseldorfer Heinrich-Heine-Universität attackieren wollten und die Entschlüsselungs-Codes auch ohne Lösegeld herausrückten, nachdem sie erfuhren, dass sie die Uniklinik lahmgelegt hatten.
Ransomware sucht Notfallplan
Dieses Beispiel zeigt, wie wichtig es heute ist, einen funktionierenden Notfallplan in der Schublade zu haben sowie seine Systeme und Daten schnell wiederherstellen zu können. Das gilt nicht nur für die Betreiber von kritischen Infrastrukturen, sondern für jedes Unternehmen – auch wenn keine Menschenleben unmittelbar vom IT-Betrieb abhängen. Fallen die Systeme aus, steht in aller Regel auch das Business still. Zu groß sind mittlerweile die Abhängigkeiten von einer funktionierenden IT. Dass ein E-Commerce-Riese wie Amazon sein gigantisches Handelsvolumen mit Papierformularen und per Faxgerät abwickeln würde, ist undenkbar.
Wie schnell IT-Infrastrukturen lahmgelegt werden können, haben die zahlreichen Ransomware-Attacken der vergangenen Jahre gezeigt, die eine Spur der Verwüstung durch die Netze der Welt gezogen haben. Logistikriese Maersk, der Pharmakonzern Merck, Fresenius, Garmin oder aktuell die Software AG sind nur einige der prominenten Opfer von „Wannacry“, „NotPetya“, „Ekans“ und Co. Die Liste ließe sich beliebig fortsetzen. Auch kritische Infrastrukturen wie Energieversorger und Krankenhäuser gerieten zuletzt immer wieder ins Visier der Erpresser.
Diese kritische Sicherheitssituation wird sich auf absehbare Zeit nicht entspannen – im Gegenteil. „Es etabliert sich eine organisierte, autonome Wirtschaft, deren Wirkung die Schädigung von (elementaren) Bestandteilen der Gesellschaft darstellt“, heißt es in einem aktuellen Lagebericht des Bundeskriminalamts. Die Täterszene agiere professionell, stellten die Beamten fest. Das betreffe nicht nur das Coding von Malware, sondern zeige auch die Arbeitsteilung der Underground Economy. Dadurch stiegen Quantität und Qualität von Cyberangriffen weiter an. Die Bedrohungslage werde sich 2020 weiter verschärfen, lautet die düstere Prognose der Behörde.
Auch der Digital Defense Report 2020 von Microsoft macht wenig Hoffnung. Die Cyberkriminalität ist in den vergangenen Jahren zu einem hochprofessionellen „Geschäft“ herangewachsen, so das Fazit des Softwarekonzerns. „Die Akteure sind gut organisiert, äußerst flexibel, bestens ausgerüstet und sie bieten ihre Produkte und Dienste weltweit zum Verkauf an“, heißt es in dem Bericht. Erpressung, Diebstahl und Spionage seien Standard-Services im Portfolio globaler Cybercrime-Organisationen. Angriffe und Methoden würden immer komplexer und raffinierter. Gerade die Gruppierungen, die hinter den Erpressungen mit Ransomware stehen, wüssten genau über die Abläufe in Unternehmen Bescheid. Die Zeit, die sie zwischen der Kompromittierung eines Netzwerks und ihrer Lösegeld-Forderung verstreichen lassen, habe sich im Rahmen der COVID-19-Krise immer weiter verkürzt. In manchen Fällen vergingen gerade einmal 45 Minuten.
Da es 100-prozentige Sicherheit gegen Hackerangriffe trotz aller IT-Security-Bemühungen wohl niemals geben wird, müssen die Unternehmen für den Notfall vorsorgen. Backup- und Recovery ist wichtiger denn je. Das betrifft nicht allein die Technik. Auch die Abläufe für den Notfall wollen gut geplant und eingespielt sein.
Welches Ausmaß eine Systemwiederherstellung nach einem Komplettausfall haben kann, schilderte der Ex-SAP-CEO und Maersk-Aufsichtsrat Jim Hagemann Snabe vor zwei Jahren auf dem Cyber Security Forum in Davos. Der Logistikkonzern war Ende Juni 2017 von der Malware NotPetya lahmgelegt worden. Die Angreifer waren in diesem Falle nicht auf Erpressung aus, sie wollten schlicht und ergreifend die IT-Infrastruktur zerstören.
In Folge der Attacke mussten die Dänen 4.000 Server und 45.000 PCs neu aufsetzen sowie 2.500 Applikationen neu installieren, berichtete Snabe. Das gelang zwar binnen zehn Tagen, doch in dieser Zeit die Geschäfte fortzuführen sei undenkbar gewesen. „Alle 15 Minuten landet irgendwo auf der Welt ein Maersk-Schiff mit 10.000 bis 20.000 Container in einem Hafen“, sagte Snabe, „und das ohne IT-Unterstützung!“ Der Vorfall sei ein Weckruf für die Skandinavier gewesen, sagte Snabe und sprach von einem Schaden in Höhe von 250 bis 300 Millionen Dollar. Die Angriffsfläche werde noch größer: „Schon bald sind alle Dokumente digital und die Schiffe fahren autonom.“
Um Katastrophen zu vermeiden, müssen Unternehmen das Thema Backup & Recovery besonders ernstnehmen. Angesichts der weiter steigenden Komplexität von IT-Infrastrukturen ist eine Notfallstrategie heute kein leichtes Unterfangen. Mussten die Verantwortlichen dafür früher in aller Regel nur das eigene Data Center mit den dort betriebenen Servern und Storage-Systemen im Blick behalten, ist der Rahmen heute mit hybriden Landschaften, Multi-Cloud-Systemen sowie Themen wie Edge Computing und Internet of Things (IoT) viel weiter gefasst. Dazu kommt, dass Systemkonfigurationen nicht mehr so fest in Stein gemeißelt sind, wie noch vor einigen Jahren. Die IT will ja flexibel auf sich ändernde Business-Anforderungen reagieren können.
Was Backup & Recovery braucht
Entsprechend variabel sind die IT-Infrastrukturen ausgelegt. Softwarecontainer erlauben das Verpacken von Anwendungen und Workloads. Die Bausteine sollen sich vom eigenen Rechenzentrum in die Public Cloud und dort von einem Hyperscaler zum anderen verschieben lassen. Dazu kommt, dass sich die Philosophie einer zentralen Datenhaltung in Form einer Datenbank oder eines Data Warehouse als Single Point of Truth überholt hat. Heute geht man verstärkt dazu über, die Daten dort zu analysieren, wo sie entstehen und entsprechende Analytics- oder KI-Anwendungen zu den Daten zu bringen. In Sachen Flexibilität und Agilität mag das vielversprechend sein – aus Sicht der Business-Continuity-Profis ist es ein Horrorszenario.
Damit die Backup- und-Recovery-Spezialisten eine Chance haben, empfiehlt sich ein strukturiertes Vorgehen und Planen. Folgende Punkte sollten Anwenderunternehmen dabei beachten:
- Es ist wichtig, die unternehmenskritischen Anwendungen und Services zu identifizieren und zu priorisieren. Dienste, ohne die der Betrieb nicht funktioniert, sollten spätestens 15 Minuten nach einem Ausfall wieder laufen, lautet eine Faustregel.
- Für die Definition von Ausfallzeiten und Datenverlusten gibt es Kennzahlen: Das Response Time Objective (RTO) legt fest, wie viel Zeit vergehen darf, bis eine Anwendung wieder läuft. Das Response Point Objective (RPO) gibt an, wie viele Daten während einer Downtime maximal verloren gehen dürfen. In beiden Punkten sollten sich Unternehmen auf eine Schmerzgrenze für jede wichtige Anwendung festgelegt haben. Die beste Kennzahl hilft rein allerdings nicht, wenn es keinen Plan gibt, wie man sie erreichen will. Deshalb gilt es, einen Maßnahmenplan zu entwickeln, mit dem die Systeme wiederhergestellt werden können.
- Dabei helfen kann Automatisierung. Sind die kritischen Anwendungen und Dienste identifiziert sowie Prozesse für die Widerherstellung im Katastrophenfall definiert, gilt es, diese Abläufe so weit wie möglich zu automatisieren. Müssen die einzelnen Recovery-Schritte von Hand abgewickelt werden, unterlaufen den Verantwortlichen mit hoher Wahrscheinlichkeit stressbedingte Fehler, die den Wiederherstellungsprozess sogar komplett scheitern lassen können. Automatisierte Failover- und Failback-Prozesse laufen dagegen selbständig ohne menschliches Zutun ab. Fällt eine kritische Infrastruktur aus, sorgt ein Failover dafür, dass ein Reservesystem automatisch einspringt – im besten Fall sogar, ohne dass die User etwas davon merken. Wenn dann das Primärsystem wieder läuft, werden die Anwendung oder der Service durch das Failback-System automatisch wieder auf das Ausgangssystem umgeschaltet. Dabei wird das Ausgangssystem um jene Workloads und Daten aktualisiert, die während des Ausfalls auf dem Sekundärsystem angefallen sind.
- Um Datenverlusten vorzubeugen, sollten Anwender darauf achten, diese zu entkoppeln. Das verhindert, dass bei einem Ransomware-Angriff mehrere Sicherheitskopien verschlüsselt werden und die Betriebe am Ende mit leeren Händen dastehen. Für eine Entkoppelung gilt es, die Replizierung der Daten logisch zu konfigurieren. Dafür wird ein erfolgreiches primäres Backup logisch an einen zweiten beziehungsweise mehrere weitere Standorte repliziert. Greifen Hacker das erste Backup an und verschlüsseln die dort liegenden Daten, stehen die davon entkoppelten Backups für einen Restore zur Verfügung.
- Anwender sollten ihre Pläne für Backup & Recovery flexibel und anpassungsfähig gestalten. Das erfordern die zunehmend komplex und heterogen zusammengesetzten IT-Infrastrukturen. On-premises-Rechenzenten, Cloud-Bestandteile, virtuelle Maschinen, Container etc. – je nach Situation gilt es zu entscheiden, ob ganze Bausteine wie ein Data Center, oder einzelne VMs mit kritischen Anwendungen wiederhergestellt werden müssen. Je detaillierter solche Szenarien ausgearbeitet sind, desto sicherer und schneller funktioniert eine Systemwiederherstellung nach einem Ausfall.
- Multi-Cloud-Umgebungen erschweren Backups – gerade wenn für jede Cloud separat ein Backup gefahren werden muss. Es empfiehlt sich, heterogen zusammengesetzte Cloud-Umgebungen hinsichtlich der Backup- und Desaster-Recovery-Strategie zentral zu managen. Dabei helfen sogenannte Snapshot-basierte Cloud-Backup-Lösungen. Damit können Unternehmen einheitliche Policies für die Datensicherung über verschiedene Cloud-Umgebungen hinweg einrichten und steuern.
- Das wichtigste zum Schluss: Betriebe müssen testen, ob ihre Abläufe für Daten-Backups und Systemwiederherstellungen funktionieren und wie lange sie dauern. Die besten Pläne und Strategien nutzen nichts, wenn sie in der Praxis nicht greifen. Dieser Aspekt wird häufig vernachlässigt, weil Tests in aller Regel aufwendig sind. Erschwerend hinzu kommt, dass die Systeme möglichst regelmäßig geprüft werden müssen, weil sich die Konfigurationen häufig verändern.
Um den damit verbundenen Prüfaufwand gering zu halten, integrieren Backup & Recovery-Anbieter mittlerweile entsprechende Funktionen in ihre Plattformen. Damit laufen entsprechende Tests automatisch im Hintergrund und liefern Administratoren über ein Dashboard in Echtzeit Informationen zur aktuellen Situation. Aus diesen Analysen lässt sich beispielsweise ablesen, ob Zeitvorgaben eingehalten werden können, wie schnell ein Failover/Failback funktionieren würde oder wie viele Daten bei einem kompletten Ausfall verlorengingen.
Backup ist gut – Disaster Recovery ist besser
Zu guter Letzt: Die Verantwortlichen in den Unternehmen sollten auch mit dem Unvorhersehbaren rechnen. Ein wenig Paranoia kann in diesem Fall durchaus weiterhelfen. Das hätte vor drei Jahren wohl auch für Maersk gegolten. Natürlich hatte auch der dänische Logistiker ein Backup & Recovery Konzept in der Schublade. Einziges Manko: Es griff zu kurz, weil niemand mit einem derartigen Maß an Zerstörung gerechnet hatte.
Im vergangenen Jahr drangen weitere Details über Maersks IT-Katastrophe an die Öffentlichkeit, und es zeigte sich, dass die Backup-Strategie versagt hatte. Die Schadsoftware habe sich innerhalb von nur sieben Minuten im gesamten Netz ausgebreitet, berichtete CIO und CTO Adam Banks im August vergangenen Jahres auf dem Kongress InfoSecurity in London. Der Grad an Zerstörung sei gigantisch gewesen. Betroffen seien auch die Implementierung des Dynamic Host Configuration Protocol (DHCP) und das Active Directory gewesen. „Alles, was auf Microsoft basierte und ans Netz angeschlossen war, war völlig zerstört“, konstatierte Banks. Auch die Backups waren wertlos. Anwendungen konnten von den Sicherungen nicht wiederhergestellt werden, da sie sofort wieder infiziert worden wären.
„Es gab keinen Plan bei Maersk, wie man mit einer Attacke dieses Ausmaßes umgehen sollte“, gab Banks zu. Dabei hatten die Dänen am Ende noch Glück im Unglück: Das IT-Team fand eine unversehrte Kopie des Active Directory am Standort Lagos. In der Hauptstadt Nigerias war ausgerechnet zum Zeitpunkt des NotPetya-Angriffs der Strom ausgefallen, so dass die dortigen Maersk-Systeme offline waren.
Banks hat seine Lektion gelernt. Eine tragfähige Strategie rund um Cybersicherheit sowie Backup und Recovery wurde ausgearbeitet. Das klassische Online-Backup reiche längst nicht mehr aus, stellte der CIO fest. Unternehmen hätten in den vergangenen Jahren viel Geld in die Hand genommen, um ihre Tape-Sicherungen durch Online-Backups in der Cloud abzulösen. Doch wenn diese Sicherungen mit dem Firmennetz verbunden seien, wären sie im Angriffsfall genauso betroffen. Banks hat das nun erst einmal so gelöst, dass er rotierend eines seiner Cloud-Backups komplett vom Netz nimmt. Das könne allerdings nur eine Notlösung sein. Es sei zwar relativ einfach, die Leitung zu kappen. Die Systeme wieder ans Netz zu bekommen, dagegen nicht. „Anbieter von Cloud-Diensten müssen Mittel und Wege finden, um das Cloud-basierte Online-Backup zu einer sichereren Lösung zu machen“, forderte der Maersk-CIO.
Die Technik ist allerdings nur die eine Seite der Medaille. Um das eigene Disaster Recovery (DR) auf eine solide Basis zu stellen braucht es darüber hinaus die notwendige Manpower und die richtigen Prozesse im Unternehmen, mahnt Forrester-Research-Analyst Neveen Chhabra in einem aktuellen Bericht. Nach wie vor unterschätzten viele Verantwortliche den dafür notwendigen Aufwand. Sie seien der Meinung, die Implementierung entsprechender Tools reiche bereits aus. Das sei jedoch ein fatales Missverständnis, gerade wenn man die Schäden durch Systemausfälle gegenrechne. Dafür fehle in etlichen Vorstandsetagen nach wie vor das Verständnis.
Viele Firmen drücken sich vor Tests
Forrester hat über 70 für das Thema Disaster Recovery verantwortliche IT-Manager befragt. Nicht einmal 40 Prozent derjenigen, deren Systeme in den vergangenen Jahren ausfielen, konnten beziffern, wie hoch der damit verbundene Schaden gewesen sei. Immerhin scheint das Thema angesichts der vielen Horrormeldungen mehr Aufmerksamkeit zu bekommen. Nur noch vier Prozent der Unternehmen räumte ein, keine DR-Strategie zu haben. Wie gut die bestehenden Pläne funktionieren, steht aber auf einem anderen Blatt. 57 Prozent der befragten IT-Manager sprachen von einer unternehmensweiten Strategie. Die übrigen gaben an, es gebe unterschiedliche Einzelpläne, die nicht immer untereinander koordiniert seien. So verwundert es auch nicht, dass nur 38 Prozent der Befragten erklärten, sie fühlten sich für den Notfall gut vorbereitet. Das korrespondiert nicht mit der Kritikalität der Systeme. Nach Angaben der IT-Manager handelt es sich bei zwei Dritteln der von ihnen betreuten Anwendungen und Daten um geschäftskritische Systeme.
Forrester-Analyst Cahbra findet deutliche Worte: „Viele Unternehmen verstehen die Kosten von Ausfallzeiten nur unzureichend. Ihre Prozesse sind unausgereift, die Pläne veraltet. Die Betriebe haben keine automatisierten Wiederherstellungs-Workflows, verfügen nur über eine spärliche Kommunikation zwischen der IT und dem Business und führen nur begrenzt Tests durch.“ In Zeiten, in denen es darum geht, die Verfügbarkeit der geschäftskritischen Systeme hochzuhalten, im beste Fall 24×7, müssten die Firmen erkennen, dass in Sachen Disaster Recovery vieles im Argen liege – sonst werde es ihnen wie Maersk und vielen anderen gehen, die inzwischen wüssten, wie es sich anfühlt, wenn alle Systeme stillstehen.
Martin Bayer ist stellvertretender Chefredakteur der Computerwoche.
Be the first to comment