RAID-Systeme bieten im Allgemeinen den Charme geringer Kosten bei hoher Speicherkapazität und relativer Sicherheit. Doch diese vermeintliche Sicherheit birgt auch immense Risiken, insbesondere, wenn es um die Notwendigkeit von Backups geht. [...]
»Never change a running System« lautet das Credo vieler IT-Administratoren. Gemäß diesem Motto wird gerade im Hochverfügbarkeitsumfeld auf Veränderungen an der Serverhardware verzichtet. Eines der Zauberworte hierbei: »Redundant Array of Independant Disks« oder kurz: RAID – also ein Speicherverbund aus mehreren einzelnen Festplatten. Die als vermeintlich sicher geltende RAID-Technologie kommt nach Branchen-Schätzungen heute in mehr als 95 Prozent der Betriebe mit eigenen Servern zum Einsatz
Wegen der relativ geringen Kosten ist der Einsatz von RAID5-Systemen weit verbreitet. Bei RAID5-Verbunden werden die Parity-Daten auf allen angeschlossenen Festplatten verteilt. RAID6, im Handel auch unter dem Namen »Advanced Data Guarding« angeboten, bietet im Vergleich zu RAID5 durch zusätzliche Partity-Informationen noch etwas mehr Sicherheit, da es sogar bei einem Ausfall von zwei Festplatten noch funktioniert. In einem RAID6-Verbund sind mindestens vier Festplatten im Einsatz.
Viele Unternehmen rechnen nicht damit, dass mehrere Festplatten gleichzeitig ausfallen können und vernachlässigen die unbedingt erforderlichen Datensicherungen. Doch das Argument, dass mehrere Datenträger nicht gleichzeitig ausfallen, ist pauschal nicht haltbar. Durch einen Head-Crash können Festplatten fatal beschädigt werden. Spannungsspitzen – etwa durch Blitzschlag – können zum Ausfall führen. Nicht zu vernachlässigen sind auch Produktionsfehler, unzureichende Kühlung oder Stoßeinwirkung beim Transport. Eine weitere Fehlerquelle ist die integrierte Firmware der RAID-Controller aufgrund fehlerhafter oder schlecht programmierter Controller-Software – die Tendenz ist laut Attingo Datenrettung stark steigend. Fakt ist, dass bei RAID5 ein, bei RAID6 maximal zwei Datenträger ausfallen dürfen, unabhängig von der Gesamtanzahl der Festplatten.
REBUILDEN UND RESIZEN ALS FEHLERQUELLE Wenn ein Datenträger ausfällt, muss dieser ausgetauscht werden. In solchen Fällen kann der Administrator versuchen, die Daten der beschädigten Festplatte innerhalb des RAID-Systems zu rekonstruieren. Der RAID-Controller kann die Daten einer defekten Festplatte durch Auslesen der noch funktionsfähigen Festplatten neu berechnen. Tritt während dieses Rebuilds jedoch nur ein einziger Lesefehler auf, wird der Prozess abgebrochen und das RAID meldet sodann einen weiteren ausgefallenen Datenträger. Der Wiederherstellungsvorgang bricht ab und auf das gesamte Speichersystem ist kein Zugriff mehr möglich.
Eine ähnliche Problemstellung ist beim Resizen von einem RAID-Verbund gegeben. Durch das Hinzufügen oder Entfernen von Festplatten oder der Wechsel auf andere Kapazitäten muss ebenfalls der komplette Datenbereich aller Festplatten gelesen werden. Je nach RAID-Hersteller erfolgt der Prozess des Umkopierens der Daten und Neuberechnung der Parity sequentiell oder nach einem geordneten Chaos-Prinzip. Sollte nun während diesem Vorgang beispielsweise ein Lesefehler auf einer der ursprünglichen Festplatten auftreten, bricht auch hier alles ab und das Speichersystem ist nicht mehr verfügbar.
FEHLER IN STRESS-SITUATIONEN Schätzungen der Attingo Datenrettung zufolge liegt die Zahl der RAID-Datenrettungsfälle, bei denen »Erste Hilfe« den Schaden noch vergrößert hat, bei über 80 Prozent. Der Grund ist der hohe Druck, unter dem die IT-Verantwortlichen beim Ausfall teurer RAID-Systeme geraten. In solchen Situationen werden falsche Festplatten getauscht, im RAID-Controller BIOS wahllos Kommandos ausgeführt und Support-Anweisungen des Herstellers ausprobiert. Ein weiteres häufiges Problem bei RAID-Systemen in Windows-Servern ist der Einsatz des Windows-Prüfprogramms Checkdisk (CHKDSK) beziehungsweise Scandisk. Während das Hilfstool an anderer Stelle zuverlässig Dateisystemfehler reparieren kann, führt es beim Ausführen in RAID-Verbunden zu Schäden, da es die innere Logik des RAID-Systems nicht beachtet und somit zerstört.
DER SUPER-GAU: AUSFALL VIRTUELLER SYSTEME Besonders brisant ist der steigende Anteil an virtualisierten Systemen. Doch Experten für Datenrettung warnen vor den Schattenseiten dieser Technologie. Löscht man etwa auf einem Server irrtümlich eine Datei, ist das meistens leicht korrigierbar, löscht man jedoch auf dem Host-System einen ganzen virtualisierten Server – und das mit nur einem Mausklick – sind damit gleich der gesamte Server und sämtliche Daten verloren. Bedienungsfehler sind bei virtualisierten Umgebungen keine Seltenheit und fungieren wie eine Zeitbombe, wenn keine Sicherungen vorhanden sind.
Tatsächlich häufen sich in letzter Zeit nach Angaben der Attingo Datenrettung Ausfälle von virtuellen Systemen. Eine Datenrettung ist dabei möglich, in vielen Fällen jedoch aufwendiger. Der Grund: Die Host-Dateisysteme sind oft proprietär, das heißt, sie sind in Eigenentwicklung des jeweiligen Herstellers entstanden und daher auch nicht öffentlich dokumentiert. Laufendes zeit- und kostenintensives Reverse-Engineering ist Voraussetzung, um den Kunden im Ernstfall schnell helfen zu können. Das Knowhow in virtualisierter Umgebung über Host-Betriebssysteme und logische Volume Manager, Host-Dateisystemen, Gast-Betriebs- und Dateisystemen, sowie in weiterer Folge auch über Dateiformate ist ebenfalls essentielle Voraussetzung für eine erfolgreiche Datenrekonstruktion bei Server- und Storage-Systemen.
Neben physikalischen Schäden lauern aber noch weitere Gefahren. Festplatten-Verbunde bieten keinerlei Schutz bei Fehlern von außen. Weil RAID-Systeme sich gegenüber dem Betriebssystem genauso verhalten wie eine einzelne Festplatte, kann diese nicht gegen von außen verursachte Fehler schützen. Zu diesen zählen beispielsweise Hacking-Angriffe, manuelles Löschen, Probleme mit der Datenbank oder Software-Bugs. Oft wird in der Gesamtbetrachtung die Möglichkeit der logischen Beschädigungen deutlich unterschätzt.
Be the first to comment