5. Dezember 2025

6. Oktober 2021 Tim Greene* und Julia Krokoszinski

Warum der Facebook-Ausfall eine Lehre sein sollte

Ein schlecht geschriebener Befehl, ein fehlerhaftes Audit-Tool, ein DNS-System, das die Bemühungen zur Wiederherstellung des Netzwerks behindert hat, und die strengen Sicherheitsvorkehrungen in den Rechenzentren trugen alle zu dem siebenstündigen Dumpster Fire bei Facebook bei. [...]

Facebook gibt an, dass die Ursache für den Ausfall am Montag in einer schief gelaufenen Routinewartung lag, die dazu führte, dass die DNS-Server nicht mehr verfügbar waren.

Erschwerend kam hinzu, dass die Techniker von Facebook aufgrund des DNS-Ausfalls nicht mehr aus der Ferne auf die Geräte zugreifen konnten, die sie benötigten, um das Netzwerk wieder in Gang zu bringen.

Das verlangsamte die Dinge, aber sie wurden noch mehr verlangsamt, weil die Rechenzentren über Sicherheitsvorkehrungen verfügen, die Manipulationen erschweren – für jeden. „Sie sind schwer zu knacken, und wenn man erst einmal drin ist, sind die Hardware und die Router so konzipiert, dass sie nur schwer zu verändern sind, selbst wenn man physischen Zugang zu ihnen hat“, heißt es in einem Facebook-Blog von Santosh Janardhan, dem Vizepräsidenten für Technik und Infrastruktur des Unternehmens.

Es hat einige Zeit gedauert, aber sobald die Systeme wiederhergestellt waren, funktionierte das Netzwerk wieder.

Die Wiederherstellung der kundenorientierten Dienste, die über das Netzwerk laufen, war ein weiterer langwieriger Prozess, da das gleichzeitige Hochfahren dieser Dienste eine weitere Runde von Abstürzen verursachen könnte. „Einzelne Rechenzentren meldeten Einbrüche im Stromverbrauch im Bereich von zehn Megawatt, und eine plötzliche Umkehrung eines solchen Einbruchs im Stromverbrauch könnte alles gefährden, von elektrischen Systemen bis hin zu Caches“, schrieb Janardhan.

Insgesamt war Facebook sieben Stunden und fünf Minuten lang nicht erreichbar.

Fehler bei Routinewartung

Zu Beginn des Ausfalls hatte Facebook nur einen Teil des Backbone–Netzwerks für Wartungsarbeiten offline genommen. „Während einer dieser routinemäßigen Wartungsarbeiten wurde ein Befehl mit der Absicht ausgegeben, die Verfügbarkeit der globalen Backbone-Kapazität zu bewerten, wodurch unbeabsichtigt alle Verbindungen in unserem Backbone-Netzwerk unterbrochen und damit die Datenzentren von Facebook weltweit abgeschaltet wurden“, schrieb Janardhan.

Das war nicht geplant, und Facebook hatte sogar ein Tool zur Verfügung, um Befehle auszusortieren, die einen solchen katastrophalen Ausfall verursachen könnten, aber es hat nicht gegriffen. „Unsere Systeme sind darauf ausgelegt, solche Befehle zu prüfen, um Fehler wie diesen zu vermeiden, aber ein Fehler in diesem Audit-Tool hat verhindert, dass der Befehl ordnungsgemäß unterbunden wurde“, so Janardhan.

Als das passierte, war das DNS dem Untergang geweiht.

Social Networks: Hilfe, mein Chef folgt mir auf Instagram!

DNS war eine einzige Schwachstelle

Laut Angelique Medina, Leiterin des Produktmarketings bei Cisco ThousandEyes, das den Internetverkehr und Ausfälle überwacht, scheint eine automatische Reaktion auf den Zusammenbruch des Backbone das DNS zum Absturz gebracht zu haben.

DNS (Directory Name Services) antwortet auf Anfragen, wie Web-Namen in IP-Adressen zu übersetzen sind, und Facebook hostet seine eigenen DNS-Nameserver. „Sie haben eine Architektur, bei der ihr DNS-Service in Abhängigkeit von der Serververfügbarkeit hoch- oder herunterskaliert wird“, sagt Medina. „Und als die Serververfügbarkeit auf Null sank, weil das Netzwerk ausfiel, wurden alle DNS-Server außer Betrieb genommen.

Diese Stilllegung wurde dadurch erreicht, dass die DNS-Nameserver von Facebook Nachrichten an Internet-Border-Gateway-Protokoll (BGP)-Router sendeten, die das Wissen über die zu verwendenden Routen zum Erreichen bestimmter IP-Adressen speichern. Die Routen werden routinemäßig an die Router weitergegeben, damit diese den Datenverkehr entsprechend weiterleiten können.

Die DNS-Server von Facebook schickten BGP-Nachrichten, die die angekündigten Routen für sich selbst deaktivierten, so dass es unmöglich war, den Datenverkehr zu irgendetwas im Backbone–Netzwerk von Facebook aufzulösen. „Das Endergebnis war, dass unsere DNS-Server unerreichbar wurden, obwohl sie immer noch betriebsbereit waren. Dies machte es für den Rest des Internets unmöglich, unsere Server zu finden“, schrieb Janardhan.

Selbst wenn die DNS-Server noch über das Internet erreichbar gewesen wären, hätten Facebook-Kunden den Dienst nicht mehr nutzen können, da das Netzwerk, das sie zu erreichen versuchten, zusammengebrochen war. Unglücklicherweise hatten die Facebook-Ingenieure auch keinen Zugang mehr zu den DNS-Servern, die für ihre Fernverwaltungsplattformen erforderlich waren, um die ausgefallenen Backbone-Systeme zu erreichen.

„Sie nutzen ihren DNS-Service nicht nur für ihre kundenorientierten Webangebote“, sagt Medina. „Sie nutzen ihn auch für ihre eigenen internen Tools und Systeme. Durch die vollständige Abschaltung wurde verhindert, dass ihre Netzwerkbetreiber oder Techniker Zugang zu den Systemen erhielten, die sie für die Behebung des Problems benötigten.“

Eine robustere Architektur würde über zwei DNS-Dienste verfügen, so dass einer den anderen sichern könnte, sagte sie. Amazon beispielsweise, dessen AWS einen DNS-Dienst anbietet, verwendet laut Medina zwei externe Dienste – Dyn und UltraDNS – für sein DNS.

Lektionen, die man daraus lernen kann

Der Vorfall offenbart, was nach bewährten Netzwerkpraktiken ein Mangel in der Facebook-Architektur sein könnte. „Warum war das DNS in diesem Fall tatsächlich ein Single Point of Failure“, sagt sie. Ein DNS-Ausfall ohne Backup-DNS könnte zu einem längeren Ausfall führen, „daher denke ich, dass ein redundantes DNS eine wichtige Konsequenz ist“.

Eine weitere allgemeine Beobachtung hat Medina bei Ausfällen von anderen Dienstanbietern gemacht. „Oftmals gibt es bei diesen Ausfällen so viele Abhängigkeiten innerhalb des Netzwerks, dass ein kleines Problem in einem Teil der gesamten Service-Architektur zu einem Problem führt, das dann eine Art Kaskadeneffekt hat“, sagt sie.

„Viele Unternehmen nutzen eine Vielzahl interner Dienste, und das kann unvorhergesehene Folgen haben. Das ist vielleicht eher etwas für Techniker, aber ich denke, es ist es wert, darauf hinzuweisen.“

*Tim Greene ist leitender Redakteur von Network World.

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

5. Dezember 2025 Nicholas Jackson *

Ein Blick in die Praxis zeigt: IT-Sicherheit scheitert nicht an Technologien oder Fehlverhalten, sondern bereits grundsätzlich an einem Mangel an Unternehmenskultur. Wenn Cybersicherheit in einer Organisation nur als eine schlecht durchgesetzte Aufgabe von anderen für andere verstanden wird, entsteht vielleicht eine oberflächliche Compliance, aber keine wirkliche Cyberresilienz. […]

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

5. Dezember 2025

Um den Erfolg agiler Arbeitsweisen zu messen, setzen Österreichs Unternehmen auf klare Kennzahlen. Dabei ist vor allem die Kundenzufriedenheit wichtig. Gleichzeitig gewinnt Effizienz im Hinblick auf die angespannte Wirtschaftslage an Bedeutung: kürzere Projektlaufzeiten werden immer wichtiger, genauso wie die Kontrolle der Implementierungskosten. […]

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

5. Dezember 2025 Daniel Bader *

Zugegeben, am kryptischen Namen des brandneuen 14-Zoll-Notebooks sollte Hersteller Medion noch etwas feilen. Das, worauf es bei einem Laptop aber ankommt, ist vom Feinsten. Der PCtipp-Test. […]

Michael Maier, Director Austria iteratec (c) iteratec

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

4. Dezember 2025 Michael Maier*

Wie weit wird die Evolution der Künstlichen Intelligenz gehen und wie wird sie sich auf Wirtschaft und Gesellschaft als Ganzes auswirken? Was für Privatpersonen interessante Fragen sind, sind für Unternehmer existenzielle Themen, schließlich müssen diese wirtschaftlich gegenüber Konkurrenten bestehen, von denen viele bereits an einer effektiven Nutzung von KI arbeiten. […]

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

4. Dezember 2025

Damit KI-Anwendungen produktiv und skalierbar eingesetzt werden können, benötigen Unternehmen zunächst eine tragfähige technologische und organisatorische Basis. Insbesondere moderne Datenplattformen, klare Governance-Strukturen und eine hohe Datenqualität gelten als Voraussetzung für erfolgreiche KI-Nutzung. Aber genau hier besteht noch Nachholbedarf. […]

Diese Trends bestimmen 2026 das SAP-Universum

4. Dezember 2025

Vor allem Datensouveränität, Compliance und das nahende Ende des Supports für Legacy-Lösungen stehen im Fokus – neben den Dauerthemen Cloud und KI. […]

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

4. Dezember 2025

Die neue Marke vereint den operativen Kern des Tech-Consulting-Dienstleisters und bekräftigt sein Engagement, Wirtschaft und Gesellschaft mit Technologie zu unterstützen. […]

Produktionsplanung 2026: Worauf es ankommt

4. Dezember 2025

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Monitor Eizo FlexScan EV2740S im Test

4. Dezember 2025 Daniel Bader *

Was soll denn an einem 27 Zoll großen Monitor für Büroumgebungen schon besonders sein? Vieles, wie unser Test klar macht. […]

Be the first to comment

Leave a Reply Antwort abbrechen

Ein schlecht geschriebener Befehl, ein fehlerhaftes Audit-Tool, ein DNS-System, das die Bemühungen zur Wiederherstellung des Netzwerks behindert hat, und die strengen Sicherheitsvorkehrungen in den Rechenzentren trugen alle zu dem siebenstündigen Dumpster Fire bei Facebook bei. [...]

Fehler bei Routinewartung

DNS war eine einzige Schwachstelle

Lektionen, die man daraus lernen kann

Mehr Artikel

Be the first to comment

Leave a Reply Antwort abbrechen