Bei einem IT-Incident stehen oft zwei Dinge im Vordergrund: Zum einen die Stabilisierung der Situation und zum anderen die Kontrolle über die Berichterstattung. Leider verpassen Unternehmen oft die Chance, die sich aus dieser Situation ergibt: Das Lernen, um beim nächsten Incident besser reagieren zu können und den Schaden so gering wie möglich zu halten. [...]
Was allein ein fehlerhaftes Update anrichten kann, hat sich erst vor wenigen Tagen gezeigt. Der Anbieter einer weltweit verbreiteten Enterprise Detection und Response (EDR) Schutzsoftware für Endgeräte hat durch eines seiner regelmäßigen Updates zu einer großflächigen, globalen Störung bei einer Vielzahl von Unternehmen geführt: Teilweise war der Flugverkehr lahmgelegt, zu vorübergehenden Störungen kam es unter anderem auch in Supermärkten, Banken und Krankenhäusern. Zeitgleich gab es einen Konfigurationsfehler bei einem großen Cloud-Anbieter. Ob und inwiefern beide Vorfälle zusammenhängen, ist bisher unklar. Wenn jedoch kritische Infrastrukturen von ernsthaften IT-Vorfällen betroffen sind, geht es um viel – und nicht nur um viel Geld.
Für Unternehmen sind solche Incidents – auch wenn sie nicht gleich ein weltweites IT-Chaos verursachen – eine enorme Herausforderung. Sie geschehen in Zeiten, in denen ohnehin jeder und alles am Limit arbeitet. Zudem legen sie häufig Schwachstellen in der Kommunikation offen. Bei all den negativen Auswirkungen wird oft übersehen, dass sich Incidents – einmal geschehen – auch als starkes Tool für das Lernen und damit das Wachstum eines Unternehmens nutzen lassen.
Aus Fehlern lernen
Bei einem IT-Incident stehen oft zwei Dinge im Vordergrund: Zum einen die Stabilisierung der Situation und zum anderen die Kontrolle über die Berichterstattung. Leider verpassen Unternehmen oft die Chance, die sich aus dieser Situation ergibt: Das Lernen, um beim nächsten Incident besser reagieren zu können und den Schaden so gering wie möglich zu halten. Zwar kommunizieren Unternehmen meist, dass sie das Lernen unterstützen. Doch viele haben einfach noch nicht erkannt, welche speziellen IT-Kenntnisse erforderlich sind, um die notwendigen Kennzahlen zu ermitteln, die rund um einen IT-Incident auschlaggebend sind. Genauso wichtig ist es, diese Erkenntnisse innerhalb des Unternehmens zu verbreiten, damit Mitarbeiter und Führungskräfte daraus lernen können und sich die Chance auf Wachstum ergibt.
Unternehmen verlassen sich bei IT-Vorfällen meist auf eine kleine Personengruppe, die sofort eingreift und die Situation klärt. Das sind Experten, die wissen, was zu tun ist und an wen sie sich wenden müssen. Doch allein auf eine kleine Anzahl von Spezialisten zu setzen, birgt große Gefahren. Zudem neigen Unternehmen dazu, Mitarbeiter durch GenAI zu ersetzen. Die weitaus bessere Strategie wäre, GenAI zu nutzen, um mehr Mitarbeiter weiterzubilden und zu entwickeln, damit im Notfall mehr Experten für das Incident-Management zur Verfügung stehen.
Drei Tipps für den Ernstfall
- Bei der Überprüfung von IT-Incidents empfiehlt es sich, die öffentliche Überprüfung von Vorfällen von der internen Überprüfung zu trennen. Ersteres hat zum Ziel, das Vertrauen der Kunden wiederzugewinnen, die interne Überprüfung dient dem Lernprozess. So können die Erkenntnisse aus dem internen Lernprozess auch noch zu einem späteren Zeitpunkt in die externe Kommunikation einfließen. Wichtig ist es, an Tag 1 keine Versprechungen zu machen, um den späteren Lernprozess nicht zu beeinträchtigen.
- Der IT-Vorfall sollte von einem neutralen IT-Spezialisten untersucht werden, der nicht an dem Vorfall beteiligt war. So lässt sich ein unvoreingenommener und offener Blick auf das Ereignis gewährleisten, um ein besseres Gesamtbild zu erhalten.
- Unternehmen sollten sich die Zeit nehmen, um die jeweiligen Perspektiven der IT-Mitarbeiter und der Führungskräfte einzunehmen und ein Verständnis für die unterschiedlichen Positionen zu entwickeln. Ein ernsthafter IT-Vorfall kann diese Kluft noch vergrößern, weshalb der für die Überprüfung des IT-Vorfalls beauftragte IT-Experte bei seinen Interviews und Berichten beide Seiten gleichermaßen erfassen sollte. Daraus lassen sich dann geeignete Empfehlungen für ein verbessertes Incident-Management und damit einen höheren ROI ableiten.
* Nora Jones ist Senior Manager of Product bei PagerDuty.
Be the first to comment