Unternehmen hängen immer stärker von ihrer IT-Infrastruktur ab. Fallen Systeme aus, rückt der IT-Notfallmanager ins Blickfeld. [...]
Mario Lohner arbeitet als Director Cloud bei der Allianz-Tochter Syncier. Der IT-Experte hat früher Teams für das IT-Notfallmanagement aufgebaut.
Herr Lohner, was war Ihr spektakulärster Einsatz?
Mario Lohner: Als ich noch in der Automobilzulieferindustrie arbeitete, mussten das IT-Notfallteam und ich mitunter mit einem Privatflugzeug und dem Equipment unterm Arm eingeflogen werden. Die Produktion war weltweit verteilt, jeder Standort hatte sein eigenes Rechenzentrum, seine eigene IT-Infrastruktur, aber oft nicht die IT-Experten, die den kritischen Notfall beheben konnten. So war es unsere Aufgabe, mit den Kollegen vor Ort die Störung zu qualifizieren und zu beheben.
Viele Unternehmen verlagern ihre IT-Systeme ja in die Cloud. Wird dadurch die Arbeit für einen IT-Notfallmanager entspannter?
Lohner: Was Störfälle wie einen Stromausfall im Rechenzentrum betrifft, schon. Diese liegen in der Verantwortung des Cloud-Betreibers, die IT-Experten im Unternehmen haben nicht mehr die volle Kontrolle über die Infrastruktur. Um so wichtiger ist es darum für die Störungsbehebung, dass sie über ein gutes Wissen über die Cloud-Infrastruktur beziehungsweise über ein sehr gutes Netzwerk zum Cloud-Provider verfügen.
Das Spektrum der Cloud-Lösungen ist mittlerweile so groß, dass man ein ganzes Team an Experten braucht. Wenn sehr viele Standorte eines großen Konzerns mit dem Provider verbunden werden müssen, ist eine umfangreiche Security-Infrastruktur notwendig, die Kunde und Provider gemeinsam aufbauen müssen.
Vor welchen Herausforderungen stehen IT-Notfallmanager?
Lohner: Sie sind oft mit einem diffusen komplexen Fehlerbild konfrontiert. Sie müssen Mitarbeiter aus verschiedenen Domänen, die unterschiedliche Komponenten ( Netzwerk, Security, Backend oder Frontend) verantworten, an einen Tisch bringen, so dass sie gemeinsam auf das Fehlerbild schauen können. Bei einem Major Incident in einem großen Unternehmen können das bis zu 40 Menschen sein, die Hälfte davon oft zugeschaltet.
Je komplexer die Systeme beziehungsweise je komplexer die IT-Landschaft mit vielen gewachsenen Systemen ist, je mehr Menschen eingebunden sind, desto diffuser gestaltet sich auch das Fehlerbild. Zudem muss man berücksichtigen, dass nicht alle Systeme so einfach abgeschaltet werden können, um Komplexität zu verringern. Eine Lebensversicherung muss beispielsweise den Zyklus von 50 Jahren und mehr abdecken.
In der Hektik des Störfalls Ruhe bewahren
Wie stressresistent sollten IT-Notfallmanager sein?
Lohner: Ein Incident Manager muss oft eine Pufferfunktion zwischen den Vorständen und den Technikern übernehmen. Letzteren muss er den Rücken freihalten, die nötige Ruhe im Team organisieren, aber auch den Ernst der Lage für das Business im Team transparent machen. Auf der anderen Seite muss ein Incident Manager in der Lage sein, dem fordernden Management zu erklären, warum das Umfeld so komplex ist. Dafür benötigt er ein breites IT-Wissen sowie auch ein Grundverständnis für die Unternehmensprozesse, um beurteilen zu können, wie sich der Fehler auf das Business auswirkt. Er sollte zwischen IT und Business übersetzen, in der Hektik eines Störfalls Ruhe und Gelassenheit bewahren.
Welche kommunikativen Fähigkeiten brauchen IT-Notfallmanager?
Lohner: Idealerweise sollte er klar kommunizieren, was los ist und schon eine Prognose für das Lösen der Störung abgeben. Es ist besser, die Lage realistisch zu bewerten und mit eher defensiven Aussagen ins Rennen zu gehen als zu viel zu versprechen. Ist die Lage nicht zu bewerten, muss man das offen sagen. Auch innerhalb des Incident-Teams, das in der Regel rund um die Uhr im Einsatz ist, muss man sich gut austauschen, so muss etwa die Übergabe zwischen den Schichten passen.
Missverständnisse in Videokonferenzen
Wie verändert das verteilte Arbeiten den Alltag der IT-Notfallmanager?
Lohner: Die Komplexität wird noch höher. In Telkos oder Videokonferenzen können sehr schnell Missverständnisse entstehen, in internationalen Teams kommen oft noch Verständnisschwierigkeiten dazu. Es hilft, im Vorfeld das Vorgehen in Major Incidents zu üben und nicht erst während eines Notfalls lernen zu müssen, wie man als Team funktioniert. So lässt sich der Totalausfall eines Rechenzentrums simulieren und dann können die Experten üben, wie die Meldekette funktioniert, wie sie untereinander kommunizieren oder wie sie ihre Maßnahmen dokumentieren.
Haben Sie durch Ihre Erfahrung mit Störfällen in der IT auch einen Vorteil im Umgang mit der Corona-Pandemie?
Lohner: Wenn man Großstörungen erlebt hat, kann man analytischer und planerischer mit diesen umgehen und diese Haltung ein Stück weit auch auf Corona übertragen. Im Unterschied zur Pandemie ist ein IT-Störfall aber klar auf das Unternehmen begrenzt und betrifft weder mich persönlich noch meine Familie. Das kann bei Corona ganz anders sein. Im Frühjahr haben viele Corona als gefühlte Bedrohung erlebt, die nicht eingrenzbar war.
*Alexandra Mesmer: Karriere und Management in der IT ist ihr Leib- und Magenthema – und das seit über 20 Jahren. Langweilig? Nein, sie entdeckt immer neue Facetten in der IT-Arbeitswelt und im eigenen Job. Sie recherchiert, schreibt, redigiert, moderiert, plant und organisiert.
Be the first to comment