ITSM meets EUEM: Der IT-Störung einen Schritt voraus

Schach statt Poker: Störungsfreie digitale Arbeitsplätze brauchen vorausschauendes Incident- und Change-Management. Entscheidend dafür ist die Verbindung von IT Service Management- (ITSM-) Systemen aus dem Backend mit dem End User Experience Monitoring (EUEM) des IT-Helpdesks. [...]

fear-4202417_1920 — An welchen IT-Stellschrauben gedreht werden muss, um auf effiziente Weise möglichst störungsfreies Arbeiten zu gewährleisten, ist so einfach nicht zu beantworten (c) pixabay.com

Wenn der IT-Helpdesk die Gründe für eine Störung nur vermuten kann, Backend-Administratoren aus IT-Systemanalysen nur erahnen, mit welchen Konsequenzen bei einzelnen Arbeitsplätzen zu rechnen ist und Anwender bei IT-Problemen zwischen Selbsthilfe, Tipps von Kollegen und Anfrage beim Helpdesk schwanken, wird eines offensichtlich: Die drei Welten brauchen eine engere Verbindung – technisch wie auch kommunikativ. Spätestens ab Unternehmensgrößen von 3.000 Mitarbeitern hat Digital Experience Management beiehungsweise die Qualität im Support erheblichen Einfluss auf Produktivität und Kosten.

An welchen IT-Stellschrauben gedreht werden muss, um auf effiziente Weise möglichst störungsfreies Arbeiten zu gewährleisten, ist so einfach nicht zu beantworten – es braucht Kontext und Koordination aus der Gesamtsicht auf IT-Performance-Daten – vom Cloud-Service zum Server bis hin zum Prozessor im Laptop.

Ein integrierender Ansatz für EUEM hat fünf Entwicklungsschritte mit strategisch relevanten Nebeneffekten im Hinblick auf Budgeteinsatz, Compliance und Effizienz durch Automatisierung von Entstörungsprozessen – so die Erfahrung von Nexthink mit Digital Experience Management-Projekten.

1. Von Kontext und Mustererkennung zur Prävention

Ohne Integration werden bei Störungsmeldungen an digitalen Arbeitsplätzen mögliche Fehlerquellen kaskadierend einzeln nachverfolgt, Zusammenhänge manuell gesucht. Ein intelligentes umfassendes Echtzeitdatensystem, das Performance-Werte auf Applikations- und Hardware-Ebene aus Anwendersicht mit Daten aus ITSM-Systemen korreliert, beschleunigt die Klärung der tatsächlichen Hintergründe von Problemen. Big-Data-Analysen und Machine-Learning für übergreifende Systemanalysen vom Server bis zum Anwender machen über Dashboards auf einen Blick ersichtlich, welche Phänomene im Zusammenhang stehen. Das führt zu einer schnellen Lösung und zeigt auf, was eventuell grundlegend angepasst werden muss.

Werden Analysedaten kontinuierlich gegenübergestellt, helfen Trends und Muster dabei, drohende Störungen präventiv zu verhindern.

2. Von der Fehleranalyse zur Priorisierung

Langsame VPN-Verbindungen, ruckelige Videokonferenzen. Dies und vieles andere wird von Mitarbeitern oft als unvermeidlich angesehen und im Homeoffice gern auf Netzprovider oder schwache WLAN-Verbindungen geschoben – was nicht weniger Frust erzeugt.

Die Frage nach einem Ausbau der VPN-Kapazitäten beziehungsweise alternativen Konferenzlösungen wird laut. Doch schaffen die Investitionen wirklich Abhilfe? Eine integrierte Analyse klärt diese Frage: Haben zu viele Anwender standardmäßig das VPN eingeschaltet und blockieren Kapazitäten unnötig? Womöglich sind falsche Einstellungen oder hohe CPU-Auslastung an Laptops die Ursache? Zeigen die Störungen einen zeitlichen Zusammenhang mit Updates oder Patches? Sind Anpassungen an Proxy-Einstellungen oder den jeweiligen Cloud-Applikationen nötig für die Sicherstellung störungsfreier Services?

Die präzise Fehleranalyse liefert demnach wesentliche Entscheidungshilfen, wo IT-Investitionen priorisiert eingesetzt werden sollten.

3. Von strikten Compliance-Regeln zu differenzierten Freiheitsgraden

Viele Compliance– und Sicherheitsvorgaben gehören zu den vorhersehbaren und mit Analysefähigkeiten vermeidbaren Störungsquellen. Dies beginnt bereits damit, wenn bei Endgeräten Festplatten „voll“ laufen, wodurch Sicherheits-Patches oder Software-Updates nicht mehr aufgespielt werden können. Laufen Windows-Rechner längere Zeit durch, werden sie instabil und notwendige Patches durch den fehlenden Reboot nicht aktiviert. Dinge wie diese sind vorab erkennbar und über gezielte Benachrichtigungen an die betroffenen Mitarbeiter in Verbindung mit einem Fernwartungsskript (Remote Action) einfach lösbar, bevor daraus Störungen entstehen.

Thema Schatten-IT: Statt strikter Regelungen ermöglicht ein auf Analytics basierender Ansatz ein differenziertes Vorgehen. Einerseits lassen sich klare Regelungen implementieren, nach denen Services auf der Verbotsliste im Zugriff blockiert oder als lokale Anwendung gelöscht werden. Andererseits kann die IT nicht gelistete Dienste und Anwendungen zulassen und dann analysieren, ob diese in den Unternehmenskatalog aufgenommen werden. Sie kann den Anwender aber auch auf bereits existierende Lösungen verweisen und sich so als echter Sparringspartner aufstellen.

Die Erfahrungswerte, die sich aus analytischer Transparenz ableiten lassen, sind zur Umsetzung von IT-Compliance-Vorgaben auch ein guter Maßstab. Sicherheitslevel und Freiheitsgrade lassen sich so in Verbindung mit Trainings und Aufklärung für eine hohe Akzeptanz ausgewogen gestalten.

4. Von Analysedaten zu automatisierten Lösungsprozessen

Die Kombination aus individualisierten Rückkopplungs-Mechanismen und der Betrachtung von Qualitätsmetriken für Hardware, Software und Web-Anwendungen bereitet den Weg für die automatisierte Störungsbehebung.

Stürzen beispielsweise zentrale Applikationen ab, können automatisch Service-Tickets mit relevanten Daten für den IT-Service-Desk erzeugt und gleichzeitig betroffene Anwender informiert werden – bis hin zur Aktivierung von hinterlegten automatisierten Lösungsverfahren für bekannte Probleme.

Hilfreich ist bereits die Stufe davor: Erfasst der IT-Helpdesk vermehrt Applikationsprobleme und Bluescreens bei einzelnen Mitarbeitern, können neben einem proaktiven Dialog – systemgesteuert und basierend auf den Analysedaten – direkt Maßnahmen wie Konfigurationsänderungen oder Rechneraustausch initiiert werden.

5. Von kryptischen Tickets zur proaktiven Support-Koordination

Die effektive Behebung und Vermeidung von Störungen am digitalen Arbeitsplatz ist nicht zuletzt eine Frage der Kommunikation. Nutzt der IT-Betrieb eine proaktive Lösung, um zielgerichtet betroffene Mitarbeiter über Störungen zu informieren ermöglicht dies eine bessere Support-Koordination mit Anwendern, insbesondere für drei Anforderungen:

Fehlervermeidung und Anleitung: Bleiben wir beim VPN-Beispiel: Bei drohenden Kapazitätsengpässen kann ein automatisierter Hinweis an Anwendergruppen erfolgen, das VPN bei nicht-sicherheitsrelevanten Applikationen abzuschalten, verbunden mit der bedarfsweisen Anleitung, wie der Umgang mit dem VPN am besten umzusetzen ist.
Planung: Sind – etwa für Software-Roll-outs – Konfigurationen an Endgeräten nötig, lassen sich Remote-Anpassungen durch den IT-Helpdesk proaktiv durch personalisierte Mitteilungen direkt mit dem Nutzer planen, statt auf Tickets für die bereits absehbaren Probleme zu warten.
Warnung und Workarounds: Sind Störungen akut aufgetreten, helfen eingeblendete Nachrichten an alle möglichen Betroffenen – bevor sie in die Falle tappen. Wenn diese Nachricht auch noch die Dauer der Störung und mögliche Workarounds enthält, erspart dies vielen Anwendern, durch unbestimmte Wartezeit blockiert zu sein. Auch Helpdesk-Mitarbeiter profitieren davon, nicht allen Anrufern das gleiche Problem erklären zu müssen und sich stattdessen auf deren Lösung zu fokussieren.

Das IT-Erlebnis verbessern

Im Kern von Digital Experience Management beziehungsweise EUEM geht es darum, das IT-Erlebnis für den Mitarbeiter zu verbessern und dafür zu sorgen, dass er IT-Services produktiv konsumieren kann – vom Endgerät über lokale Software bis hin zu Web-Applikationen.

Dies funktioniert nur systemgestützt und mit Echtzeitdaten – also mit dem Wissen um Zusammenhänge auf Anwendungs-, Hardware- und Netzebene. Dies ermöglicht vorausschauendes Agieren, statt im Firefighting-Modus zu verharren. Es macht einen entscheidenden Unterschied, das „Warum“ sofort beantworten zu können, wenn ein IT-Service gestört, ein Endgerät fehlerhaft, ein Anwender unzufrieden ist. Erst mit Kontext lassen sich Entstörungsprozesse automatisieren und kontinuierlich Verbesserungen erreichen. Ein Ansatz, der weitreichenden Einfluss auf den kosteneffizienten IT-Betrieb und die Steigerung der Produktivität im Unternehmen gleichermaßen hat.

*Holger Dörnemann ist Solution Consultant Director Central EMEA bei Nexthink.