IT- und Cloud-Umgebungen werden immer komplexer. Konzepte wie Observability sollen sicherstellen, dass IT-Fachleute, Entwickler und Security-Spezialisten den Überblick behalten. [...]
Durchblick durch Observability
Hier kommt Observability ins Spiel. „Neben dem Monitoring-Part umfasst ein solches Konzept auch Log-Daten, das Tracing sowie Metriken. Dieser ganzheitliche Ansatz hat den Vorteil, dass Probleme effizient identifiziert und gelöst werden können“, sagt Martin Bauer, Partner beim IT-Dienstleister Cluster Reply.
Ganzheitlich bedeutet, dass Observability den gesamten IT-Stack einbezieht: „Dazu zählen beispielsweise die Analyse von Anwendungen, Speicher, Dienste sowie Netzwerke – und das in Echtzeit“, erläutert Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics.
„Mit Observability verschaffen sich Unternehmen einen umfassenden Einblick in das Verhalten, die Leistung und den Zustand ihrer Applikationen. Dies schließt essenzielle Telemetriedaten mit ein, etwa Metriken, Ereignisse, Logs und Traces, die in IT-Umgebungen gesammelt werden“, so der Fachmann weiter. Im Unterschied zu Monitoring sind Anwender dadurch in der Lage, im Vorfeld mögliche Engpässe und Ursachen von Performance-Einbußen zu erkennen und Vorkehrungen zu treffen.
Eine immer wichtigere Rolle spielen dabei Künstliche Intelligenz und maschinelles Lernen: „Moderne Observability-Lösungen wie Alluvio IQ nutzen KI und Machine Learning, um Daten aus dem Monitoring der Network Performance und der Digital Experience zu korrelieren. Dadurch liefern sie verwertbare Erkenntnisse über geschäftsrelevante Ereignisse“, verdeutlicht Oliver Oehlenberg, Field Chief Technology Office EMEA bei Riverbed Technology.
Idealerweise werden durch den Einsatz von KI, ML und weiteren datenwissenschaftlichen Ansätzen Muster, Trends, Korrelationen und Anomalien sichtbar.
Ein weiterer Vorzug von KI und ML im Zusammenhang mit Observability ist, dass beide Technologien die Zahl der fehlerhaften Meldungen und Daten verringern, ergänzt Frederik Bijlsma von VMware Tanzu: „Ein entscheidender Vorteil, den Observability bieten kann, sind intelligente Alarme. Sie unterscheiden Fehlalarme von Ernstfällen und filtern das ‚Grundrauschen‘ heraus. Lösungen wie VMware AI Genie nutzen KI und maschinelles Lernen, um Alarme noch smarter zu machen und Vorhersagen über die Performance zu treffen.“
Observability-Varianten
Bei Observability haben sich mehrere Spielarten entwickelt. Die Lösungen der führenden Anbieter decken in der Regel all diese Varianten ab.
Data Observability: Dieser Ansatz fokussiert sich auf die Datenebene, nicht die gesamte IT-Umgebung. Das Ziel ist, die Qualitätssicherung von Daten zu optimieren und Fehlern durch unzureichende oder mangelhafte Daten vorzubeugen. Ein weiteres Element ist ein zentrales Datenmanagement, und zwar während ihres gesamten Lebenszyklus.
Model Observability: Diese Variante zielt darauf ab, hochwertige und fehlerfreie Modelle im Bereich Machine Learning zu erstellen. Ein Mittel ist die automatisierte Analyse von Problempunkten, die im Zusammenhang mit Faktoren wie Bias und einer mangelnden Datenintegrität stehen.
Network Observability: Entsprechende Lösungen nutzen die Daten von Network-Monitoring-Tools, Deep Packet Inspection und Telemetrie-Software, um eine ganzheitliche Sicht auf das Netzwerk zu erstellen. Dies erfolgt aus Sicht der Nutzer und deren Erfahrungen (User Experience) sowie der Anwendungen und Systeme, die das Netzwerk verwenden. Ebenso wie bei allen Observability-Spielarten spielen KI und Machine Learning eine wichtige Rolle, um die Analysen und das Beheben von Fehlern zu beschleunigen und zu automatisieren.
Security Observability: „Security Observability geht über das Logging und Monitoring hinaus und nutzt umfassende Daten der Umgebung sowie Applikationen, um unerwünschte Zustände und potenzielle Angriffe frühzeitig zu erkennen“, erläutert Martin Bauer, Partner von Cluster Reply. Im Idealfall lassen sich dann Angriffe unterbinden, bevor es zu einem Schaden kommt. Dies setzt voraus, dass zu jedem Zeitpunkt Informationen über den Zustand von Systemen und Applikationen vorliegen. Das reicht weiter als Security-Events in Log-Daten.
Entlastung der IT-Abteilungen
Observability-Lösungen mit KI-Funktionen entlasten außerdem die IT-Abteilungen. Das ist vor dem Hintergrund des nach wie vor gravierenden Mangels an IT-Fachkräften ein wichtiger Faktor. Denn nach einer Studie des Digitalverbands Bitkom vom November 2022 fehlen in Deutschland 137.000 IT-Fachkräfte – ein neuer Rekordwert.
„KI-Funktionen übernehmen mühsame, zeit- und konzentrationsintensive Arbeiten – und nehmen dadurch viel Druck von den Mitarbeitenden“, sagt beispielsweise Klaus Kurz von New Relic. Eine KI-Instanz könne beispielsweise eigenständig Lösungsvorschläge und Handlungsempfehlungen erarbeiten sowie neuartige Fehler erkennen, an die Entwickler beim System-Roll-out noch gar nicht dachten. Es ist absehbar, dass eine KI im Rahmen von Observability-Aufgaben künftig verstärkt automatisiert Entscheidungen treffen und umsetzen wird – unter Aufsicht von IT-Experten.
Zentrale Funktionen von Observability-Lösungen
Das Beratungshaus Gartner hat im Juni 2022 im „Magic Quadrant for Application Performance Monitoring and Observability“ folgende Kernfunktionen für Observability- und APM-Lösungen definiert:
- „Beobachtung“ des Transaktionsverhaltens von Anwendungen
- Automatische Identifizieren und Mapping von Applikationen sowie deren Infra- strukturkomponenten inklusive Cloud-Services
- Monitoring von Anwendungen, die auf mobilen Endgeräten und im Browser ausgeführt werden
- Identifizierung und Analyse von Performance-Problemen und deren Auswirkungen auf das Geschäftsergebnis
- Integration in Automatisierungs- und Servicemanagement-Werkzeuge sowie Zusammenarbeit mit Cloud-Plattformen
- Möglichkeit, Telemetriedaten auszuwerten, etwa Log-Files, Traces und Metriken
- Sicherheitsfunktionen und Analyse von sicherheitsrelevanten Vorkommnissen
Herauskristallisiert hat sich allerdings, dass weitere Funktionen erforderlich sind: „Es sind Observability-Lösungen erforderlich, die mit AIOps-Funktionen kombiniert werden und weitreichende Insights in Performance-Probleme ermöglichen“, sagt Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. Störungen und Anomalien müssten sich mithilfe von Machine Learning identifizieren lassen. Außerdem ist es Ziegler zufolge wichtig, dass die Beseitigung von Performance-Engpässen oder Störungen automatisiert abläuft.
Be the first to comment