30 Jahre Internet: Ververica zur Evolution des Stream Processing

In den letzten 30 Jahren gab es tiefgreifende Veränderungen bezüglich der Art und Weise, wie und wo Daten entstehen bzw. verarbeitet werden. Eine der aktuell bedeutendsten Entwicklungen ereignet nach Meinung von Ververica im Bereich des Stream Processing. [...]

Aljoscha Krettek, Mitbegründer und Engineering Lead bei Ververica (c) Ververica

„Um Stream Processing zu verstehen lohnt es sich, einen Blick viele Jahrzehnte zurückzuwerfen. Die Erfindung des Computers ermöglichte die Verarbeitung von Informationen und Daten. In der Anfangszeit mussten Informatiker eigene Programme zur Datenverarbeitung schreiben. Nach den Assemblersprachen Fortran, C und Java entstanden in den 1970er Jahren traditionelle relationale Datenbanksysteme , die SQL ermöglichten“, erläutert Aljoscha Krettek, Mitbegründer & Engineering Lead bei Ververica (vormals Data Artisans). „Diese trugen zu einer größeren Akzeptanz der Datenverarbeitung bei, da Unternehmen nicht mehr darauf angewiesen waren, dass Programmierer maßgeschneiderte Programme schreiben und Daten analysieren.“

Big Data im Anmarsch

Als einige Jahrzehnte später Google MapReduce veröffentlichte, läutete dies die Ära von Big Data ein. Das MapReduce-Papier erklärte ein einfaches Modell, das auf zwei Primitiven basiert: Map und Reduce. Diese Primitive erlaubten parallele Berechnungen über eine große Anzahl von Maschinen. MapReduce hat diese Funktion einem breiteren Publikum zugänglich gemacht.

Apache Hadoop kam als Open-Source-Implementierung des Frameworks (ursprünglich bei Yahoo! implementiert), das im Open-Source-Bereich weit verbreitet und einem breiten Publikum zugänglich war. Viele Big-Data-Akteure haben ihren Ursprung im Hadoop-Framework, das auch ein neues Paradigma in den Datenverarbeitungsraum brachte: die Möglichkeit, Daten in einem verteilten Dateisystem oder Speicher vorzuhalten, die dann zu einem späteren Zeitpunkt abgefragt werden können.

Apache Spark wird geboren

Apache Spark wurde zum nächsten Schritt bei Big Data. Spark ermöglichte eine zusätzliche Parallelisierung und brachte die Batch-Verarbeitung auf die nächste Stufe. Dieses Konzept stellt Daten in ein Speichersystem für geplante Berechnungen. In diesem Fall können sich die Daten irgendwo befinden, während Anwender regelmäßig (täglich, wöchentlich oder stündlich) Abfragen durchführen, um Ergebnisse auf der Grundlage früherer Informationen zu erhalten. Diese laufen nicht kontinuierlich und haben einen Start- und einen Endpunkt. Daher müssen sie immer wieder neu ausgeführt werden, um aktuelle Ergebnisse zu erhalten.

Das Aufkommen der Stream-Verarbeitung

Big Data wurde mit der Einführung der Stream-Verarbeitung mittels Apache Storm weiter verfeinert. Dies war das erste weit verbreitete Framework. Es gab zwar andere Forschungssysteme und Frameworks, die gleichzeitig realisiert wurden, aber Storm hatte die höchste Akzeptanz. Apache Storm ermöglichte die Entwicklung von Softwareprogrammen und Anwendungen, die kontinuierlich laufen konnten. Dies stand im Gegensatz zum Ansatz der Batch-Verarbeitung, bei dem Programme und Anwendungen einen Anfang und ein Ende haben. Mit der Stream-Verarbeitung laufen Berechnungen kontinuierlich auf Datenströmen ab und liefern Ergebnisse in Echtzeit, und zwar in dem Moment, in dem Daten generiert werden. Apache Kafka hat die Stream-Verarbeitung, ursprünglich bei LinkedIn eingeführt, als Speichermechanismus für einen Nachrichtenstrom weiterentwickelt. Kafka fungierte als Puffer zwischen den Datenquellen und dem Verarbeitungssystem.

Obwohl Apache Storm einen radikal neuen Ansatz in der Datenverarbeitung einleitete, stellten viele führende Daten- und Analytikunternehmen die Fähigkeit des Frameworks in Frage, effektiv zu skalieren und eine Single Source of Truth (SSOT) im Framework bereitzustellen. Dies änderte sich mit der Einführung von Apache Flink mit starken Konsistenzgarantien, hohem Durchsatz, genau einmaliger Semantik und niedriger Latenz. Da immer mehr führende Daten- und Analytikunternehmen auf die Rechenfähigkeiten von Flink setzen, avancierte das Framework zu einem bedeutenden zustandsbehafteten Stream-Verarbeitungs-Framework. So wird es heute von Entwicklern in einigen der größten und innovativsten Technologieunternehmen der Welt genutzt.

„Die Fähigkeiten und Anwendungsfälle der Stream-Verarbeitung wachsen exponentiell, da immer mehr Unternehmen das neue Paradigma übernehmen. Flink ermöglicht es beispielsweise, ein Betrugserkennungsprogramm zu entwickeln, das rund um die Uhr läuft. Es erfasst Ereignisse in wenigen Millisekunden und liefert Einblicke in Echtzeit“, so Aljoscha Krettek von Ververica. „Dadurch verhindert es, dass Betrug tatsächlich stattfindet. Die Ermöglichung von Echtzeit-Einblicken in das Geschehen in der Welt ist eine große Veränderung in der Datenverarbeitung. Unternehmen sind dadurch zum ersten Mal in der Lage, Ereignisse so zu erfassen und zu verarbeiten, wie sie sich in der realen Welt manifestieren.“

2019 und darüber hinaus

In einem aktuellen Bericht der IDC („The Global Datasphere“) prognostizierten die Analysten, dass bis 2025 Echtzeit-Daten einen Anteil von 30 Prozent aller erzeugten Daten ausmachen werden und dass sechs Milliarden Verbraucher täglich mit Daten interagieren werden. Die Stream-Verarbeitung wird eine der wichtigsten Grundlagentechnologien sein, um die Nutzung dieser neuen Welle von Echtzeitdaten in Unternehmen aller Branchen voranzutreiben.

„Daten sind der Lebensnerv eines jeden modernen Unternehmens, perfekt veranschaulicht durch digital native Unternehmen wie Lyft und Uber, deren Geschäftsmodell auf Live-Datenströmen basiert. Solche Unternehmen bieten ein unvergleichliches Kundenerlebnis, das sich als neuer Standard durchsetzt und das nun auch viele andere Unternehmen anstreben, um sich im Wettbewerb zu behaupten“, erläutert Aljoscha Krettek. „Die Fähigkeit, auf Daten in Echtzeit zu reagieren, jedem Kunden ein personalisiertes Erlebnis zu bieten, basierend auf seinen individuellen Präferenzen und seiner Geschichte, wird heute in jeder Branche erwartet. Hierzu gehört auch, auf Probleme sofort zu reagieren und den Geschäftsbetrieb ständig zu verbessern.“

Effekte von Stream Processing auf Unternehmen

Die Stream-Verarbeitung ist beispielsweise ein relativ einfacher Weg, um eine DSGVO-konforme Dateninfrastruktur aufzubauen. Klassische „Data-at-Rest“-Architekturen machen die Erfassung, wo sensible Daten existieren, äußerst komplex. Immer mehr Unternehmen werden Streaming-Datenarchitekturen einsetzen, die an Daten in Bewegung arbeiten, wodurch es einfacher wird, sensible Informationen für eine begrenzte Zeit im Anwendungszustand isoliert zu halten – und sie damit konform zu machen.

Cybersicherheit sorgt für Schlagzeilen und wird auch in Zukunft ein wichtiger Bestandteil der IT-Landschaft sein. Um Sicherheitsverletzungen zu erkennen und zu verhindern, müssen Cybersicherheitslösungen nach Anomalien in den Metriken und Nutzungsmustern der Netzwerkinfrastruktur, Anwendungen und Dienste suchen – in Echtzeit. Die Einführung der Stream-Verarbeitung wird nach Meinung von Ververica in allen Bereichen der Cybersicherheit weiter zunehmen, da die Technologie mit ihrer Fähigkeit, Ereignisse zu sammeln und zu aggregieren, komplexe Muster zu verfolgen, maschinelle Lernmodelle auszuwerten und mit Daten in Echtzeit anzupassen, hervorragend zu diesen Anforderungen passt.

Die verheißungsvolle Zukunft von 5G und die zunehmende Verbreitung von IoT-Sensoren und -Geräten ist eine weitere bedeutende Entwicklung. Sie wird die Nachfrage nach Echtzeit-Streaming-Daten und -Anwendungsfällen, die eine sofortige Reaktion auf Ereignisse erfordern, erhöhen. Die Stream-Verarbeitung wird als effiziente Möglichkeit zur Realisierung von „Edge Computing“ eingesetzt werden. Die Streaming-Datenarchitektur wird sich durchsetzen, weil sie sowohl für die bisherige Art der Datenverarbeitung auf Geräten oder Gateways als auch für die Ausführung ereignisgesteuerter Logik am Edge hervorragend geeignet ist.

„Die explosionsartige Zunahme von KI-Anwendungen wird die verteilte Stream-Verarbeitung zu einer Notwendigkeit machen. Neben den reinen maschinellen Lerntechniken wird die Stream-Verarbeitung zu einem zentralen Element, um komplexe Merkmalsvektoren zusammenzustellen, die den Kern der komplexen maschinellen Lernprädiktoren bilden. Verteilte, leistungsstarke Stream-Processing-Frameworks werden notwendig sein, um immer komplexere Echtzeitdaten in großem Stil für Modelle und Algorithmen des maschinellen Lernens effizient zu modellieren und vorzuverarbeiten“, fasst Aljoscha Krettek von Ververica abschließend zusammen.