Was müssen Verantwortliche von Pentaho Data Integration Projekten berücksichtigen, damit das Projekt nicht schief läuft? Und was ist bei der Verarbeitung und Analyse von IoT-Daten wichtig? [...]
Auf dem Pentaho User Meeting 2018 gab es die Antworten auf wichtige Fragen.
Eine Data Integration-Architektur sollte dann aufgebaut werden, wenn
- die Lösung sehr komplex wird,
- die Entwicklerteams eine gewisse Größe erreicht haben,
- bewusst Entscheidungen für bestimmte Lösungskomponenten getroffen werden,
- ein holistischer Blick auf Sicherheit, Qualität, Transparenz, Leistung erwünscht ist oder
- eine Validierung von High-Level-Anforderungen nötig ist.
Whiteboarding ist eine gute Methode, die mit den beteiligten Stakeholdern gemacht werden kann. Man sollte sich aber darüber im Klaren sein, dass sie nur der Anfang ist.
Auch Skalierbarkeit sollte bei Datenintegrationsprojekten unbedingt beachtet werden, genauso wie Transparenz: Je stärker die Komplexität von Daten und Prozessen wächst, umso wichtiger wird Transparenz. Als Grundregel gilt: Man sollte stets die Daten nachverfolgen können, die sich zwischen den einzelnen Teilen einer Architektur bewegen. Im Zweifel sollte man lieber mehr Logging, Tracking und Tracing verwenden als zu wenig. Zudem ist es empfehlenswert, in der Architektur Komponenten zu verwenden, die ein Monitoring ermöglichen (z. B. Server einsetzen, die einem erlauben zu sehen, was gerade vor sich geht).
Best Practices für IoT
Für die Verarbeitung und Analyse von IoT-Daten sind die folgenden Tipps hilfreich:
Hadoop – Man sollte die Software innerhalb des Hadoop-Ökosystems auswählen, die am besten zu der jeweiligen Architektur passt. Dabei sollten nur wirklich unterstützte Komponenten zum Zug kommen. Durch ein durchgehendes Logging kann man Transparenzproblemen entgegenwirken. Das richtige Sizing bei der Architektur ist wichtig, denn die Balance muss stimmen. Hadoop sollte zudem nicht nur als Datenbank genutzt werden, sondern als skalierbarer Teil der Architektur.
„IoT is messy“
Wer IoT-Analyseanwendungen umsetzen will, muss sich darüber im Klaren sein, was das bedeutet: schwankende Datenqualität, Datenverbindungsprobleme, spät ankommende Daten, unregelmäßig ankommende Daten (geringe Vorhersagbarkeit), hohe Komplexität, unterschiedliche Datenformate und -versionen sowie eine stark variierende Anzahl von Geräten.
Tipps:
Um keine bösen Überraschungen zu erleben, sollten man schon im Voraus Pläne für Fehler und Ausfälle erstellen, moderne Technologien wie Metadata Injections nutzen, Queues so stark wie möglich in jeglicher Form einsetzen und immer damit rechnen, dass in jedem Szenario Dinge falsch laufen können.
Fazit:
- Die Architektur muss der Kern des Ganzen sein, nicht nur Teil der Dokumentation.
- Ein kritischer Blick ist essentiell.
- Details sind ausschlaggebend.
- Man sollte bereit sein, seine Vorstellungen jederzeit über den Haufen zu werfen.
- Stakeholder müssen involviert werden.
- Der Einsatz von Pentaho Data Integration sollte erwogen werden.
Die Tipps aus der Praxis stammen von Matt Casters, der mit Kettle den wichtigsten Teil der Pentaho-Plattform entwickelt hat und. Er hat diese Best Practices beim diesjährigen Pentaho User Meeting präsentiert. Andere, dort präsentierte Inhalte finden Sie auf der Nachberichtsseite.
Eine Zusammenfassung aller Vorträge und Präsentationen finden Sie in diesem Dokument.
Be the first to comment