Drohnendaten zur Monsunüberwachung

Wenn Wissen die Vision für die Zukunft ist, sind Daten und Informationen das Mittel, um sie zu erreichen. [...]

Gianluca Andreis, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi, stellte das Großprojekt beim diesjährigen Pentaho Community Meeting in Bologna vor.

Ein Beispiel: Der indische Bundesstaat Andhra Pradesh wertet in einem „Echtzeitkontrollraum“ große Datenmengen aus, um die öffentliche Infrastruktur, Sozialprogramme, Verkehr, Wetter, etc. zu überwachen, bei Problemen rechtzeitig Maßnahmen treffen und natürliche Ressourcen besser nutzen zu können.

Das größte Kontrollzentrum Asiens basiert auf Pentaho: Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. Das Real-Time Governance Center (RTG) ist die Reaktion auf die rasant zugenommene Landflucht und Bevölkerungsverschiebung von anderen Teilen Indiens nach Andhra Pradesh. Mit einer Fläche kleiner als Italien steht der Bundesstaat unter starkem Handlungsdruck, weiterhin die Versorgung der Bevölkerung und die öffentliche Sicherheit gewährleisten zu können. Das System führt Daten zusammen, die Sensoren und Kameras (teils in Drohnen zur Monsunüberwachung) sammeln und die in Pentaho integriert und aufbereitet werden. Die Visualisierung in Ad-Hoc Dashboards erfolgt über die Hitachi Visualization Suite. Gianluca Andreis, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi, stellte das Großprojekt beim diesjährigen Pentaho Community Meeting in Bologna vor, dem weltweiten Anwendertreffen der BI- und Big Data-Plattform. Auf dem Event, das zum elften Mal stattfand und von Hitachi Vantara und it-novum organisiert wird, tauschten sich über 220 User aus 25 Ländern zu IoT, Analytics, Machine Learning und Datenintegration aus, 27 Referenten stellten spannende Entwicklungen und Projekte vor.

Kostenoptimierungen im Gesundheitsbereich

Auch die beiden Softwarearchitekten Girogio Grillini und Virgilio Pierini stellten ihr Projekt vor. Sie hatten für ein Budget von nur 40.000 Euro eine Data Warehouse- und Reportinglösung für die Akteure im italienischen Gesundheitssystem erstellt, die einen zentralen Zugriff auf medizinische Daten und Auswertungen aus 30 Datensystemen bietet.

Gesundheitsämter, Krankenhäuser und Arztpraxen können über ein Analysefrontend eigenständig und datenbasiert therapeutische Entscheidungen treffen. Betroffen sind nicht nur Abwägungen zwischen wirksamen und weniger wirksamen Medikamenten, sondern auch ob sich mit günstigen Generika der gleiche Therapieeffekt einstellt wie mit teuren Markenprodukten. So ist es z.B. möglich, den genauen Wirkungsgrad einer Arznei innerhalb einer bestimmten Altersgruppe mit festgelegten Eigenschaften herauszufinden, z.B. hoher Cholesterinspiegel, Übergewicht oder Geschlecht.

Die Herausforderungen des Projekts lagen vor allem in den gesetzlichen Rahmenbedingungen, die der Umgang mit medizinischen Daten unterliegt. Aufgrund verschiedener regionaler, nationaler und europäischer (DSGVO) Vorgaben lagen die Daten in unterschiedlichen Formaten und Nutzungsbestimmungen vor und mussten auf ein einheitliches, rechtskonformes Format gebracht werden. Um zudem Datenauswertungen in der Cloud ermöglichen zu können, anonymisiert ein eigens entwickeltes Kodierprogramm auf einer Anonymisierungsinstanz die Daten.

Auswertungen zum Nutzen von Medikamenten

Ein weiterer Usecase aus dem Gesundheitsbereich zeigte, wie ETL den Wert eines Softwareprodukts enorm steigern kann. Dental Trey, ein italienisches Unternehmen mit einem Umsatz von 40 Millionen Euro im Bereich Zahnprodukte, hat seine Software um Pentaho-basierte ETL-Strecken erweitert, die Daten aus verschiedenen Wettbewerberlösungen integrieren. Die Anwender der Software profitieren dadurch von einer stark erweiterten Datenbasis für ihre Auswertungen, z.B. zum Einsatz und Nutzen von Medikamenten.

CERN: Herausforderungen einer großen Organisation

Die zweite Keynote gehörte Gabriele Thiede und Jan Janke vom CERN, einem der größten Anwender von Pentaho. Mit 23.000 Mitarbeitern ist das CERN nicht nur eine riesige Forschungsorganisation, sondern auch eine eigene Welt für sich: es betreibt nicht nur Banken, Postfilialen und Feuerwehrwachen, sondern besitzt auch ein eigenes Sozialversicherungs- und Rentensystem und Servicestellen für die Beantragung von Arbeits- und Aufenthaltsgenehmigungen, Kfz-Zulassungen etc. der Mitarbeiter.

Mit Pentaho verarbeitet das CERN die hier anfallenden Daten(prozesse). Informationen aus Personal-, Finanz-, Logistik-, ERP- und weiteren Systemen werden in einem Data Warehouse gespeichert und in Fast-Echtzeit mit einer Verzögerung von 2-15 Minuten gehalten. Für die vielen ETL-Prozesse setzt das CERN ausschließlich Pentaho Data Integration ein, für Auswertungen und Visualisierungen kommen Pentaho Business Analytics und CTools zum Einsatz.

Self-Service Analysen und Reports

Direkt mit Pentaho arbeiten einige hundert Fachanwender beim CERN. Die mit Pentaho erstellten Auswertungen, Formulare und offizielle Dokumente stehen jedoch der gesamten Organisation zur Verfügung. Das sind z.B. Berichte, Zertifikate und Bescheinigungen wie die jährliche Personalstatistik für die Mitgliederstaaten oder die zahlreichen Formulare für die Zollbestimmungen. Für Self-Service-Auswertungen für alle Mitarbeiter steht ein eigenes Portal bereit. Auch im Einkauf nutzt das CERN Pentaho, um in einem Live-Dashboard die Ausgaben für Material und Services pro Lieferantenland zu überwachen.

Zeitreisen mit PDI

In einer so großen und komplexen Organisation wie dem CERN steht die Verarbeitung und Auswertung von Daten ständig vor neuen Herausforderungen. Beispielsweise bildet die Datenbasis nicht immer die Realität ab, da es zu rückwärtigen Datenveränderungen kommen kann. Um dennoch reproduzierbare Statistiken und Berichte erstellen zu können, reist das CERN regelmäßig zurück in die Zeit: ein bitemporales Datenmodell im Data Warehouse bildet eine zweite Zeitdimension und damit zwei Wirklichkeiten ab, eine geschäftliche und eine technische. Auf diese Weise ist es möglich, den Stand der Daten zu einem beliebigen Zeitpunkt nachzuvollziehen.

Weitere Herausforderungen betreffen die Einbindung von Daten aus der Cloud und die Einführung von Predictive Analytics. Das CERN plant zudem, Machine Learning-Algorithmen einzusetzen, die auf Modellen mit historischen Daten basieren.

Eine Zusammenfassung aller Vorträge findet sich im Live-Blog vom Event.

Weitere Entwicklungen und Vorträge umfassten unter anderem:

  • Integration und Auswertung von Daten aus IT Service Management-Systemen für Multiprovider-Anbieter. Über die offenen Schnittstellen von Pentaho können Informationen aus verschiedensten Helpdesk-, IT-Monitoring- oder IT-Dokumentationssystemen in ein Data Warehouse geladen und dort mit anderen Daten integriert werden. Die Plattform openLighthouse erlaubt einen ganzheitlichen Blick auf alle IT-Services, auch auf die in der Cloud.
  • Auswertung von Daten aus SAP-Systemen: Mit Pentaho lassen sich Informationen aus SAP (ERP, BW, HANA) integrieren und mit anderen Daten, z.B. aus der SAP Cloud Platform oder Drittsystemen integrieren. Der SAP/Pentaho Connector unterstützt derzeit die SAP Steps SAP ERP Table Input, SAP BW/ERP RFC Executor und SAP BW DSO Input, weitere Steps sind in Vorbereitung.
  • Big Data OLAP mit Pentaho, Kylin und Hadoop: Der Aufbau von Big Data-Landschaften gehört zu den komplexesten IT-Projekten. Ein Modell für eine vollständig aus offenen Technologien bestehende Big Data-Landschaft stellte das spanische Softwarehaus strateBI vor. Mit Pentaho, Apache Kylin, PostgreSQL und einem Hadoop-Cluster können skalierbare und hochperformante Systeme für große Datenmengen erstellt werden. Eine Online-Demo und Benchmark zur Abfragenperformanz ist hier abrufbar.
  • Realtime Streaming mit Raspberry PI und PDI
    Aus dem Musikbereich stammte der Usecase zum Echtzeit-Streamen von Daten bei Millionen gleichzeitiger Anwender. Mit einer einfachen und zudem kostengünstigen Kombination aus Pentaho Data Integration und der verteilten Streaming-Plattform Apache Kafka (genutzt u.a. von Twitter, Netflix und Airbnb) auf einem Raspberry PI ist es möglich, ein Realtime Streaming mit hoher Leistung und Skalierung bei geringem Budget umzusetzen.
  • Self-Service BI für Fachanwender
    Die Bedürfnisse von Fachabteilungen und technischen Usern lassen sich selten miteinander in Einklang bringen. Das von Nuno Pereira, Hitachi Vantara, präsentierte Self-Service Dashboard schafft es, die Anforderungen beider Gruppen abzudecken. Entwickelt für einen Kunden aus dem Telematikbereich zur Auswertung von Verkehrsdaten, deckt das Dashboard durch den Einsatz von Analyse-Widgets die Wünsche aller Nutzergruppen im Unternehmen ab: Entwickler können eigene Widgets selbst erstellen, anpassen und eine Widget-Bücherei anlegen, während Fachanwender in Eigenregie Dashboards und Auswertungen erstellen und beliebig anpassen können. Realisiert wurde die Plattform mit den offenen Visualisierungswerkzeugen CTools.
  • Video Analytics
    Videos werden immer stärker zur Verbesserung der öffentlichen Sicherheit und Infrastruktur herangezogen. Videodaten allein sind aber nutzlos, sie müssen mit weiteren Informationen zusammengebracht und ausgewertet werden. Der Pentaho/HVA Connector integriert Informationen aus Bewegtbildern mit Daten aus anderen Systemen und eröffnet dadurch z.B. Städten ganz neue Möglichkeiten, Verkehrsflüsse zu gestalten und zu optimieren.
  • Nützliche Plugins für Kettle Plugins
    Matt Casters, Entwickler des am häufigsten eingesetzten Open Source ETL Tools Kettle (heute Pentaho Data Integration) stellte Plugins vor, die bei der Erstellung und Verwaltung von ETL-Prozessen nützlich sein können. Eine vollständige Liste findet sich auf dieser Seite.

Mehr Artikel

Be the first to comment

Leave a Reply

Your email address will not be published.


*