Der einfache Zugriff auf Daten und die nahtlose Integration sind Schlüsselfaktoren für eine erfolgreiche Business-Intelligence (BI)-Implementierung. Entscheidend ist der komfortable Zugang zu relationalen wie zu NoSQL-Datenbeständen im eigenen Rechenzentrum und in der Cloud. [...]
Wenn es um die Speicherung und Analyse von wenig strukturierten Daten geht, kommt vielfach die Datenmanagementlösung Hadoop mit seinem Hadoop Distributed File System (HDFS) zum Einsatz. HDFS speichert sehr große Datenmengen kaum unstrukturierter Daten wie Texte, Bilder und Videos verteilt auf mehrere Rechnerknoten.
Diese kurze Zusammenfassung möglicher Datenquellen für BI-Anwendungen zeigt eines: Die Datenbanklandschaft hat sich in den letzten Jahren stärker differenziert und ist komplexer geworden. Weil das Spektrum der möglichen BI-Anwendungsszenarien deutlich größer wurde, ist der Erfolg der einzelnen Lösungen in hohem Maße von der Fähigkeit abhängig, möglichst einfach und zuverlässig auf die verschiedenen strukturierten und weniger strukturierten Daten im eigenen Rechenzentrum und in der Cloud zugreifen zu können. In nahezu jedem Unternehmen, das BI-Anwendungen einsetzt oder neue Projekte plant, hat die Qualität der Daten einen hohen Stellenwert. Ob stark oder nur gering strukturiert: Die Informationen müssen erfasst und daraufhin überprüft werden, ob sie aktuell, korrekt und konsistent sind. Falls dies nicht der Fall ist, muss die IT für eine Nachbearbeitung sorgen. Hier sind keine Abweichungen zulässig, denn ansonsten kommen die BI-Anwendungen zu falschen Schlüssen.
ANFORDERUNGEN AN DATENZUGRIFFSMETHODEN UND -INTEGRATION
BI-Applikationen sind heute darauf angewiesen, Informationen aus unterschiedlichen Datenquellen zusammenzuführen. Nach dem Import in ein traditionelles Data-Warehouse werden die Rohdaten in drei Schritten aufbereitet und mit einer tabellarischen Datenstruktur versehen: Extract, Transform, Load (ETL). Hadoop wandelt diesen Prozess leicht ab in die Abfolge Extract, Load, Transform (ELT). Rohdaten werden ohne Struktur abgelegt und erst zum Zeitpunkt der Analyse erfolgt eine Transformation in die benötigte Struktur. Bei den Echtzeitdaten, die beispielsweise von Sensoren einer Fertigungsstraße stammen, verarbeiten vorgelagerte Messaging- oder Event-Processing- Systeme die eingehenden Datenströme, und leiten sie dann zur Weiterverarbeitung an NoSQL-Datenbanken oder Hadoop weiter.
Konnektoren machen die Daten aus den verschiedenen Datenquellen zugänglich. Für den Zugriff auf relationale Datenbanken kommen standardbasierte Schnittstellen ADO.NET und JDBC sowie zum Teil auch heute noch ODBC zum Einsatz wie sie etwa Progress DataDirect bietet.
Interessant wird es, wenn neben den relationalen Datenbanken auch Informationen aus nicht-relationalen System und den unterschiedlichen Social-Media-Kanälen berücksichtigt werden sollen. Mit einer Punkt-zu-Punkt-Verbindung, bei der für jede Datenquelle deren proprietären APIs in einer BI-Applikation genutzt werden müssen, lässt sich das Problem kaum lösen. Denn dann würde man jeweils die herstellerspezifischen Schnittstellen zu Big-Data-Quellen wie dem Hadoop Distributed File System, der Data-Warehouse-Lösung Hive, dem CRM-System Salesforce.com oder sugarCRM, Facebook und Twitter sowie NoSQL-Datenbanken wie Cassandra und MongoDB etc. nutzen müssen. Hier gibt es zu viele unterschiedliche APIs und Versionsstände der APIs, die ein Entwickler in einer Applikation berücksichtigen müsste. Zusätzlich verschärft wird die Situation, wenn die externen mit den internen Datenquellen zu kombinieren sind.
Mit DataDirect Cloud bietet Progress Software eine Lösung für das Connection Management in der Cloud, das auch die Datenbankquellen vor Ort mit einbezieht. Als Connectivity-as-a-Service stellt die Lösung einen auf Standards basierten SQL-Zugang zu Daten aus den verschiedenen Quellen bereit. Die Entwickler von BI-Applikationen müssen dazu keine Schnittstellen anpassen oder neue Libraries hinzuziehen. Darüber hinaus kann DataDirect Cloud auch JDBC-Code nutzen.
Die Anforderungen an BI-Anwendungen sind in den letzten Jahren enorm angestiegen. Eine der Herausforderungen besteht darin, dass heute deutlich mehr und vielfältigere Datenquellen zu berücksichtigen sind. Das reicht von den bewährten relationalen Systemen über NoSQL-Datenbanken und Big-Data-Plattformen wie Hadoop bis zu Cloud- und Social-Media-Plattformen. BI-Basistechnologien müssen Konnektoren zu allen bedeutenden Datenquellen bereitstellen, um die Daten anschließend mit den dazu geeigneten Integrations-Tools zusammenfassen und aufbereiten zu können. Je leistungsfähiger die Werkzeuge sind, desto eher sind IT-Abteilungen auch in der Lage, die Anforderungen der Fachabteilungen nach Self-Service-BI-Applikationen zu erfüllen.
* Tony Fisher ist Vice President Data Collaboration and Integration bei Progress.
Be the first to comment